На данном сайты содержится только архивная информация о проектах Института биоинформатики до 2016 года.
Вся новая информация располагается на новом сайте: https://bioinf.me.

Check out the new website of the Bioinformatics Institute: https://bioinf.me.

Semi-automatic user-guided GenBank flat file feature parser

Формат данных Genbank flat file предназначен для хранения нуклеотидной последовательности и аннотации ее элементов, таких как гены, кодирующие последовательности, повторы и прочее. Иногда возникает практическая необходимость в программном средстве (парсере), позволяющем извлекать из GenBank-файла записи, соответствующие определенным элементам генома (например, генам определенного вида). Изучение Genbank файлов показывает, что большинство записей не соответствует стандарту Genbank. Типичными отклонениями от стандарта являются: информация в неправильных полях, добавление посторонней информации в поле, потеря полезных полей (Peter D. Karp, 2001). Существующие парсеры (“GBParsy”, “GenScalpel”, “Feature Extract”) не решают вышеописанной проблемы! В настоящей работе "Semi-automatic user-guided GenBank flat file feature parser" ведутся разработки над самообучающимся парсером GenBank фалов. Задачами проекта являются: изучение структур записей GenBank файлов, интеграция биоинформатических навыков, изучение языков python и R, разработка самообучающегося парсера и расширение его функциональностей. На данный момент создан прототип парсера, добавлена некоторая функциональность(создание облака тегов по записям GenBank файла), получены биоинформатические навыки. В будущем будет продолжаться разработка парсера, а именно реализация самообучения парсера.

Студент:
Андрей Шевченко
Ольга Шульга

Куратор:
Гайк Тамазян

Время выполнения проекта: Sep 2013 — Dec 2013

Файлы:
shevchenko_shulga_final_21122013.pdf

You are here

Semi-automatic user-guided GenBank flat file feature parser