Semi-automatic user-guided GenBank flat file feature parser

Формат данных Genbank flat file предназначен для хранения нуклеотидной последовательности и аннотации ее элементов, таких как гены, кодирующие последовательности, повторы и прочее. Иногда возникает практическая необходимость в программном средстве (парсере), позволяющем извлекать из GenBank-файла записи, соответствующие определенным элементам генома (например, генам определенного вида). Изучение Genbank файлов показывает, что большинство записей не соответствует стандарту Genbank. Типичными отклонениями от стандарта являются: информация в неправильных полях, добавление посторонней информации в поле, потеря полезных полей (Peter D. Karp, 2001). Существующие парсеры (“GBParsy”, “GenScalpel”, “Feature Extract”) не решают вышеописанной проблемы! В настоящей работе "Semi-automatic user-guided GenBank flat file feature parser" ведутся разработки над самообучающимся парсером GenBank фалов. Задачами проекта являются: изучение структур записей GenBank файлов, интеграция биоинформатических навыков, изучение языков python и R, разработка самообучающегося парсера и расширение его функциональностей. На данный момент создан прототип парсера, добавлена некоторая функциональность(создание облака тегов по записям GenBank файла), получены биоинформатические навыки. В будущем будет продолжаться разработка парсера, а именно реализация самообучения парсера.
 
 
Куратор:
   Гайк Тамазян
Время выполнения проекта: Sep 2013 — Dec 2013