Скаффолдинг бактериальных контигов с использованием нескольких референсов и дерева на примере геномов Gluconacetobacter

Бактерии Gluconacetobacter sp. широко распространены в природе и активно используются в промышленности. Они применяются при производстве уксуса, пива, некоторых национальных десертов, а также являются важной составляющей чайного гриба. Одна из интересных особенностей этих бактерий — умение вырабатывать микробиологическую целлюлозу, волокна которой более прочные и длинные по сравнению с растениями. При сотрудничестве кафедры микробиологии СпбГУ и центра геномной биоинформатики им. Ф.Г. Добжанского был отсеквенирован штамм Gluconacetobacter rhaeticus на Illumina MiSeq. Риды были собраны в контиги с использованием SPADES и IDBA, а также построено филогенетическое дерево видов Gluconacetobacter.

Цель работы - собрать контиги в скэффолды с использованием различных инструментов и сравнить сборки.

Использовались скэффолдеры: Ragout, Chromosomer, ABACAS и Contiguator. Для аннотации сборки использовались RAST (Rapid Annotation based on Subsystem Technology). Качество сборок сравнили с использованием REAPR (Recognising Errors in Assemblies using Paired Reads). А также провели анализ сборки и поиск синтенных блоков, применяя Sibelia.

По итогам работы был получен скэффолд, разной длиной при использовании разных скэффолдеров (от 2250462 н. (Ragout) до 3527106 н. (Chromosomer)). В случае сборки Ragout был потерян фрагмент, содержащий гены, кодирующие как подтвержденные белки, так и предполагаемые. Однако при этом количество ошибок при сборке программой Ragout было значительно ниже. В сборках было обнаружено 3 синтенных блока, один — большой длины и два - небольших. 

Студент:
   Элина Радченко
Куратор:
   Михаил Райко
Время выполнения проекта: Feb 2014 — May 2014