Свой RepeatMasker

В рамках проекта разрабатывался подход к изучению филогении повторов в пределах одного генома, что может облегчить анализ эволюции структур геномов и понимание эволюции самих семейств повторов.

Был разработан подход, основанный на MDS (Multidimensional scaling) эволюционных расстояний. Изначально для построения матрицы попарных расстояний использовалась оболочка для локального выравнивания в программе uclust, работавшая чрезмерно медленно. Кроме того, локальное выравнивание давало слишком низкое эволюционное разрешение. Для решения обеих проблем было решено перейти от выравнивания к сравнению k-мерного состава с использованием индекса Джаккарда. 

Построенные на основе новых данных проекции дали более чистую картину, в которой отчетливо видны интересные эволюционные паттерны: пустоты в центрах древних кластеров повторов (связанные с неравенством скоростей прямой и обратной эволюции), множество молодых плотных кластеров, эволюционные дуги и "потоки" (свидетельствуют о направленности эволюции повторов). 

В качестве дальнейших мер предлагается увеличить информационную насыщенность исходной библиотеки повторов, отфильтровав похожие последовательности на основе дистанций Джаро-Винклера.

Студент:
   Илья Корвиго
Время выполнения проекта: Sep 2014 — Dec 2014