Определение копийности контигов с использованием информации о сборке

Известно немало случаев, когда болезнь ассоциирована с некоторыми структурными вариациями (СВ) генома. Особняком при этом стоит проблема определения изменения копийности некоторого участка ДНК, которое, как правило, состоит в множественном копировании и вставке его по всему геному. Вопрос определения копийности особенно остро стоит в раковой геномике, где доказано влияние копийности генов супрессоров или активаторов опухолей на канцерогенез. Еще более интересным является вопрос ассоциации некоторых болезней с копийностью повторов (SINE, LINE и т.д.) в геноме. 
 
Данный вопрос может быть успешно решен in vitro с помощью гибридизации, однако проведение экспериментов в лабораторных условиях имеет свои минусы. В целом для работы с СВ имеется широкий арсенал программных средств, однако ни одно из них не подобралось достаточно близко к решению задачи об определении копийности некоторого участка ДНК. В настоящее время принцип работы данных программ заключается в анализе глубины покрытия контигов, полученных при сборке генома, ридами, однако такой подход имеет ярко выраженные минусы, так как наиболее интересной целью для исследования являются участки с большим покрытием. Для них подобные методы не могут оценить величину копийности достаточно строго. 
 
В данной работе будет представлен алгоритм определения копийности контигов на основе информации о сборке. Алгоритм использует сборочный граф SGA (String Graph Assembler), информацию о парных ридах и референсный геном близкого вида. Идея подобного рода алгоритма берет свои корни в некоторых работах, посвященных потокам в двунаправленных графах. Фактически в алгоритме восстанавливаются потоки в окрестности некоторой вершины графа, но удобнее думать об этих потоках как о путях, которые геном прокладывает в графе. Алгоритм состоит из следующих частей: 
  1. Удаление ребер, которые вызваны спонтанными перекрытиями на основе информации о контигах, имеющих копийность 1. 
  2. Определение множества невложенных путей в окрестности каждой вершины в прямом и обратной направлении. 
  3. Продление путей с использованием информации о референсе родственных видов. 
  4. Балансировка CN с использованием информации о локальной структуре графа. 

Уже закончено тестирование для графов, собранных с помощью идеальных ридов, на котором алгоритм показывает очень хорошие результаты, значительно опережая остальные подходы. В настоящее время алгоритм тестируется на сборке с симулированными ридами и соотвествующим образом дорабатывается, что позволит использовать его в исследованиях на геномах млекопитающих, в частности человека. 

Студент:
   Дмитрий Мелешко
Куратор:
   Son Pham
Время выполнения проекта: Jul 2014 — Jun 2015