На данном сайты содержится только архивная информация о проектах Института биоинформатики до 2016 года.
Вся новая информация располагается на новом сайте: https://bioinf.me.

Check out the new website of the Bioinformatics Institute: https://bioinf.me.

Определение копийности контигов с использованием информации о сборке

Известно немало случаев, когда болезнь ассоциирована с некоторыми структурными вариациями (СВ) генома. Особняком при этом стоит проблема определения изменения копийности некоторого участка ДНК, которое, как правило, состоит в множественном копировании и вставке его по всему геному. Вопрос определения копийности особенно остро стоит в раковой геномике, где доказано влияние копийности генов супрессоров или активаторов опухолей на канцерогенез. Еще более интересным является вопрос ассоциации некоторых болезней с копийностью повторов (SINE, LINE и т.д.) в геноме.

Данный вопрос может быть успешно решен in vitro с помощью гибридизации, однако проведение экспериментов в лабораторных условиях имеет свои минусы. В целом для работы с СВ имеется широкий арсенал программных средств, однако ни одно из них не подобралось достаточно близко к решению задачи об определении копийности некоторого участка ДНК. В настоящее время принцип работы данных программ заключается в анализе глубины покрытия контигов, полученных при сборке генома, ридами, однако такой подход имеет ярко выраженные минусы, так как наиболее интересной целью для исследования являются участки с большим покрытием. Для них подобные методы не могут оценить величину копийности достаточно строго.

В данной работе будет представлен алгоритм определения копийности контигов на основе информации о сборке. Алгоритм использует сборочный граф SGA (String Graph Assembler), информацию о парных ридах и референсный геном близкого вида. Идея подобного рода алгоритма берет свои корни в некоторых работах, посвященных потокам в двунаправленных графах. Фактически в алгоритме восстанавливаются потоки в окрестности некоторой вершины графа, но удобнее думать об этих потоках как о путях, которые геном прокладывает в графе. Алгоритм состоит из следующих частей:

Удаление ребер, которые вызваны спонтанными перекрытиями на основе информации о контигах, имеющих копийность 1.
Определение множества невложенных путей в окрестности каждой вершины в прямом и обратной направлении.
Продление путей с использованием информации о референсе родственных видов.
Балансировка CN с использованием информации о локальной структуре графа.

Уже закончено тестирование для графов, собранных с помощью идеальных ридов, на котором алгоритм показывает очень хорошие результаты, значительно опережая остальные подходы. В настоящее время алгоритм тестируется на сборке с симулированными ридами и соотвествующим образом дорабатывается, что позволит использовать его в исследованиях на геномах млекопитающих, в частности человека.

Студент:
Дмитрий Мелешко

Куратор:
Son Pham

Время выполнения проекта: Jul 2014 — Jun 2015

Файлы:
meleshko_thesis_slides.pdf
meleshko_thesis.pdf

You are here

Определение копийности контигов с использованием информации о сборке