BI project

De Novo Assembly

De novo assembly - это алгоритм для анализа результатов Next Generation Sequencing (NGS) когда не известен reference геном. Большинство существующих алгоритмов не имеют параллелизации, требуют значительного времени на выполнение сборки ридов и внушительного объёма оперативной памяти (4 Тб). В то же время алгоритм включает в себя шаги, которые с легкостью могут быть выполнены параллельно. Одним из таких шагов является индексирование всех ридов, создания базы данных для них и построения графов, используя базу данных.

Ragout - de Bruijn Graph in Reference-Assisted Assembly

Ragout - это тул для улучшения сборки с помощью нескольких референсов. Проект предполагает разработку/улучшение алгоритмов, связанных с обработкой de Bruijn графа. Он скорее исследовательский, чем образовательный и предполагает большой объем самостоятельной работы со стороны студента.

VCF File Storage

Проект посвящен созданию программного интерфейса к базе данных HBase, позволяющего  сохранять несколько VCF-файлов, относящихся к общему референсу в 1 таблице, тем самым устраняя избыточность в хранимой информации и повышая скорость обработки данных за счет их представления в табличном, а не текстовом формате.

Также интерфейс предоставляет возможность восстановить исходный VCF-файл из табличного представления.

 

Misassemblies detection without reference

Проект посвящен оценке качества сборки генома. На сегодняшний день продукт QUAST может обнаружить ошибки в контигах (misassemblies) только при наличии референсной последовательности. Однако, такая последовательность доступна далеко не для всех организмов. Задачей проекта стало выявление ошибок сборки при отсутствии референса. В ходе работы была написана утилита, принимающая на вход сборку генома и набор парных ридов, и формирующая отчет о возможных ошибках в сборке.

Приложение для клинической интерпретации онкоэкзома человека

Цель – за три месяца создать программу, которая сможет приносить пользу реальным людям.  Это приложение должно будет уметь анализировать экзом человека, больного раком, и помогать врачу принять правильное решение о том, какая терапия может быть эффективной.

Основные задачи биолога:

Поиск корреляции между метилированием и социальным статусом в геноме человека

Работа посвящена поиску корреляции между профилями метилирования CpG-мотивов в геномах детей и их социально-экономическим статусом. В качестве материала для исследования выступают метиломы российских сирот, усыновленных в США (контрольная группа представляет из себя российских детей, имеющих биологических родителей; метиломы получены методом MBD-Seq).

Сборка модели центромерного района хищников

Несмотря на большое количество прочитанных геномов млекопитающих, практически все они содержат пробел длинной в три миллиона пар оснований на каждой хромосоме, зарезервированный на несобранный на настоящий момент центромерный район. Центромера является важным компонентом генома и принимает участие в сборке кинетохора, в соединении сёстринских хроматид и конъюгации гомологичных хромосом. Кроме того, для последовательностей находящихся в центромерном районе показана транскрипция и особое эпигенетическое маркирование.

Сборка MHC региона у гепарда

Цель: собрать околоцентромерный регион размером в 5 млн.н.п. на хромосоме B2.

Задачи:

  1. Определить фрагменты входящие в MHC регион.
  2. Определить порядок фрагментов, используя референсный геном кошки, физическую карту региона MHC и BAC сиквенсы.

Аннотация генов в геноме Cuban-Amazon

Цель: Аннотация белок-кодирующие генов используя de novo поиск, поиск по гомологам и транскриптом.

Задачи:

  1. Аннотация гомологов используя базу ENSEMBL.
  2. Аннотация de novo используя базу гомологов как training dataset.
  3. Аннотация генов на основании транскриптома.
  4. Объединение трех моделей в один трек.

Скаффолдинг контигов с использованием базы генов

Проект ставит своей целью проверить возможность использования базы генов организма (возможно, родственного) для улучшения качества сборки генома. Используется относительное положение экзонов одного гена в хромосоме и в случае достаточно хорошего в правильном порядке выравнивания всех экзонов гена можно сказать, что порядок последовательностей, на которые эти экзоны выровнялись, определён. Для более точного выявления правильных рёбер и исключения ложных соединений использовалась также фильтрация обнаруженных рёбер по некоторым эвристическим правилам.

Pages

Subscribe to RSS - BI project