De Novo Assembly

De novo assembly - это алгоритм для анализа результатов Next Generation Sequencing (NGS) когда не известен reference геном. Большинство существующих алгоритмов не имеют параллелизации, требуют значительного времени на выполнение сборки ридов и внушительного объёма оперативной памяти (4 Тб). В то же время алгоритм включает в себя шаги, которые с легкостью могут быть выполнены параллельно. Одним из таких шагов является индексирование всех ридов, создания базы данных для них и построения графов, используя базу данных. В текущих имплементациях этот шаг выполняется различными поисковыми алгоритмами, написанными разработчиками de novo assembler для данных, не требующих интенсивного использования компьютерных ресурсов.

В данном проекте будет предложено разработать de novo assembler на основе популярной поисковой платформы, разработанной для индексирования - SOLR. Также будет использоваться платформа, оптимизированная для параллельных вычислений Hadoop. Новый алгоритм будет распространяться с Open source лицензией.

Работа будет проводиться в компании Biodatomics, которая разрабатывает платформу, обеспечивающая возможность анализа данных в "облаках" как для биоинформатиков так и для биологов.

Студент:
   Алексей Алеев
Куратор:
   Максим Михеев
Время выполнения проекта: Feb 2014 — May 2014
Файлы:
   aleev_050414_midterm.pdf