De Novo Assembly
De novo assembly - это алгоритм для анализа результатов Next Generation Sequencing (NGS) когда не известен reference геном. Большинство существующих алгоритмов не имеют параллелизации, требуют значительного времени на выполнение сборки ридов и внушительного объёма оперативной памяти (4 Тб). В то же время алгоритм включает в себя шаги, которые с легкостью могут быть выполнены параллельно. Одним из таких шагов является индексирование всех ридов, создания базы данных для них и построения графов, используя базу данных. В текущих имплементациях этот шаг выполняется различными поисковыми алгоритмами, написанными разработчиками de novo assembler для данных, не требующих интенсивного использования компьютерных ресурсов.
В данном проекте будет предложено разработать de novo assembler на основе популярной поисковой платформы, разработанной для индексирования - SOLR. Также будет использоваться платформа, оптимизированная для параллельных вычислений Hadoop. Новый алгоритм будет распространяться с Open source лицензией.
Работа будет проводиться в компании Biodatomics, которая разрабатывает платформу, обеспечивающая возможность анализа данных в "облаках" как для биоинформатиков так и для биологов.