Оценка геномного ассемблера Platanus

Новый геномный ассемблер Platanus разработан для сборки гетерозиготных геномов.
Цель проекта -- собрать небольшой известный геном, проверить количество мисассемблов и сравнить с результатами работы другого ассемблера. Для этой задачи был выбран геном нематоды Caenorhabditis elegans, альтернативным ассемблером стал SPades 3.0. 

Критические моменты в сборке геномов -- это качество исходных библиотек, неудаленные адаптеры. Качество библиотек оценивалось с помощью программы FastQC, адаптеры удаляли программой Trimmomatic 0.32.
Оценку качества сборки проводили с помощью программы Quast 2.3, которая позволяет сравнить результаты, выдаваемые ассемблерами, с последовательностью референсного генома и посчитать статистику по основным метрикам (NG50, количество мисассемблов, длина контигов, содержание GC и т.д.)

Несмотря на то, что ожидаемые линкеры отсутствовали в прыжковых библиотеках, ассемблеры завершили сборку, хотя и с более плохими показателями. Тем не менее, даже при таких условиях Platanus по скорости сборки, числу мисассемблов и NG50 показал лучшие результаты, чем SPAdes. Однако по таким метрикам, как соответствие содержания GC в референсе, число локальных мисассемблов и длинных инделов SPades оказался лучше, но с неочищенными данными собрал значительно меньше контигов.

Время выполнения проекта: Sep 2014 — Dec 2014