RepeatScout

RepeatScout -- инструмент для de novo поиска повторов, разработанный в лаборатории Павла Певзнера в 2005 году. До сих пор лучших альтернатив придумано не было.
Однако RepeatScout не работает для больших геномов из-за переполнения типа int. В популярном инструменте RepeatModeler это обходят, беря несколько раз небольшой фрагмент генома и обрабатывая его в RepeatScout, но при таком подходе часть повторов теряется.

Задачей проекта являлось, по меньшей мере, исправить работу RepeatScout. Более продвинутой задачей было заменить алгоритм подсчета k-меров в RepeatScout на более современный и быстрый.
Максимальная задача сводилась к улучшению алгоритма расчета границ повторов.

Результаты работы:
Расширены типы для работы с большими геномами.
Произведен перевод входных данных к формату jellyfish.
Уменьшен расход памяти.

Время выполнения проекта: Sep 2014 — Dec 2014