Иерархическая кластеризация данных NGS

Проект посвящен иерархической кластеризации данных секвенирования иммуноглобулинов с использованием Roche-454. Иммуноглобулины являются важной частью иммунной системы организма. При разработке лекарственных препаратов повышенный интерес представляют высоковариабельные фрагменты Fab иммуноглобулинов. Ввиду крайне высокой вариабельности при секвенировании возникают сложности с разделением ошибок секвенирования и реальной вариабельности. В итоге имеется много (около 30 тысяч) коротких и очень похожих ридов и требуется, во-первых, провести коррекцию ошибок, а во-вторых, провести иерархическую кластеризацию таким образом, чтобы каждый лист дерева соответствовал уникальному иммуноглобулину. При решении задачи учитывались особенности обрабатываемых данных и технологий, использованных при секвенировании. Так как одно из слабых мест Roche-454 - ошибки в гомополимерах, было написан алгоритм попарного выравнивания с учетом ошибок в гомополимерах, который в отличие от обычного выравнивания слабо штрафует при разнице в гомополимерах в 1-2 нуклеотида и сильно - при большой разнице. После выравнивания с использованием Clustal Omega проводится иерархическая кластеризация. Далее осуществляется обработка полученного дерева: похожие риды считаются соответствующими одному иммуноглобулину и сливаются в один. Решение принимается с использованием функции правдоподобия, которая рекурсивно учитывает структуру дерева. После чего проводится еще одна кластеризация для получения заключительного результата.

Время выполнения проекта: Sep 2013 — Dec 2013