Определение копийности контигов больших геномов
Задача определения вариации числа копий (CNV) имеет большое значение так как подтверждена связь CNV с течением множества заболеваний. Это такие заболевания как рак груди, синдром Альцгеймера, шизофрения, синдром Прадера-Вилли и синдром Ангельмана. Более того, сейчас существуют гипотезы о том, что не только CNV генов, но и CNV повторов в человеческом организме связаны с некоторыми заболеваниями. Данная задача в свою очередь связана с задачей определения копийности контигов, а копийность контигов с количеством путей через вершины стрингграфа. Для сложных структур графа, когда наилучший путь не определяется однозначно, соединяющий два контига, алгоритм поиска копийности контигов был усовершенствован с помощью агрессивного схлопывания балджей. Для коротких контигов, для которых нет парной информации, пути находились с помощью разделения путей через вершину данного контига. Таким образом результаты для коротких контигов улучшились. Результаты проверялись на двух наборах данных и двух метриках -- количество правильно предсказанных копийностей контигов и сумма ошибок.