Автоматизации тестирования инструментов множественного выравнивания последовательностей в среде KNIME.

Множественное выравнивание применяется при анализе аминокислотных последовательностей для дальнейшего филогенетического анализа или изучения эволюционных процессов. На данный момент не существует оптимального решения

задачи множнественного выравнивания. Для объективной оценки работы программ проводится тестирование на бенчмарках. Цель нашего проекта — оптимизация работы и тестирования программ для множественного выравнивания с использованием KNIME Analytics Platform, профессиональной open-source платформы для анализа и обработки данных и построения пайплайнов. Реализация запуска программ в среде KNIME дает ряд преимуществ — россплатформенность, переносимость и автоматическая масштабируемость решения, возможность легкого развертывания и развития, например, оформление в виде Web-сервиса. Для интегрирования были выбраны зарекомендовавшие себя в данном виде анализа программы: PRANK, ClustalO, Seqan::tcoffeе, MUSCLE и бенчмарк для оценки качества работы выравнивания — BaliBase.

В ходе выполнения проекта мы создали workflow в KNIME, реализовав в нем схемы тестирования и оценки выбранных программ. Встроенные структурные блоки оставляют за собой возможность подключать, отключать и интегрировать новые программы. В результате работы были получены SP score и ТС score — показатели качества выравнивания для каждой из программ на 6 различных наборах тестовых данных. Дальнейшее развитие проекта предполагает оформление данного workflow в виде web-сервиса, а так же разработку дополнительных статистических параметров для более точной оценки качества выравнивания.

Куратор:
   Олег Яснев
Время выполнения проекта: Feb 2016 — May 2016