Научные проекты

В 2016 году слушателям было предложено принять участие в выполнении одного из научных проектов. Описания проектов и состав команд приведены ниже.

В завершающий день летней школы участники выступали с презентациями, которые оценивало жюри. Участники лучших трех по итогам голосования проектов получили грамоты и ценные призы!

Для того, чтобы принять участие в одном из проектов проходил конкурсный отбор, количество мест в проектах было ограничено! Большинство проектов рассчитаны на участников, уже имеющих начальный опыт в биоинформатике. 

Подробнее о формате | Распределение участников


Проекты

1. (Добрынин) Поиск и классификация эндогенных ретровирусов (ERV)

Эндогенные ретровирусы (ERV), являются частью многих геномов, и произошли в результате встраивания ретровируса в геном другого вида. От них произошли многие семейства повторов (LINE и SINE). Вирусные гены так же зачастую играют важную роль в развитии и регуляции в геноме хозяина. В данной работе мы попробуем проанализировать небольшой геном и найти в нем ERV и LTR-ретротранспозоны, а так же классифицировать их. Попробуем определить время встраивания в геном, а так же поискать гены, которые могли быть принесены в геном.

Команда:

  • Елизавета Старикова
  • Евгений Полевиков
  • Андрей Самойлов
  • Дмитрий Казанжи

Презентация результатов

Руководитель: Добрынин Павел, научный сотрудник лаборатории геномной биоинформатики им Добржанского, СПбГУ


2. (Захаров) Реконструкция последовательности белка с учетом вариаций

Конечной целью секвенирования ДНК в большинстве случаев является обнаружение мутаций в белках и предсказание функций мутантного белка.

Поскольку результаты NGS-секвенирования ДНК как правило представлены в виде набора вариаций — отличий от эталонного генома, для решения этой задачи необходимо восстановить аминокислотную последовательность мутантного белка по эталонной последовательности генома и набору вариаций.

В простейших случаях такая задача тривиальна. Однако в случае наличия большого числа вариаций, в том числе делеций, инсерций и структурных перестроек, эта задача становится достаточно сложной. В случае наложения нескольких вариаций возможен кумулятивный эффект.

Например SNP, потенциально приводящий к появлению stop-кодона попадает в делецию. Поскольку технологии NGS-сиквенса не позволяют установить, на какой хромосоме из пары произошла мутация, то каждая гетерозиготная мутация приводит к появлению 2-х вариантов последовательности. Поэтому в случае если вариация гетерозиготна, необходимо рассматривать оба варианта белковой последовательности.

Задача: по имеющейся референсной последовательности гена, известному положению экзонов и набору вариаций восстановить все возможные последовательности белка, которые могут считываться с данного гена.

Прилагаемое техническое задание описывает основной вариант решения задачи, и технические особенности ее реализации. При наличии времени и желания, можно расширить эту задачу, включив в нее ряд дополнительных возможностей. Например, обрабатывать также инверсии, дупликации и другие типы структурных перестроек. Также возможно обрабатывать вариации, затрагивающие сайты сплайсинга и т.д.

Команда:

  • Илья Коляденко
  • Ольга Кожевникова
  • Пётр Цуринов
  • Максим Нестеренко

Презентация результатов

Руководитель: Захаров Геннадий Александрович, выпускник кафедры биофизики СПбГПУ, кандидат биологических наук, магистр биофизики, научный сотрудник лаборатории нейрогенетики, Институт Физиологии им И.П. Павлова, РАН, ведущий бизнес-аналитик EPAM Systems.


3. (Fishman) Разработка алгоритма оценки соотношения раковых клеток к здоровым по сканам человеческой грудной ткани

В нашем доступе есть сканы человеческой грудной ткани (около 700). На этих снимках, вместе с нормальными клетками грудной ткани (синим цветом), коричневым цветом отмечены раковые клетки. Наша задача - разработать алгоритм, который будет способен для каждого конкретного снимка, дать точную оценку соотношению раковых клеток к здоровым. Проблема заключается в том что на каждом снимке цвет раковых клеток разный, так же вариируется количество фоновых пикселей. Существует множество альтернативных путей решения это задачи, от подсчета пикселей соответствующих заданным критериям до тренировки глубокой сверточной сети с дальнейшим предсказанием соотношения. Команде(ам) предлагается выбрать самый понравившийся способ и доказать его состоятельность, продемонстрировав результаты работы алгоритма на ранее не использованных при разработке снимках.

Команда: 

  • Артем Кондюков
  • Полина Жорникова
  • Даниил Выговский
  • Всеволод Квачев
  • Василий Цветков
  • Анна Желудкевич

Презентация результатов 1 | Презентация результатов 2

Руководитель: Дмитрий Фишман, University of Tartu


4. (Предеус) Определение транскрипционного ко-активатора на основе экспериментов ChIP-exo

Иммунопреципитация хроматина с последующим секвенированием (ChIP-seq) - один из самых современных методов изучения геномной регуляции и связывания протеинов с ДНК. Одна из версий протокола, называемая ChIP-exo, позволяет достичь позиционной точности определения положения протеина буквально в несколько нуклеотидов. Оборотной стороной протокола является достаточно высокая экспериментальная сложность и относительная бедность получаемых библиотек.  Вам будет предложен результат одного из таких экспериментов в виде набора ридов. Вам нужно будет выровнять его, охарактеризовать полученные результаты. В процессе анализа нужно будет определить, какой белок исследовался, какие возможные транскрипционные ко-активаторы присутствуют рядом, и какой тип клеток исследовался.

Команда:

  • Евгений Третьяков
  • Олег Борисов
  • Дарья Дубова
  • Анна Павлова

Презентация результатов

Руководитель: Александр Предеус; Институт биоинформатики.


5. (Райко) Полногеномное и экзомное секвенирование

Для анализа мутаций не обязательно секвенировать геном полностью - часто нас интересуют только мутации в кодирующих областях, поэтому используется техника WES - полноэкзомного секвенирования. Суммарная длина всех экзонов составляет менее 2% от генома, поэтому можно получить результат с гораздо меньшими затратами. Но что мы при этом теряем?  

В рамках проекта предлагается проанализировать данные полногеномного и полноэкзомного секвенирования одного и того же образца, выполнить поиск вариантов, оценить качество полученных результатов и сравнить различные метрики. В качестве конкретного примера можно поискать и проанализировать мутации, связанные с развитием муковисцидоза. Планируется использовать VCF tools, GATK и другие пакеты для анализа вариантов.

Команда: 

  • Арзамасов Александр
  • Ольга Плотникова
  • Мария Орлова
  • Ольга Пушкарёва

Презентация результатов

Руководитель: Михаил Райко, UC San Diego

6. (Райко) H+

С помощью таких сервисов, как 23&Me и Atlas, любой желающий может получить данные о собственном геноме. Некоторые храбрецы выкладывают эти данные в открытый доступ - например, на GitHub - и иногда получают комментарии с рекомендуемыми исправлениями. Давайте представим, что это возможно, трансгуманизм уже наступил, у нас есть под рукой CRISPR-Cas9 (или более продвинутый аналог), и разрешение на его использование. Мы возьмем репозиторий с реальными данными живого человека и посмотрим, как именно мы его можем улучшить. Можно использовать любые базы данных по желанию.

Команда 1:

  • Дарья Воронкова
  • Азамат Гафуров
  • Алиса Захарцева

Команда 2:

  • Полина Деревянко
  • Иван Сосин
  • Кристина Петрова

Команда 3:

  • Мария Куслий
  • Мария Черниговская
  • Артем Байдалюк

Команда 4:

  • Наталия Прокофьева
  • Данил Байзигитов
  • Татьяна Карп 

Презентация результатов 1 | Презентация результатов 2 | Презентация результатов 3 | Презентация результатов 4

Руководитель: Михаил Райко, UC San Diego


7. (Sügis) Определение аутоантител, которые могут быть использованны в диагностике заболевания Альцгеймера

Болезнь Альцгеймера - это прогрессирующее нейродегенеративное заболевание головного мозга, которое приводит к необратимой редукции количества нейронов и  потере интеллектуальных способностей. В процессе болезни в ткани мозга формируются бляшки и узелки. Это приводит к гибели клеток мозга. Заболевание очень трудно диагностировать, особенно на ранних этапах. В настоящее время все больше результатов исследований связывают природу болезни Альцгеймера с аутоиммунными заболеваниями. Перспективным методом диагностики заболевания является анализ антител в сыворотке крови.

Цель проекта: Применить различные методы машинного обучения для определения аутоантител, которые могут быть использованны в диагностике заболевания. Построить предсказывающую модель на их основе. Идея проекта основывается на статье

Команда:

  • Александра Малышева
  • Антон Калашников
  • Мая Алыева
  • Антон Елисеев
  • Ирина Жегалова
  • Елизавета Вахрамеева

Презентация результатов

Руководитель: Елена Сюгис, младший научный сотрудник Тартуского университета, исследователь в Quretec, Эстония


8. (Шугай) Создание алгоритма построения деревьев последовательностей генов B-клеточного рецептора с учетом гипервариабельных участков

Отличительной чертой B-клеток, которая позволяет им быстро и точно адаптировать иммунный ответ к конкретному антигену является процесс называемый соматической гипермутацией (SHM). В данном процессе происходит таргетное изменения гена B-клеточного рецептора (BCR), кодирующего антиген-спецфичность B-клетки. Случайные мутации вкупе с процессом селекции в герминальных центрах лимфоузлов позволяют организму обучить высоко-спецфичные B-клетки. Анализ пэттернов гипермутаций применим в широком спектре областей: от оценки эффективности вакцинации до постановки диагноза при B-клеточных лимфомах. Необходимым условием для анализа профиля гипермутаций является построения дерева эволюции BCR. Эта задача усложняется тремя факторами: зачастую изначальный вариант BCR не присутствует в образце и единственная доступная информация представляет геномные участки V- и J-сегментов BCR, часть мутаций в V- и J-сегментах может является аллельными вариантами, и, самое главное, участок BCR под названием CDR3 генерируется в процессе случайной сборки и последовательность его априори неизвестна. Предлагается реализовать полу-эмпирический алгоритм, позволяющий проводить поиск аллелей и предварительную сборку вариантов по последовательности CDR3, который по точности и скорости будет являться хорошей алтернативой существующим вероятностным методам. Для апробирования и оптимизации алгоритма предлагается использовать синтетические данные, данные секвенирования случайно гипермутирующих B-клеточных линий как положительный контроль и наивных B-клеток которые не встретили антигена как отрицательный.

Команда:

  • Вадим Уваров
  • Анастасия Семашко
  • Дарья Островерхова
 
 
Руководитель: Михаил Шугай, PhD, Genomics of Adaptive Immunity Lab, Shemyakin and Ovchinnikov Institute of Bioorganic Chemistry, RAS, Moscow, Russia Central European Institute of Technology, Brno, Czech Republic. Куратор на школе: Вадим Назаров

9. (Назаров) Поиск сепарирующих мотивов между репертуарами иммунных рецепторов

Адаптивный иммунитет человека реализуется за счет Т клеток и Б-клеток, которые несут на своей поверхности специальные гипервариабельные белки - Т-клеточные рецепторы (T-cell receptor, TCR)  и Б-клеточные рецепторы (B-cell receptor, BCR), соответственно. Такие белки генерируются на основе случайно собранных фрагментов генома из определенной области в процессе V(D)J-рекомбинации (результирующая последовательность нуклеотидов хранится в клетке). TCR распознают короткие фрагменты белков, которые производят зараженные патогенами (вирусами) клетки, и играют ключевую роль в иммунном ответе на атаки патогенов. Потенциальное разнообразие TCR огромно, к примеру, для TCR бета-цепей оно оценивается сверху как 10^14. Количество различных TCR в человеке гораздо меньше и оценивается снизу как 10^6. Технологии секвенирования нового поколения позволили получать данные о Т-клетках большого объема. Известно, что репертуар TCR (множество рецепторов) изменяет свою структуру после встречи с каким-либо патогеном - распознавшие клетки делятся, увеличивают свою численность и “вытесняют” остальные. В случае, если у нас есть информация, что определенная группа зараженных людей имеет примерно похожие TCR в ответ на определенный патоген, и есть контрольная группа, которая точно не заражалась этим патогеном, то, теоретически, по данным репертуара возможно предположить, какие TCR отвечают за распознавание этого патогена, причем, поскольку TCR могут быть похожими (CASSGGAYFF и CASSGWAYFF), можно искать не конкретные последовательности TCR, а “распознающие мотивы”. От вас требуется предложить метод решения такой проблемы.

Команда:

  • Ася Менделевич 
  • Илмира Терпугова
  • Милена Мансурова 
  • Герман Осьмак
  • Евгений Румынский

Презентация результатов

Руководитель: Вадим Назаров; НИУ ВШЭ, ИБХ РАН, BioHub - @vadimnazarov


10. (Назаров) Предсказание связывания MHC и белков

Связывание MHC и белков играет одну из важнейших ролей в работе иммунной системы. Связанные пары MHC:белок распознаются Т-клеточными рецепторами, которые запускают иммунный ответ в зависимости от того, распознал ли рецептор представленный белок как “свой” или как “чужой”. При этом, важно знать, способен ли MHC вообще связаться с некоторым белком. С увеличением объема данных о том, какие MHC и белки связываются, стало возможным обучать модели и предсказывать силу связывания. Вашей задачей будет придумать новую модель связывания, победив все предыдущие и сделав новый “золотой стандарт” связывания.

Или просто понять, как можно все это улучшить, предложить и реализовать пару простых, но работающих идей, и попрактиваться в применении машинного обучения на необычных данных. МатериалыЗолотой стандартОдна из последних интересных статей по теме

Команда:

  • Софья Толстоухова
  • Эмиль Мельников
  • Александр Мейстер
  • Маргарита Перцева
  • Владимир Глазачев
  • Рудольф Лайко

Презентация результатов

Руководитель: Вадим Назаров; НИУ ВШЭ, ИБХ РАН, BioHub - @vadimnazarov


Итоги

Презентации участников оценивало жюри, в состав которого вошли лекторы и члены программного комитета школы, которое выбрало три лучших проекта школы. Подводя итоги, жюри отметило, что все команды справились и показали хорошие результаты.

1 место

(Sügis) Определение аутоантител, которые могут быть использованны в диагностике заболевания Альцгеймера

2 место

(Назаров) Поиск сепарирующих мотивов между репертуарами иммунных рецепторов

3 место 

(Добрынин) Поиск и классификация эндогенных ретровирусов (ERV)

Мы поздравляем участников и победителей и желаем им дальнейших успехов в научной карьере!