Научные проекты 2017

В 2017 в проектах на летней школе были задействованы все 100 участников летней школы. Описания проектов и составы команд приведены ниже. Тематика проектов напрямую была связана с темой школы – интеллектуальным анализом данных. Участники применяли методы машинного обучения и нейронные сети для решения биологических и медицинских задач. 

В предпоследний день летней школы участники выступали с презентациями, которые оценивало экспертное  жюри. Команды, которые показали наилучшие результаты, были награждены памятными призами.


Проекты

1. Разработка методов для точного предсказания положения промотеров на геноме.

Руководитель – Татьяна Татаринова (University of La Verne). 

Существует множество признаков указывающих на положение старта транскрипции: нуклеотидная композиция, метилирование, распределение полиморфизмов и т.д. Ни один из этих признаков не достаточен сам по себе. 

Задача: разработать подход для интегрирования этих данных, чтобы уточнить предсказание положение начала транскрипции.

Представление проекта

Команда 1: Анастасия Данчурова, Арина Дробышева,, Павел Калинин, Артём Мулюков, Алена Титова, Ольга Черникова.

Результаты

Команда 2: Артем Григоров, Мария Никогосян, Алексей Зарубин, Нина Лукашина, Мария Сидулова, Дмитрий Фофанов. 

Результаты

Команда 3: Мария Фирулёва, Полина Пчелинцева, Степан Пачганов, Аделия Попова, Иван Климук, Егор Бондаренко.

Результаты

Команда 4: Ирина Алумянц, Халимат Муртазалиева, Нурислам Шайхутдинов, Ирина Булушева, Дарья Зенкова, Вячеслав Иванов.

Результаты


2. Глубокое обучение для геномики с помощью DragoNN.

Руководитель – Дмитрий Фишман (Университет Тарту). 

Применение нейронные сетей для работы с данными последовательностей и предсказания различных участков связывания на основании фреймворка DragoNN (http://kundajelab.github.io/dragonn/index.html). 

В ходе проекта участники знакомились с возможностями данного продукта, а далее пробовали самостоятельно применить DragoNN на открытых данных.

Представление проекта

Команда 1: Кирилл Быков, Тарас Хахулин, Артур Позняк, Игорь Останин, Владлен Клочков, Антон Киселев, Екатерина Беляева, Мария Радаева, Александр Ташкеев.

Результаты

Команда 2: Дмитрий Прокопов, Дана Зотикова, Алина Михайлова, Мария Истомина, Ксения Вальчук, Анастасия Созыкина.

Результаты


3. Предсказание метаданных эксперимента по экспрессии генов.

Руководитель – Алексей Сергушичев (Университет ИТМО). 

В настоящее время стандартным требованием при публикации работы является выкладывание в открытый доступ исходных данных экспериментов по анализу экспрессии генов (с помощью РНК-секвенирования или микрочипов). К сожалению, далеко не всегда эти эксперименты достаточно полно и точно проаннотированны, что затрудняет их автоматический анализ.

Целью данного проекта является автоматическое предсказание некоторых типов аннотации по данным экспрессии генов. Такими аннотациями могут быть пол, тип клеток из которых взят материал и другие. В задачи проекта входят, сбор обучающего набора данных и разработка метода машинного обучения для предсказания.

Представление проекта

Команда 1: Андрей Васильченко, Александр Илларионов, Антон Каразеев, Максим Козин, Алена Москаленко, Ангелина Мосягина.

Результаты

Команда 2: Екатерина Попкова, Карина Корнеева, Анастасия Смирнова, Марина Чепелева, Анастасия Воронкова, Анна Хадарович.

Результаты

Команда 3: Элина Шнайдер, Станислав Скрипкин, Дарья Лихолетова, Ирина Поверенная, Никита Дурасов, Анна Федорова. 

Результаты


4. Подходы машинного обучения к определению новых бактериальных патогенов по данным NGS. Предсказание патогенности бактерии по данным NGS.

Руководитель – Константин Зайцев (Университет ИТМО). 

Огромное количество и разнообразие бактерий на Земле вместе с их возрастающим воздействием на человека говорят о том, что мы будем постоянно сталкиваться с новыми бактериальными патогенами. Технологии секвенирования следующего поколения (NGS) могут предоставить нам большой объем данных, которые исследователь может использовать в этой области. Однако напрямую идентифицировать патогенность бактерии лишь по данным NGS зачастую очень сложно: может не быть секвенированных геномов близкородственных штаммов, или эти геномы могут отсутствовать в вашей любимой базе данных бактериальных геномов.

Целью данной работы является использование подходов машинного обучения для создания предиктора патогенности бактерии по данным NGS-секвенирования, путем обучения на большом количестве штаммов с известной патогенностью и извлечением правильных признаков из данных NGS-секвенирования.

Представление проекта

Команда 1: Илья Новосельский, Владислав Бондаренко, Анастасия Мирошникова, Александр Фрицлер, Марина Поминова, Зоя Воловикова.

Результаты

Команда 2: Владимир Переваров, Мария Вахитова, Анна Коган, Анастасия Бажутина, Юрий Барбитов, Владимир Андрющенко.

Результаты

Команда 3: Наталия Тетенева, Ирина Уткина, Валерия Вартанова, Людмила Ермакова, Дарья Романовская, Евгений Гончаров.

Результаты


5. Анализ данных single-cell RNA-Seq.  

Руководители – Станислав Андреев, Геннадий Захаров (EPAM Systems). 

В данном проекте участникам предлагалось провести анализ данных single-cell RNA-Seq от 10x Genomics - 10xgenomics.com/single-cell-gene-expression/datasets/. 

Первичный этап анализа подразумевает разделение ридов по клеткам и получение матрицы экспрессии. 

Второй этап связан с анализом полученных матриц. Участникам надо было кластеризовать данные и определить присутствующие клеточные популяции. Далее участникам предлагалось построить классифицирующую модель, которая будет предсказывать по значениям экспрессии генов в клетке ее принадлежность к определенной популяции (могут использоваться разные алгоритмы машинного обучения, такие как Метод опорных векторов (SVM), Нейронные сети (NN) и др). 

В ходе проекта информатики смогли познакомиться с концепцией single-cellRNA-Seq и потренировать свои навыки в машинном обучении, а биологи – ознакомиться с пайплайном CellRanger для анализа single-cell RNA-Seq данных и самостоятельно проаннотировать риды из исходных fastq файлов при помощи BLAST. Оценка задачи производилась по точности классификации клеток из валидирующей выборки при помощи построенной модели.

Представление проекта

Команда 1: Анастасия Сокол, Анастасия Котова, Гузель Газизова, Никита Колосов, Дмитрий Орехов, Семен Путников.

Результаты

Команда 2: Сирас Акопян, Александра Левицкая, Альбина Кочнева, Святослав Щавровский, Дмитрий Прошутин, Дарья Ровдо.

​Результаты

Команда 3: Дарья Короткова, Наталья Клименко, Кирилл Копылов, Анастасия Иовлева, Борис Коротецкий, Дарья Журавлева.

​Результаты

Команда 4: Оксана Иванова, Елизавета Зезюля, Ирина Овчинникова, Дмирий Сергеев, Ани Сахлян.

​Результаты


Итоги

Презентации участников оценивало жюри, в состав которого вошли лекторы и члены программного комитета школы, которое выбрало команду, показавшую лучший результат для решение поставленной задачи.  

Победители проекта «Разработка методов для точного предсказания положения промотеров на геноме»:

  • Ирина Алумянц
  • Халимат Муртазалиева
  • урислам Шайхутдинов
  • Ирина Булушева
  • Дарья Зенкова
  • Вячеслав Иванов

Победители проекта «Глубокое обучение для геномики с помощью DragoNN»:

  • Кирилл Быков
  • Тарас Хахулин
  • Артур Позняк
  • Игорь Останин
  • Владлен Клочков
  • Антон Киселев
  • Екатерина Беляева
  • Мария Радаева
  • Александр Ташкеев​

Победители проекта «Предсказание метаданных эксперимента по экспрессии генов»:

  • Екатерина Попкова
  • Карина Корнеева
  • Анастасия Смирнова
  • Марина Чепелева
  • Анастасия Воронкова
  • Анна Хадарович

Победители проекта «Подходы машинного обучения к определению новых бактериальных патогенов по данным NGS. Предсказание патогенности бактерии по данным NGS»:

  • Владимир Переваров
  • Мария Вахитова
  • Анна Коган
  • Анастасия Бажутина
  • Юрий Барбитов
  • Владимир Андрющенко

Победители проекта «Анализ данных single-cell RNA-Seq»:

  • Оксана Иванова
  • Елизавета Зезюля
  • Ирина Овчинникова
  • Дмирий Сергеев 
  • Ани Сахлян



Поздравляем участников и победителей и желаем им дальнейших успехов в биоинформатических проектах!