Научные проекты
В 2015 году слушателям было предложено принять участие в выполнении одного из научных проектов. Описания проектов и состав команд приведены ниже.
В завершающий день летней школы участники выступали с презентациями, которые оценивало жюри. Участников лучшего по итогам голосования проекта получили грамоты и ценные призы!
Для того, чтобы принять участие в одном из проектов заявки принимались до 16 июля 23:59, количество мест в проектах ограничено! Уровень проектов различный, однако большинство из них рассчитано на участников, уже имеющих начальный опыт в биоинформатике.
1. Построение классификатора типов рака
Существует ряд баз геномных данных для различных типов рака человека — например, TCGA.
На основании выбранного набора данных по раковым больным участникам предлагается разработать классификатор — алгоритм, делающий заключение о типе рака по геномным данным пациента.
Руководитель: Михаил Колмогоров, UCSD
Команда: Татьяна Мозгачева, Евгений Баулин, Екатерина Устюжанина, Павел Гуляев, Анастасия Виденеева, Игорь Бездворных, Дмитрий Ромашко, Александра Орищенко, Константин Зайцев, Нарек Овсепян
2. Работа с данными трио
Предлагается проанализировать данные секвенирования трио — двух родителей и ребенка. Используются данные, находящиеся в открытом доступе. В качестве исходных данных выступают файлы с вариантами в формате VCF.
Предлагается определить, кому принадлежит каждый из секвенированных образцов, и выполнить фазирование данных — определить наследование SNP и проанализировать схему наследования для нескольких рецессивных признаков. Можно пробовать различные инструменты и подходы: BEAGLE, HAPLIN, пакет ""trio"" для Bioconductor и т.п.
Руководитель: Михаил Райко, СПбГУ
Команда: Татьяна Мараховская, Камилла Аслами
3. Работа с данными RNA-Seq
Участникам проекта будут предложены данные RNA-Seq из разных органов человека, полученные в ходе проекта Illumina Body Map.
В ходе проекта планируется выровнять полученные риды на референсный геном, посчитать уровень экспрессии, сравнить его в разных тканях и получить наборы генов со схожим профилем экспрессии. Можно пробовать различные инструменты для выравнивания ридов (BWA, BowTie, Tophat) и расчета дифференциальной экспрессии (Cuffdiff, DESeq, edgeR), сравнивать разные ткани и применять различные критерии фильтрации.
Руководитель: Михаил Райко, СПбГУ
Команда: Анна Белоусова, Наталья Баулина, Даниил Никитин, Владислав Бирюков, Надежда Фурсова, Надежда Долгих, Ольга Плотникова, Мария Ладыгина
4. Исследование референсного генома
Для выполнения проекта участникам будет дан набор из нескольких десятков полногеномных анализов.
1. Требуется исследовать, как много позиций в референсном геноме соотвествуют вариантам, редко встречающимся в популяции. То есть надо найти позиции в референсном геноме, в которых указаны редкие варианты, понять как много таких и построить новый референс, в котором таких позицией не будет.
2. Для исследования патогенности мутаций крайне полезной является информация о частоте встречаемости мутаций, так называемая Minor Allele Frequency. Надо для каждой позиции в геноме найти частоту встречаемости других аллелей.
3. Требуется написать программу, которая по заданному референсу и заданному набору файлов с мутациями сможет делать следующее:
3.1. Находить все позиции, в которых в референсе стоит на самая частая мутация, посчитать количество таких позиций, их долю, статистики по тому, какой нуклеотид на какой надо заменить в референсном геноме.
3.2. Формировать новый референсный геном на основе замен, найденных в пункте 1
3.3. Строить vcf-файл с указанием частот мутаций
Руководитель: Игнат Колесниченко, iBinom
Команда: Мария Втюрина, Игорь Мищенко, Иван Филиппенков, Денис Карякин
5. Исследование патогенных мутаций
Проект предполагает аннотацию файлов с мутациями реальных людей и исследование различных статистик полученных данных.
Здесь имеется широкий простор для фантазии: какие статистики посчитать, какие будут обнаружены закономерности и как их объяснить.
В аннотацию следует включить следующее:
- Тип мутации: SNP, INDEL, ...
- Положение мутации: INTERGENIC, INTRON, UTR-PRIME….
- Наличие муатции в базе dbSNP
- Наличие в базе Clinvar и характер этой мутации (non-pathogenic, probably pathogenic, …)
- Гомо/гетерозиготность
Вы можете самостоятельно продолжать и расширять данный список. После этого предлагается посчитать различные статистики по всем анализам, их вариацию между различными анализами.
Примеры статистик, которые стоит учесть следующие параметры:
- Распределение мутаций в зависимости от области генома, в которой обнаружена мутация
- Доля инсерций/делеций/точечных мутаций
- Соотношение гомо/гетерозигот
- Доля мутаций, помеченных как pathogenic в clinvar
- Количество стоп-кодонов
- Доля мутаций, находящихся в базе dbSNP
Требуется написать программу, которая по заданному заданному набору файлов с мутациями будет делать следующее: аннотировать их, подсчитывать всевозможные статистики и визуализировать полученные статистики. Также полученные результаты следует проинтерпретировать и постараться найти им биологическое объяснение.
Руководитель: Игнат Колесниченко, iBinom
Команда: Дарья Скуратовская, Мария Кискачи, Егор Дьяконов, Павел Переведенцев
6. Сборка пяти штаммов дрожжей Saccharomyces cerevisiae и анализ полученных результатов
Дрожжи Saccharomyces cerevisiae являются одним из самых широко используемых модельных генетических объектов.
В 1996 году штамм S288C стал первым эукариотическим отсеквенированным организмом.
К настоящему моменту отсеквенированы и многие другие лабораторные и производственные штаммы (Saccharomyces Genome Database, www.yeastgenome.org), однако не все они собраны до целых хромосом. Разнообразие дрожжей довольно велико вспледствие их селекции для различной промышленности. Так, дрожжи широко применяются в хлебопекарной промышленности, а также при производстве вина и пива. Лабораторные штаммы дрожжей также характеризуются большим разнообразием. Интересным представляется анализ филогенетической и геномной структуры различных изолятов промышленных и лабораторных штаммов Saccharomyces cerevisiae.
В лаборатории физиологической генетики биологического факультета СПбГУ работают со штаммами дрожжей Петергофских Генетических Линий (ПГЛ), которая является одной из самых больших в мире. Штаммы ПГЛ происходят от пекарских дрожжей (производственной расы XII); таким образом, перед нами любопытный пример организма, прошедшего искусственный отбор сначала на пригодность к производству хлеба, а затем для использования в лабораторных целях. Ранее штаммы ПГЛ не были секвенированы, также неизвестны особенности геномов штаммов этой генетической коллекции. Таким образом исследование этих штаммов с помощью методов полногеномного секвенирования представляет собой актуальную задачу.
Недавно было отсеквенировано 5 штаммов дрожжей ПГЛ на платформе Ion Torrent. Задачами данного проекта являются:
- анализ качества ридов и их очистка
- сборка ридов в контиги с использованием различных программ
- оценка качества сборок и сравнение разных сборщиков
- скаффолдинг контигов до хромосом
- оценка качества хромосомных сборок
- (аннотация генов, поиск винодельческих/хлебопекарных кластеров, сравнение штаммов)
Руководитель: Элина Радченко, СПбГУ
Команда: Жасулан Жаниязов, Вячеслав Землянский, Анна Ненарокова, Межнина Ольга, Александр Масный, Галина Хафизова
7. Анализ данных секвенирования Т-клеточных рецепторов
Адаптивный иммунитет человека реализуется за счет Т клеток и Б-клеток, которые несут на своей поверхности специальные гипервариабельные белки - Т-клеточные рецепторы (T-cell receptor, TCR) и Б-клеточные рецепторы (B-cell receptor, BCR), соответственно. Такие белки генерируются на основе случайно собранных фрагментов генома из определенной области в процессе V(D)J-рекомбинации (результирующая последовательность нуклеотидов хранится в клетке). TCR альфа-бета цепи распознают короткие фрагменты белков, которые производят зараженные патогенами (вирусами) клетки, и играют ключевую роль в иммунном ответе на атаки патогенов. Потенциальное разнообразие TCR огромно, к примеру, для TCR бета-цепей оно оценивается сверху как 10^14. Количество различных TCR в человеке гораздо меньше и оценивается снизу как 10^6. Технологии секвенирования нового поколения позволили получать данные о Т-клетках большого объема.
Задача команды будет состоять в том, чтобы по входным FASTQ данным извлечь последовательности TCR и определить, из каких фрагментов генома она состоит.
Интересующиеся могут предварительно ознакомиться с темами в Википедии: 1, 2.
Руководитель: Вадим Назаров, ИБХ РАН
Команда: Михаль Розенвальд, Владислав Лысенков, Максим Карасев, Анастасия Козлова, Влада Розова
8. Разработка модели сборки Т-клеточных рецепторов и вычисление вероятностей сборки
Адаптивный иммунитет человека реализуется за счет Т клеток и Б-клеток, которые несут на своей поверхности специальные гипервариабельные белки - Т-клеточные рецепторы (T-cell receptor, TCR) и Б-клеточные рецепторы (B-cell receptor, BCR), соответственно. Такие белки генерируются в процессе V(D)J-рекомбинации, при котором случайно выбранные фрагменты генома из определенной области собираются в одну нуклеотидную последовательность.
Задача команды будет состоять в том, чтобы придумать вероятностную модель сборки TCR и/или эффективный алгоритм для вычисления вероятности сборки при известной модели. Интересующиеся могут предварительно ознакомиться с темами в Википедии.
Руководитель: Вадим Назаров, ИБХ РАН
Команда: Ринат Султанов, Савва Игнатьев, Дмитрий Дормешкин, Владислав Чернятьев
9. HLA-типирование по данным высокопроизводительного секвенирования
HLA гены кодируют белки, которые участвуют в работе иммунной системы человека. Количество возможных вариантов этих генов среди людей очень велико, и при медицинских и иммунологических исследованиях очень важно знать, какой точный набор HLA генов у пациента, например, при пересадке органов, чтобы иммунная система пациента не отвергла орган донора.
Задача команды будет состоять в том, чтобы по входным FASTQ данным и базе данных известных HLA определить HLA гены у пациентов. Интересующиеся могут предварительно ознакомиться с темами в Википедии.
Руководитель: Вадим Назаров, ИБХ РАН
Команда: Ольга Алтухова, Игорь Барышников
Итоги
Презентации участников оценивало жюри, в состав которого вошли лекторы и члены программного комитета школы. Подводя итоги, жюри отметило, что все команды справились и показали хорошие результаты. Победителем признали команду, работавшую над проектом “Работа с данными RNA-Seq“ (руководитель - Михаил Райко).
Мы поздравляем участников и победителей и желаем им дальнейших успехов в научной карьере!