Для подготовки

Ниже можно найти ссылки на полезные материалы как для подготовки к летней школе, так и для общего развития после неё.
 
Вы можете ознакомиться с этими материалами по собственному желанию — они не являются обязательными для подготовки. Необходима лишь установка программного обеспечения, перечисленного ниже.
 

Эта страница актуальна для летней школы 2016 года

 

Введение

 

Программное обеспечение

Для участия в семинарах и проектах будет необходимо установить ряд программных пакетов.  

Для всех операционных систем:

  • R и RStudio (для семинаров по статистике, R, машинному обучению)
  • Sublime Text (редактор кода)
  • Java (необходима для запуска многих других программных пакетов)
  • FastQC (для семинаров и работы над некоторыми проектами)
  • Anaconda3  (для семинаров и работы над некоторыми проектами)

Для компьютеров под управлением Windows:

  • Babun — аналог командной строки Linux.

    Предоставляется в виде самораспаковывающегося архива. ​Он не требует установки, для работы достаточно распаковать архив и запустить файл install, находящийся в нем. Автоматическая настройка будет завершена, когда Вы увидите символы  { ~ } » . После этого программным пакетом можно начинать пользоваться.

Примечание: пакеты python3, ipython, samtools, vcftools, velvet, bowtie2 предустановлены в этом дистрибутиве.

Для компьютеров под управлением Linux и OS X:

  • Python 3 (для семинаров по Python для биологов, статистике для информатиков и для некоторых проектов). Примечание: Python 3 предустановлен в большинстве современных дистрибутивов Linux. Если, открыв терминал и набрав команду python3, Вы не получаете сообщения об ошибке (command not found), то устанавливать Python 3 не требуется.
  • SAMTools (для некоторых проектов). Исполняемые файлы (для Linux), исходный код (для Linux и OS X).
  • Vcftools (для семинаров и некоторых проектов). Исходный код.
  • Bowtie2 (для семинаров и некоторых проектов). Для Linux, для OS X.

Программное обеспечение для каждого отдельного курса 2016 года

Для курса "Введение в машинное обучение" нужны дополнительные пакеты R: 

  • randomForest, xgboost, kernlab, limma, caret, pheatmap, GOsummaries, ggplot2, amap, dplyr. Для этого надо в RStudio запустить строчку: install.packages(c('randomForest', 'xgboost', 'kernlab', 'caret', 'pheatmap', 'ggplot2', 'amap', 'dplyr', 'reshape'))
  • пакет impute из Bioconductor'а http://www.bioconductor.org/packages/release/bioc/html/impute.html . Для этого надо в RStudio запустить две строчки: source('http://bioconductor.org/biocLite.R'); biocLite(c('impute', 'limma', 'GOsummaries'))

Для курса "Интенсив по статистике для информатиков":

  • R и RStudio и пакеты R: nortest, ellipse, multcomp, mutoss, mutossGUI, nparcomp, coin, perm, multcompView. Для этого надо в RStudio запустить строчку install.packages(c('multcomp', 'mutoss', 'mutossGUI', 'nparcomp', 'coin', 'perm', 'multcompView'))
  • Python 3 + SciPy + NumPy + pandas

Для курса "Введение в R": 

Для курса "Введение в программирование на Python":

  • Anaconda3 
  • Babun (в случае, если у вас операционная система Windows). Инструкции по установке описаны выше. 
  • PyСharm (желательно)

​Для практики потока биологов у Константина Оконечникова: 

У руководителей проектов могут быть дополнительные требования по программному обеспечению — пожалуйста, обратите на это внимание при подготовке к проектам. 


Программное обеспечение для научных проектов

(Добрынин) Поиск и классификация эндогенных ретровирусов (ERV)

(Fishman) Разработка алгоритма оценки соотношения раковых клеток к здоровым по сканам человеческой грудной ткани

(Райко) Полногеномное и экзомное секвенирование 

(Sügis) Определение аутоантител, которые могут быть использованны в диагностике заболевания Альцгеймера

(Шугай) Создание алгоритма построения деревьев последовательностей генов B-клеточного рецептора с учетом гипервариабельных участков

(Назаров) Поиск сепарирующих мотивов между репертуарами иммунных рецепторов

(Назаров) Предсказание связывания MHC и белков

(Захаров) Реконструкция последовательности белка с учетом вариаций


Информатикам

I. Глоссарий основных биологических терминов

II. Вводные лекции и статьи

  1. Введение в молекулярную биологию и биоинформатику (Николай Вяххи). Первая лекция курса «Алгоритмы в биоинформатике», доступного в записи на «Лекториуме». Объясняются самые-самые основы биологии, нужные информатикам, а также рассказывается о ее основных разделах. 
  2. Введение в биоинформатику и Биоинформатика и ее приложения (Алла Лапидус). Интересные лекции с прошлых летних школ о том, что такое биоинформатика и для чего она нужна.
  3. Биоинформатика как наука (Михаил Гельфанд). Один из основоположников биоинформатики в России рассказывает в интервью о том, кто такие биоинформатики и чем они занимаются. На «ПостНауке» можно найти также и другие интересные и довольно простые материалы Михаила Гельфанда.
  4. Геномика: постановка задачи и методы секвенирования (Сергей Николенко). В статье кратко рассказывается об основных методах и задачах биоинформатики с точки зрения геномики. Даются определения самых важных терминов.
  5. Биоинформатика (Андрей Миронов). Конспект лекции из курса по основам биологии, который читают на факультете молекулярной и биологической физики в МФТИ. 

III. Rosalind: онлайн-задачник по биоинформатике:

Задачи под кодовыми названиями DNA, RNA, Revc, GC, Prot, Subs и Hamm.


Биологам

I. Глоссарий основных биоинформатических терминов

II. Программирование

Полезные базовые уроки из онлайн-курса «Программирование на Python»**

базовые темы будут также освещены на семинаре «Введение в программирование на Python».

  1. Общая информация о курсе
  2. Введение
  3. iPython
  4. Операции с целыми числами
  5. Операции с вещественными числами
  6. Типы данных
  7. Переменные; стандартный ввод-вывод

Rosalind: онлайн-задачник по биоинформатике

Python Village, а также задачи под кодовыми названиями DNARNA и Revc.

III. Linux

Полезные базовые уроки из онлайн-курса «Введение в Linux»**

  1. Общая информация о курсе
  2. Как установить Linux
  3. Осваиваем Linux
  4. Terminal, основы
  5. Запуск исполняемых файлов

И биологам, и информатикам

I. Статистика и язык R

базовые темы будут также освещены на занятиях по основам статистики для биологов.

Полезные базовые уроки из онлайн-курса «Основы статистики»**

  1. Общая информация
  2. Генеральная совокупность и выборка
  3. Типы переменных
  4. Меры центральной тенденции
  5. Меры изменчивости

Язык R

  1. http://tryr.codeschool.com — краткое введение в R
  2. https://stepic.org/129 — курс по анализу данных в R от Института биоинформатики**

II. Дополнительно

  1. Материалы летней школы по биоинформатике 2014
  2. Материалы летней школы по биоинформатике 2013
  3. Онлайн-курсы Института биоинформатики

* Установка указанных пакетов в R: 

install.packages(c('randomForest', 'xgboost', 'kernlab', 'limma', 'caret', 'pheatmap', 'GOsummaries', 'ggplot2', 'amap', 'dplyr', 'nortest', 'ellipse', 'multcomp', mutoss', 'mutossGUI', 'nparcomp', 'coin', 'perm', 'multcompView'))

source("https://bioconductor.org/biocLite.R")

biocLite("impute")

** - для прохождения уроков вам потребует зарегистрироваться на https://stepic.org. И регистрация, и прохождение всех открытых курсов бесплатны.