Для подготовки
Эта страница актуальна для летней школы 2016 года
Введение
Программное обеспечение
Для участия в семинарах и проектах будет необходимо установить ряд программных пакетов.
Для всех операционных систем:
- R и RStudio (для семинаров по статистике, R, машинному обучению)
- Sublime Text (редактор кода)
- Java (необходима для запуска многих других программных пакетов)
- FastQC (для семинаров и работы над некоторыми проектами)
- Anaconda3 (для семинаров и работы над некоторыми проектами)
Для компьютеров под управлением Windows:
- Babun — аналог командной строки Linux.
Предоставляется в виде самораспаковывающегося архива. Он не требует установки, для работы достаточно распаковать архив и запустить файл install, находящийся в нем. Автоматическая настройка будет завершена, когда Вы увидите символы { ~ } » . После этого программным пакетом можно начинать пользоваться.
Примечание: пакеты python3, ipython, samtools, vcftools, velvet, bowtie2 предустановлены в этом дистрибутиве.
Для компьютеров под управлением Linux и OS X:
- Python 3 (для семинаров по Python для биологов, статистике для информатиков и для некоторых проектов). Примечание: Python 3 предустановлен в большинстве современных дистрибутивов Linux. Если, открыв терминал и набрав команду python3, Вы не получаете сообщения об ошибке (command not found), то устанавливать Python 3 не требуется.
- SAMTools (для некоторых проектов). Исполняемые файлы (для Linux), исходный код (для Linux и OS X).
- Vcftools (для семинаров и некоторых проектов). Исходный код.
- Bowtie2 (для семинаров и некоторых проектов). Для Linux, для OS X.
Программное обеспечение для каждого отдельного курса 2016 года
Для курса "Введение в машинное обучение" нужны дополнительные пакеты R:
- randomForest, xgboost, kernlab, limma, caret, pheatmap, GOsummaries, ggplot2, amap, dplyr. Для этого надо в RStudio запустить строчку: install.packages(c('randomForest', 'xgboost', 'kernlab', 'caret', 'pheatmap', 'ggplot2', 'amap', 'dplyr', 'reshape'))
- пакет impute из Bioconductor'а http://www.bioconductor.org/packages/release/bioc/html/impute.html . Для этого надо в RStudio запустить две строчки: source('http://bioconductor.org/biocLite.R'); biocLite(c('impute', 'limma', 'GOsummaries'))
Для курса "Интенсив по статистике для информатиков":
- R и RStudio и пакеты R: nortest, ellipse, multcomp, mutoss, mutossGUI, nparcomp, coin, perm, multcompView. Для этого надо в RStudio запустить строчку install.packages(c('multcomp', 'mutoss', 'mutossGUI', 'nparcomp', 'coin', 'perm', 'multcompView'))
- Python 3 + SciPy + NumPy + pandas
Для курса "Введение в R":
Для курса "Введение в программирование на Python":
- Anaconda3
- Babun (в случае, если у вас операционная система Windows). Инструкции по установке описаны выше.
- PyСharm (желательно)
Для практики потока биологов у Константина Оконечникова:
У руководителей проектов могут быть дополнительные требования по программному обеспечению — пожалуйста, обратите на это внимание при подготовке к проектам.
Программное обеспечение для научных проектов
(Добрынин) Поиск и классификация эндогенных ретровирусов (ERV)
- Оба софта являются частью пакета GenomeTools - http://genometools.org
- LTR_harvest - http://www.zbh.uni-hamburg.de/?id=206
- LTR_digest - http://www.zbh.uni-hamburg.de/?id=207
(Fishman) Разработка алгоритма оценки соотношения раковых клеток к здоровым по сканам человеческой грудной ткани
- sklearn - http://scikit-learn.org/stable/index.html
- keras - http://keras.io
- ggplot2, dplyr
(Райко) Полногеномное и экзомное секвенирование
- VCF tools - https://vcftools.github.io/index.html
- GATK - https://www.broadinstitute.org/gatk/
- https://github.com/sequencing/isaac_variant_caller
- https://github.com/sequencing/isaac_aligner
- SNPeff - http://snpeff.sourceforge.net
- Данные - https://github.com/msporny/dna
(Sügis) Определение аутоантител, которые могут быть использованны в диагностике заболевания Альцгеймера
- PAA - http://bioconductor.org/packages/release/bioc/html/PAA.html
- Caret - http://topepo.github.io/caret/index.html
- ggplot2, dplyr, pheatmap, GOsummaries
- Данные - https://figshare.com/articles/DATA_RAW_zip/3473654
(Шугай) Создание алгоритма построения деревьев последовательностей генов B-клеточного рецептора с учетом гипервариабельных участков
- milib для программистов - https://github.com/milaboratory/milib
- java 1.8
- maven - http://maven.apache.org
(Назаров) Поиск сепарирующих мотивов между репертуарами иммунных рецепторов
- pandas - http://pandas.pydata.org
- sklearn - http://scikit-learn.org/stable/index.html
- Caret - http://topepo.github.io/caret/index.html
- R-пакет tcR
(Назаров) Предсказание связывания MHC и белков
- pandas - http://pandas.pydata.org
- sklearn - http://scikit-learn.org/stable/index.html
- Caret - http://topepo.github.io/caret/index.html
(Захаров) Реконструкция последовательности белка с учетом вариаций
- Biopython - http://biopython.org/wiki/Biopython
- Htsjdk - http://samtools.github.io/htsjdk/
Информатикам
I. Глоссарий основных биологических терминов
II. Вводные лекции и статьи
- Введение в молекулярную биологию и биоинформатику (Николай Вяххи). Первая лекция курса «Алгоритмы в биоинформатике», доступного в записи на «Лекториуме». Объясняются самые-самые основы биологии, нужные информатикам, а также рассказывается о ее основных разделах.
- Введение в биоинформатику и Биоинформатика и ее приложения (Алла Лапидус). Интересные лекции с прошлых летних школ о том, что такое биоинформатика и для чего она нужна.
- Биоинформатика как наука (Михаил Гельфанд). Один из основоположников биоинформатики в России рассказывает в интервью о том, кто такие биоинформатики и чем они занимаются. На «ПостНауке» можно найти также и другие интересные и довольно простые материалы Михаила Гельфанда.
- Геномика: постановка задачи и методы секвенирования (Сергей Николенко). В статье кратко рассказывается об основных методах и задачах биоинформатики с точки зрения геномики. Даются определения самых важных терминов.
- Биоинформатика (Андрей Миронов). Конспект лекции из курса по основам биологии, который читают на факультете молекулярной и биологической физики в МФТИ.
III. Rosalind: онлайн-задачник по биоинформатике:
Биологам
I. Глоссарий основных биоинформатических терминов
II. Программирование
Полезные базовые уроки из онлайн-курса «Программирование на Python»**
базовые темы будут также освещены на семинаре «Введение в программирование на Python».
- Общая информация о курсе
- Введение
- iPython
- Операции с целыми числами
- Операции с вещественными числами
- Типы данных
- Переменные; стандартный ввод-вывод
Rosalind: онлайн-задачник по биоинформатике
Python Village, а также задачи под кодовыми названиями DNA, RNA и Revc.
III. Linux
Полезные базовые уроки из онлайн-курса «Введение в Linux»**
- Общая информация о курсе
- Как установить Linux
- Осваиваем Linux
- Terminal, основы
- Запуск исполняемых файлов
IV. Документы-подсказки:
- Шпаргалка по Python 2
- Шпаргалка по Python 3
- Инструкция по работе с системой контроля версий Git
- Шпаргалка по командам Linux
I. Статистика и язык R
базовые темы будут также освещены на занятиях по основам статистики для биологов.
Полезные базовые уроки из онлайн-курса «Основы статистики»**
- Общая информация
- Генеральная совокупность и выборка
- Типы переменных
- Меры центральной тенденции
- Меры изменчивости
Язык R
- http://tryr.codeschool.com — краткое введение в R
- https://stepic.org/129 — курс по анализу данных в R от Института биоинформатики**
II. Дополнительно
* Установка указанных пакетов в R:
install.packages(c('randomForest', 'xgboost', 'kernlab', 'limma', 'caret', 'pheatmap', 'GOsummaries', 'ggplot2', 'amap', 'dplyr', 'nortest', 'ellipse', 'multcomp', mutoss', 'mutossGUI', 'nparcomp', 'coin', 'perm', 'multcompView'))
source("https://bioconductor.org/biocLite.R")
biocLite("impute")
** - для прохождения уроков вам потребует зарегистрироваться на https://stepic.org. И регистрация, и прохождение всех открытых курсов бесплатны.