==================== ===== Задача 1 ===== ==================== ssh ace cd /labnas/bioalgo/ train Обучающее множество, разбитое на хромосомы, в формате: start end label test Тестовое множество, разбитое на хромосомы, в формате start end genome Соответствующие человеческие хромосомы. gz Всё вышеописанное в сжатом виде, если вдруг захотите скачать и решать локально. Необходимо: 1. Посмотреть на обучающее множество, найти закономерности. 2. Классифицировать данные (расставить labels) для тестового множества. 3. Вывести классификацию тестового множества в таком же формате, как обучающее множество (start end label), при этом сохраняя порядок интервалов, данный в тестовом множестве. ./check your_folder Программа для проверки решения (процент правильно классифицированных интервалов). rand.py Пример решения, расставляющего метки случайно. Даёт всего 0.7258%. Вывод rand.py можно посмотреть в папке rand. ==================== ===== Задача 2 ===== ==================== Необходимо скачать свои данные с https://www.23andme.com/you/download/ . Если у вас нет своих данных 23andMe или вы боитесь на них смотреть :) , то можете скачать данные Greg Mendel или Lilly Mendel, например, отсюда: https://github.com/dgadling/23andme . Либо можете скачать открытые данные других людей отсюда: http://opensnp.org в формате 23andMe или deCODEme. 1. Используя ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20110521/ALL.wgs.phase1_release_v3.20101123.snps_indels_sv.sites.vcf.gz определите вероятность того, что вы американец (AMR), азиат (ASN), африканец (AFR), европеец (EUR). Должно получиться 4 значения вероятностей. 2. Используя данные ~152 генотипов из http://opensnp.org/dump_download определите 10 генетически ближайших к вам индивидуумов (например, по количеству совпадающих гаплотипов в снипах). 3. Используя 10 ближайших "родственников" из пункта 2, определите свой фенотип (например, взяв мажорирующие признаки из фенотипов "родственников").