BI project

Сборка геномов различных штаммов дрожжей

Дрожжи Saccharomyces cerevisiae относятся к Царству Грибов, отделу Сумчатых Грибов (Ascomyсota). Они активно используются в промышленности (виноделии, хлебопечении и т.д.), а также являются модельным генетическим объектом. S. cerevisiae (штамм S288C) - первый эукариотический организм, чей геном был полностью отсеквенирован. В базе данных, посвященной дрожжам (Saccharomyces Genome Database), представлена информация о секвенировании еще 32-ух штаммов S. cerevisiae, отличных от S288C.

Оценка содержания полигуанинов в геноме мыши

Протяженные гомополимерные участки в геноме могут считаться артефактами секвенирования, которые появляются вследствие ошибок работы полимеразы. В частности, такими артефактами могут быть полигуаниновые треки, т.к. они имеют слишком высокую температуру плавления, могут образовывать вторичные структуры, препятствующие процессам репликации и транскрипции, и кодируют длинные глициновые пептиды, чья структура не стабильна для образования белковых мотивов.

Мать–плод

Данная работа является исследованием в сфере неинвазивной пренатальной диагностики и основывается на феномене cffDNA (cell-free fetal DNA). Целью проекта являлась разработка алгоритма, позволяющего на основании данных секвенирования плазмы крови беременной женщины определить набор однонуклеотидных полиморфизмов в геноме ее плода.

Аннотация SNP в экзомах пациентов с CML

Хронический миелоидный лейкоз это онкологическое заболевание, которое характеризуется неконтролируемым делением миелоидных клеток в кроветворных тканях и последующим накоплением их в крови. К необластической трансформации может приводить целый спектр мутаций, нарушающих различные сигнальные пути. Набор мутаций, послуживших причиной заболевания, (иначе называемых драйверными) специфичен для каждого типа рака.

Оценка качества секвенирования

Решалась задача фильтрации ридов. В результате проекта был написан быстрый тул фильтрации адаптеров и праймеров на основе алгоритма Ахо-Корасик, а также разработан и верифицирован алгоритм разделения контаминированных алгоритмов на основе анализа коротких k-меров. Данный алгоритм существенно улучшает определение контаминант и разделение ридов по сравнению с использованием GC - контента.

Поиск тандемных повторов в трех геномных сборках китайского хомячка и оценка качества сборки сортированных хромосом

Тандемные повторы составляют значительную часть (десятки процентов) геномов всех высших эукариот и представляют собой основу конститутивного гетерохроматина, из которого состоят такие функционально значимые районы хромосом как центромеры. Тем не менее, этот класс последовательностей ДНК является одним из самых плохо изученных. Применение биоинформатических методов для поиска новых семейств тандемных повторов показало хорошие результаты на примере генома Mus musculus (Komissarov et al.,2011).

CpG islands

Антон Брагин:

Обработка результатов BLAST, chaining, netting

Сlustering_and_ordering – простой инструмент, позволяющий обрабатывать результаты BLAST и, увеличивая размер выровненных на референс фрагментов, уточнять их местоположение в геноме. В BLAST подается референсный геном и набор контигов, входными данными для сlustering_and_ordering является вывод BLAST в шестом формате. По окончанию работы программы выдается список упорядоченных по координатам в референсе объединенных фрагментов, их характеристики, а также статистики, позволяющие оценить качество полученных данных.

Semi-automatic user-guided GenBank flat file feature parser

Формат данных Genbank flat file предназначен для хранения нуклеотидной последовательности и аннотации ее элементов, таких как гены, кодирующие последовательности, повторы и прочее.

Pages

Subscribe to RSS - BI project