Летняя школа по биоинформатике 2018

23–28 июля | Санкт-Петербург

Программа

Научная программа школы включает лекции, практические занятия и проекты по биоинформатике в исследованиях рака, а также общие занятия по предметам, полезным биоинформатикам в разных областях.

Летняя школа поделена на два потока:

Биоинформатика для информатиков и математиков.
Биоинформатика для биологов и медиков.

В лекционной программе школы

Работа с данными NGS.
Методы вычислительной и системной биологии.
Популяционная генетика.
Методы диагностики злокачественных новообразований.
Биоинформатические подходы в изучении геномики и транскриптомики рака.
Молекулярное моделирование лекарств для таргетной терапии.
Современные достижения в изучении молекулярных процессов в опухоли.

Подробное расписание | версия для печати

Практические интенсивы и научные проекты

Практические занятия в этом году не делятся строго на занятия для биологов или информатиков. Однако остаются рекомендации по участию в соответствии с уровнем подготовки. Если рекомендаций нет — к участию приглашаются все желающие. Участники могут самостоятельно выбрать интересные им занятия.

Логическим продолжением практических интенсивов будет решение практической задачи — научного проекта. Работа над проектом не является обязательной и выполняется по желанию небольшой группой из 4-6 человек под руководством преподавателя практики. За время школы будет возможность поучаствовать в нескольких проектах.

Ниже можно найти описание практических занятий, а также необходимое к установке (до начала школы!) программное обеспечение.

Условные обозначения:
*рекомендовано для биологов
** рекомендовано для информатиков

Преподаватель: Константин Зайцев, Университет ИТМО

Применение техник машинного обучения в исследовании рака.
Введение в машинное обучение на Python.

Неоходимое ПО: Все необходимые пакеты есть внутри дистрибутива anaconda. Именно этот дистрибутив рекомендован к установке: https://www.anaconda.com/download/ python3.6

Проект: Сравнительный анализ LUAD и LUSC раков легких на основе данных TCGA.

Преподаватель: Геннадий Захаров, EPAM

В курсе будет рассмотрено построение пайплайна - создание из готовых утилит системы для выполнения расчетной задачи. Мы рассмотрим набор стандартных утилит командной строки (grep, sed, cut, sort, ...), а также возможности пакетов samtools bedtools, bwa. Научимся создавать из набора команд рабочие пайплайны с помощью системы snakemake. Все эти задачи изучим на реальном примере построения пайплайна для обработки данных 4С-секвенирования.

Неоходимое ПО: Любой дистрибутив Linux, установленный в виртуальной машине или на "железе". В работе буду ориентироваться на Ubuntu/Kubuntu 18.04. Дополнительно потребуется установить следующие программы:
samtools, bedtools, bwa, snakemake
Все программы есть в репозитарии Ubuntu и могут быть установлены одной командой в терминале:
sudo apt update && sudo apt install samtools bedtools bwa snakemake

Проект: Анализ полногеномных сиквенсов дрозофилы.
Имеются полногеномные сиквенсы 5 линий дрозофилы -- 3-х линий дикого типа и двух мутантов с нарушениями в строении и функционировании нервной системы. Команде предлагаются построить пайплайн для нахождения вариаций, аннотировать и проанализировать полученные результаты.
Предлагаемые мутантные линии ранее не секвенировались, поэтому поставленная задача интересна с фундаментальной точки зрения. Возможно, удастся обнаружить вариации, уникальные для мутантов и потенциально являющиеся причиной нарушений.

Предлагаемый пайплайн состоит из следующих утилит (можно установить заранее):

Trimmomatic -- образка некачественных ридов
BWA -- выравникание на референс
samtools -- конвертация и сортировка выравнивания
GATK или Vardict -- идентификация вариаций
snpeff/snpsift -- аннотирование и фильтрация
rtg-tools - сравнение вариаций между линиями

Преподаватели: Никита Алексеев (Университет ИТМО), Мария Черниговская (ЦАБ СПбГУ)

Ключевые темы: семплирование «конечномерных случайных величин vs семплирование в больших пространствах;
MCMC алгоритмы для семплирования, примеры, свойства, проблемы;
MCMC для решения задач оптимизации;
биоинформатические методы, основанные на использовании MCMC.

Неоходимое ПО:

R (Мы рекомендуем поставить пакеты ggplot2, dplyr, data.table, pheatmap, mcmc)
R-studio
Python 3 (Рекомендуем поставить anaconda https://www.anaconda.com/download/ python3.6) + jupyter notebook (если вы установили anaconda, то устанавливать jupyter notebook отдельно не нужно)
mrBayes (http://mrbayes.sourceforge.net/download.php)
Dendrix (http://compbio.cs.brown.edu/projects/dendrix/ Latest release: ver0.3, February 4, 2013)

Преподаватели: Андрей Пржибельский, ЦАБ СПбГУ

На данных практиках будут рассмотрены классические алгоритмы выравнивания, такие как алгоритмы Нидлмана-Вунша и Смита-Уотермана, а также их некоторые модификации (линейная память, линейная память с ограниченным количеством ошибок, Аффинная модель вставки, множественное выравнивание). Далее студентам будет предложено реализовать эти алгоритмы на любимом языке программирования. Для более продвинутых в плане программирования студентов можно предложить более интересные алгоритмы, такие как суффиксный массив, выравнивание через seed and extend, итд.

Необходимое ПО: Python или любой другой императивный язык на котором можно будет быстро писать несложные (и сложные) программы.

Проект: Поиск геномных повторов с помощью графа де Брюйна. В случае успешного выполнения первой части можно добавить классификацию повторов. От 1 до 4 человек.

Необходимые навыки: умение реализовывать в коде различные (порой нетривиальные) алгоритмы, желание придумывать новые алгоритмы и анализировать данные, работать над одним кодом в команде.

Преподаватель: Герман Демидов, Universitat Pompeu Fabra/Institut für Medizinische Genetik und angewandte Genomik

Поиск CNV/CNA в germline/somatic контекстах на примере нескольких тулов.

Необходимое ПО: GATK 4.0.6 или старше, R, R-studio

Преподаватель: Павел Синицын

На данной практической лекции мы разберем несколько задачек с использованием данных протеомики. Также в вашем распоряжении будут задачи, рассчитанные на самостоятельное решение. От самых простых, требующих простейших знаний статистики, и до достаточно сложных, требующих взаимодействия с базами данных или требующих знаний методов машинного обучения.

Необходимое ПО: Mono

Преподаватель: Юрий Барбитов

В рамках этого занятия мы рассмотрим базовые принципы анализа данных NGS. Будут рассмотрены основные группы NGS-методов (de novo методы, ресеквенирование, функциональная геномика (RNA-Seq, ChIP-Seq, etc.) и задачи, которые могут быть решены с их помощью.

Проект: Анализ экспрессии lncRNA в раковых опухолях

Команде нужно будет взять какой-то тип опухоли (найти публичный датасет с данными на SRA); скачать данные, подсчитать экспрессию при помощи kallisto или другого пайплайна и провести эксплоративный анализ экспрессии lncRNA (здесь - простор для творчества; в любом случае потребуется сделать сравнение с нормальной тканью). По возможности - найти потенциальный механизм действия, наподобие: https://www.nature.com/articles/s41598-017-15712-y)

Самые продвинутые могут попробовать сделать предсказание lncRNA генов по данным экспрессии и гистоновых марок

Преподаватель: Алексей Сергушичев, Университет ИТМО

В курсе будут рассмотрены основы работы с клиническими данными и данными экспрессии в R. Мы найдем, какие факторы влияют на выживаемость пациентов и посмотрим, какие молекулярные пути могут быть с этим связаны.
Ключевые слова: TCGA, анализ выживаемости, дифференциальная экспрессия.

Необходимое ПО: R версии 3.5, RStudio
Необходимые пакеты: GenomicDataCommons, magrittr, dplyr, survival, limma, ggplot2, ggrepel, org.Hs.eg.db, reactome.db, fgsea, clusterProfiler, GGally и pheatmap.

*для установки необходимо ввести комманду:
source("https://bioconductor.org/biocLite.R")
biocLite(c("GenomicDataCommons", "magrittr", "dplyr", "survival", "limma", "ggplot2", "ggrepel", "org.Hs.eg.db", "reactome.db", "fgsea", "clusterProfiler", "pheatmap", "GGally"))

Проект: Анализ молекулярных подтипов рака.
Команде будет необходимо выбрать один из тип раков из базы TCGA и выполнить максимально подробное описание его молекулярных подтипов: какие они бывают, с чем могут быть связаны, как они влияют на выживаемость и т.д.

Все вопросы и комментарии по установке ПО можно направлять в чат в Slack.

Материалы для подготовки к школе

Мы подготовили список рекомендованных материалов по подготовке ко всем практикам и лекциям школы. Пожалуйста, ознакомьтесь с наиболее незнакомыми темами.

Подготовка к летней школе 2018

Партнеры

Контакты

По всем вопросам пишите на summer@bioinf.me, но заранее ознакомьтесь с ответами на самые распространенные вопросы.

Часто задаваемые вопросы

Об институте

направления

Мы в сети

Летняя школа по биоинформатике 201823–28 июля | Санкт-Петербург

Летняя школа по биоинформатике 2018

23–28 июля | Санкт-Петербург