Летняя школа по биоинформатике 2019

29 июля – 3 августа | Москва

Программа

Научная программа школы включала лекции, практические занятия и проекты по биоинформатике в изучении старения и развития, а также общие занятия по предметам, полезным биоинформатикам в разных областях.

Летняя школа проходила в два потока:

Биоинформатика для информатиков и математиков.
Биоинформатика для биологов и медиков.

В лекционной программе школы

Обзор современных достижений в бионформатике.
Методы вычислительной и системной биологии.
Популяционная генетика.
Работа с данными NGS.
Работа с данными масс-спектрометрии.
Структурная бионформатика.

Расписание версия для печати

Практические интенсивы и научные проекты

Практические занятия на школе не делятся строго на занятия для биологов или информатиков. Однако остаются рекомендации по участию в соответствии с уровнем подготовки. Если рекомендаций нет — к участию приглашаются все желающие. Участники могут самостоятельно выбрать интересные им занятия.

Для опытных участников организована работа над научным проектом под руководством опытного куратора в течение 2 дней школы. По итогам команды представят результаты своей работы. В этом году проекты посвящены анализу генов старения C. elegans, поиску генетических основ долгожительства, анализу данных single cell и RNA-seq.

Ниже можно найти описание практических занятий, а также необходимое к установке (до начала школы!) программное обеспечение.

Условные обозначения:
*рекомендовано для биологов
** рекомендовано для информатиков

Преподаватель: Ильин Александр, Skoltech

В первой части занятия будет рассмотрена работа с таблицами в python на примере липидомных данных, а также взаимодействие с файлами и пакетами python (визуализация многомерных данных (PCA, MDS)). Затем знакомство с библиотеками для машинного обучения и создание моделей для предсказания возраста на основе RNA-seq данных (Decision Tree и Random Forest с sklearn Artificial Neural Networks c keras).

Неоходимое ПО: Большинство пакетов есть внутри дистрибутива anaconda. Именно этот дистрибутив рекомендован к установке: https://www.anaconda.com/download/ python3.7
пакеты для установки: numpy, pandas, sklearn, keras, matplotlib, seaborn
Для комфортной работы рекомендуем также установить бесплатную версию среды разработки PyCharm (https://www.jetbrains.com/pycharm/download)

Преподаватель: Елена Чуклина, ETH, Zurich

Основы регрессии
Метод random forest
Feature selection
Overfitting, training & test sets, cross-validation
*Стабильность выбранных фич

Пакеты для R:
library(gam)
library(caret)
library(ggplot2)
library(e1071)
library(readr)
library(GGally)
library(dplyr)
library(rpart.plot)
library(mlr)
library(mlbench)
library(magrittr)

Преподаватель: Геннадий Захаров, EPAM

В этом кратком курсе участникам предлагается поработать с командной строкой: ключевые понятия нужные для работы в командной строке, настройка командной строки для удобной работы, обзор наиболее полезных приемов работы, часто-используемых команд, их опций и примеров использования. Примеры направлены в первую очередь на анализ данных биоинформатики – секвенированных последовательностей ДНК, генов, интервалов и т.д. Помимо стандартных команд Linux (zcat, grep, sed, awk) рассмотрим утилиты для работы с последовательностями (samtools, bedtools).
Практика будет полезна всем, кто сталкивается или ожидает столкнуться с анализом данных при помощи набора утилит командной строки. Предполагается, что слушатели имеют начальные представления о Linux и работе в командной строке. Также необходимо наличие работающего окружения Linux (на виртуальной машине или непосредственно на «железе»).

Любой дистрибутив Linux, установленный в виртуальной машине или "на железе".
Инструкция по установке в VirtualBox (будет дополняться по мере подготовки курса): https://yadi.sk/i/4EtLB2Isfb1ldw
Инструкция по установке «на железо»: https://losst.ru/ustanovka-kubuntu-18-04.
Можно воспользоваться готовым образом системы, используемом для курса «Обработка данных Chip-seq».
Установленные утилиты: bwa samtools, bedtools, snakemake. Установка этих утилит при помощи Conda описана в инструкции.
Доступные в виртуальной машине данные для работы (будут доступны на флешке, но удобнее скачать заранее):
Референсный геном. ftp://ftp.flybase.net/genomes/Drosophila_melanogaster/dmel_r6.28_FB2019_03/fasta/dmel-all-chromosome-r6.28.fasta.gz
Набор аннотированных генов (размер около 600 Mb): ftp://ftp.flybase.net/genomes/Drosophila_melanogaster/dmel_r6.28_FB2019_03/gff/dmel-all-filtered-r6.28.gff.gz
Данные 4С-seq: https://yadi.sk/d/gvkz8w2HHnT7yw

Преподаватель: Никита Алексеев (Университет ИТМО)

Первое занятие будет посвящено теории Марковских цепей, вопросам их сходимости, и процессам, которые они описывают. На следующих занятиях будут разбираться примеры, нюансы, фрагменты теории будут чередоваться с элементами практики. Темы будут включать, в том числе, - Семплирование "конечномерных" случайных величин vs семплирование в больших пространствах;- MCMC алгоритмы для семплирования, примеры, свойства, проблемы;- MCMC для решения задач оптимизации;- биоинформатические методы, основанные на использовании MCMC.

Неоходимое ПО:

1. Python 3 (Рекомендуем поставить anaconda https://www.anaconda.com/download/ python3.7) + среду для разработки (рекомендуем установить PyCharm).
2. revBayes (https://revbayes.github.io)

Преподаватель: Андрей Пржибельский, ЦАБ СПбГУ

На практических занятиях слушатели познакомятся с современными программами и библиотеками для работы с выравниваниями, а также попробуют написать некоторые алгоритмы самостоятельно.

Необходимое ПО: Python или любой другой императивный язык на котором можно будет быстро писать несложные (и сложные) программы.
Пакеты: Pysam, Biopython

Преподаватель: Алексей Сергушичев, Университет ИТМО

Во вводной, теоретической части, мы рассмотрим основные шаги анализа данных РНК-секвенирования от исходных чтений, до таблицы с экспрессией и последующей интерпретации результатов. В практической части мы проведем анализ в R, начиная с таблиц с экспрессией, а также рассмотрим возможности получения данных из открытых источников.

Ключевые слова: РНК-секвенирование, анализ экспрессии генов, дифференциальная экспрессии, анализ представленности молекулярных путей.

Необходимое ПО: R версии 3.6, RStudio
Необходимые пакеты: DESeq2, limma, org.Hs.eg.db, org.Mm.eg.db, reactome.db, msigdbr, fgsea, magrittr, dplyr, ggplot2, ggrepel, rhdf5, devtools, pheatmap, hypeR

Преподаватель: Павел Синицын, Max-Planck Institute of Biochemistry

Данные тандемной масс-спектрометрии по сравнению с NGS устроены объективно сложнее. Однако визуализация исходных данных позволяет осуществлять не только контроль качества, но и позволяет глубже понять возможности и ограничения этого метода. В рамках этого семинара посмотрим как выглядят данные различных протеомных экспериментов и запустим анализ.

Преподаватель: Мария Черниговская, Университет ИТМО

На данных из публичных датасетов:
Предварительный анализ данных — типы данных, NA
Смотрим на данные — гистограммы, ящики с усами, диаграмма рассеяния
Проверка гипотез одна выборка — немного теории, p-value, ошибки первого и второго рода, z-test, t-test, проверка на нормальность
Проверка гипотез две выборки — разница в средних (контроль-пациенты)
Корреляция — correlation and causation, зависимость в данных
Снижение размерности — PCA, tsne, umap
Множественное тестирование
Регрессия *

Требования к ПО:
R + R-studio (ggplot2, dplyr, readr)

Преподаватель: Татьяна Татаринова, University of La Verne

Требования к ПО: Windows:
BAM Analysis kit
https://drive.google.com/uc?id=0B_DZ5yg3R2FGcEd6TUUyVHI4dmc&export=download
Rstudio: https://www.rstudio.com/products/rstudio/#Desktop

LINUX:
admixture http://software.genetics.ucla.edu/admixture/download.html
GATK https://software.broadinstitute.org/gatk/download/archive (выбрать 3.8.1)
Picard https://broadinstitute.github.io/picard/
Samtools https://sourceforge.net/projects/samtools/files/samtools/1.9/samtools-1.9.tar.bz2/download
Plink 1.9 https://www.cog-genomics.org/plink/1.9/

Референс ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz

Преподаватель: Роман Чернятчик, JetBrains

Практический курс по обработке данных ChIP-Seq, включающий контроль качества данных, выравнивание ридов, поиск пиков, визуализацию пиков и ридов, а также интерпретацию результатов. В рамках практики будет рассмотрен вопрос применимости различных алгоритмов поиска пиков к широким и узким модификациям гистонов. Обработка данных будет производится с помощью пайплайна на snakemake.

Необходимое ПО: VirtualBox 6.x (https://www.virtualbox.org)
JBR (https://research.jetbrains.org/groups/biolabs/tools/jbr-genome-browser)
PyCharm Community Edition (https://www.jetbrains.com/pycharm/download)

Подготовка к школе

Мы подготовили список рекомендованных материалов по подготовке ко всем практикам и лекциям школы. Пожалуйста, ознакомьтесь с наиболее незнакомыми темами.

Подготовка к летней школе 2019

Материалы школы

Партнеры

Контакты

По всем вопросам пишите на summer@bioinf.me, но заранее ознакомьтесь с ответами на самые распространенные вопросы.

Часто задаваемые вопросы

Об институте

направления

Мы в сети

Летняя школа по биоинформатике 201929 июля – 3 августа | Москва

Летняя школа по биоинформатике 2019

29 июля – 3 августа | Москва