Летняя школа по биоинформатике 2019

29 июля – 3 августа | Москва

Программа
Научная программа школы включала лекции, практические занятия и проекты по биоинформатике в изучении старения и развития, а также общие занятия по предметам, полезным биоинформатикам в разных областях.

Летняя школа проходила в два потока:
  • Биоинформатика для информатиков и математиков.
  • Биоинформатика для биологов и медиков.

В лекционной программе школы


  • Обзор современных достижений в бионформатике.
  • Методы вычислительной и системной биологии.
  • Популяционная генетика.
  • Работа с данными NGS.
  • Работа с данными масс-спектрометрии.
  • Структурная бионформатика.

Расписание версия для печати

    Практические интенсивы и научные проекты

    Практические занятия на школе не делятся строго на занятия для биологов или информатиков. Однако остаются рекомендации по участию в соответствии с уровнем подготовки. Если рекомендаций нет — к участию приглашаются все желающие. Участники могут самостоятельно выбрать интересные им занятия.

    Для опытных участников организована работа над научным проектом под руководством опытного куратора в течение 2 дней школы. По итогам команды представят результаты своей работы. В этом году проекты посвящены анализу генов старения C. elegans, поиску генетических основ долгожительства, анализу данных single cell и RNA-seq.

    Ниже можно найти описание практических занятий, а также необходимое к установке (до начала школы!) программное обеспечение.

    Условные обозначения:
    *рекомендовано для биологов
    ** рекомендовано для информатиков

      Обработка данных на Python*
      Преподаватель: Ильин Александр, Skoltech

      В первой части занятия будет рассмотрена работа с таблицами в python на примере липидомных данных, а также взаимодействие с файлами и пакетами python (визуализация многомерных данных (PCA, MDS)). Затем знакомство с библиотеками для машинного обучения и создание моделей для предсказания возраста на основе RNA-seq данных (Decision Tree и Random Forest с sklearn Artificial Neural Networks c keras).

      Неоходимое ПО: Большинство пакетов есть внутри дистрибутива anaconda. Именно этот дистрибутив рекомендован к установке: https://www.anaconda.com/download/ python3.7
      пакеты для установки: numpy, pandas, sklearn, keras, matplotlib, seaborn
      Для комфортной работы рекомендуем также установить бесплатную версию среды разработки PyCharm (https://www.jetbrains.com/pycharm/download)
      Поиск биомаркеров из протеомов и других экспрессионных данных методами машинного обучения
      Преподаватель: Елена Чуклина, ETH, Zurich

      • Основы регрессии
      • Метод random forest
      • Feature selection
      • Overfitting, training & test sets, cross-validation
      • *Стабильность выбранных фич
      Пакеты для R:
      library(gam)
      library(caret)
      library(ggplot2)
      library(e1071)
      library(readr)
      library(GGally)
      library(dplyr)
      library(rpart.plot)
      library(mlr)
      library(mlbench)
      library(magrittr)
      Command-line tools for bioinformatics (работа с пайплайнами)*
      Преподаватель: Геннадий Захаров, EPAM

      В этом кратком курсе участникам предлагается поработать с командной строкой: ключевые понятия нужные для работы в командной строке, настройка командной строки для удобной работы, обзор наиболее полезных приемов работы, часто-используемых команд, их опций и примеров использования. Примеры направлены в первую очередь на анализ данных биоинформатики – секвенированных последовательностей ДНК, генов, интервалов и т.д. Помимо стандартных команд Linux (zcat, grep, sed, awk) рассмотрим утилиты для работы с последовательностями (samtools, bedtools).
      Практика будет полезна всем, кто сталкивается или ожидает столкнуться с анализом данных при помощи набора утилит командной строки. Предполагается, что слушатели имеют начальные представления о Linux и работе в командной строке. Также необходимо наличие работающего окружения Linux (на виртуальной машине или непосредственно на «железе»).

      Любой дистрибутив Linux, установленный в виртуальной машине или "на железе".
      Инструкция по установке в VirtualBox (будет дополняться по мере подготовки курса): https://yadi.sk/i/4EtLB2Isfb1ldw
      Инструкция по установке «на железо»: https://losst.ru/ustanovka-kubuntu-18-04.
      Можно воспользоваться готовым образом системы, используемом для курса «Обработка данных Chip-seq».
      Установленные утилиты: bwa samtools, bedtools, snakemake. Установка этих утилит при помощи Conda описана в инструкции.
      Доступные в виртуальной машине данные для работы (будут доступны на флешке, но удобнее скачать заранее):
      Референсный геном. ftp://ftp.flybase.net/genomes/Drosophila_melanogaster/dmel_r6.28_FB2019_03/fasta/dmel-all-chromosome-r6.28.fasta.gz
      Набор аннотированных генов (размер около 600 Mb): ftp://ftp.flybase.net/genomes/Drosophila_melanogaster/dmel_r6.28_FB2019_03/gff/dmel-all-filtered-r6.28.gff.gz
      Данные 4С-seq: https://yadi.sk/d/gvkz8w2HHnT7yw
      Методы MCMC в биоинформатике**
      Преподаватель: Никита Алексеев (Университет ИТМО)

      Первое занятие будет посвящено теории Марковских цепей, вопросам их сходимости, и процессам, которые они описывают. На следующих занятиях будут разбираться примеры, нюансы, фрагменты теории будут чередоваться с элементами практики. Темы будут включать, в том числе, - Семплирование "конечномерных" случайных величин vs семплирование в больших пространствах;- MCMC алгоритмы для семплирования, примеры, свойства, проблемы;- MCMC для решения задач оптимизации;- биоинформатические методы, основанные на использовании MCMC.

      Неоходимое ПО:

      1. Python 3 (Рекомендуем поставить anaconda https://www.anaconda.com/download/ python3.7) + среду для разработки (рекомендуем установить PyCharm).
      2. revBayes (https://revbayes.github.io)
      Алгоритмы в биоинформатике**
      Преподаватель: Андрей Пржибельский, ЦАБ СПбГУ

      На практических занятиях слушатели познакомятся с современными программами и библиотеками для работы с выравниваниями, а также попробуют написать некоторые алгоритмы самостоятельно.

      Необходимое ПО: Python или любой другой императивный язык на котором можно будет быстро писать несложные (и сложные) программы.
      Пакеты: Pysam, Biopython
      Анализ данных РНК-секвенирования*
      Преподаватель: Алексей Сергушичев, Университет ИТМО

      Во вводной, теоретической части, мы рассмотрим основные шаги анализа данных РНК-секвенирования от исходных чтений, до таблицы с экспрессией и последующей интерпретации результатов. В практической части мы проведем анализ в R, начиная с таблиц с экспрессией, а также рассмотрим возможности получения данных из открытых источников.

      Ключевые слова: РНК-секвенирование, анализ экспрессии генов, дифференциальная экспрессии, анализ представленности молекулярных путей.

      Необходимое ПО: R версии 3.6, RStudio
      Необходимые пакеты: DESeq2, limma, org.Hs.eg.db, org.Mm.eg.db, reactome.db, msigdbr, fgsea, magrittr, dplyr, ggplot2, ggrepel, rhdf5, devtools, pheatmap, hypeR
      Работа с данными масс-спектрометрии
      Преподаватель: Павел Синицын, Max-Planck Institute of Biochemistry

      Данные тандемной масс-спектрометрии по сравнению с NGS устроены объективно сложнее. Однако визуализация исходных данных позволяет осуществлять не только контроль качества, но и позволяет глубже понять возможности и ограничения этого метода. В рамках этого семинара посмотрим как выглядят данные различных протеомных экспериментов и запустим анализ.
      Статистика в R*
      Преподаватель: Мария Черниговская, Университет ИТМО

      На данных из публичных датасетов:
      Предварительный анализ данных — типы данных, NA
      Смотрим на данные — гистограммы, ящики с усами, диаграмма рассеяния
      Проверка гипотез одна выборка — немного теории, p-value, ошибки первого и второго рода, z-test, t-test, проверка на нормальность
      Проверка гипотез две выборки — разница в средних (контроль-пациенты)
      Корреляция — correlation and causation, зависимость в данных
      Снижение размерности — PCA, tsne, umap
      Множественное тестирование
      Регрессия *

      Требования к ПО:
      R + R-studio (ggplot2, dplyr, readr)
      Обработка данных Chip-seq
      Преподаватель: Роман Чернятчик, JetBrains

      Практический курс по обработке данных ChIP-Seq, включающий контроль качества данных, выравнивание ридов, поиск пиков, визуализацию пиков и ридов, а также интерпретацию результатов. В рамках практики будет рассмотрен вопрос применимости различных алгоритмов поиска пиков к широким и узким модификациям гистонов. Обработка данных будет производится с помощью пайплайна на snakemake.

      Необходимое ПО: VirtualBox 6.x (https://www.virtualbox.org)
      JBR (https://research.jetbrains.org/groups/biolabs/tools/jbr-genome-browser)
      PyCharm Community Edition (https://www.jetbrains.com/pycharm/download)
      Мы подготовили список рекомендованных материалов по подготовке ко всем практикам и лекциям школы. Пожалуйста, ознакомьтесь с наиболее незнакомыми темами.
      Партнеры
      Контакты
      По всем вопросам пишите на summer@bioinf.me, но заранее ознакомьтесь с ответами на самые распространенные вопросы.