Летняя школа по биоинформатике 2018

23–28 июля | Санкт-Петербург

Программа
Научная программа школы включает лекции, практические занятия и проекты по биоинформатике в исследованиях рака, а также общие занятия по предметам, полезным биоинформатикам в разных областях.

Летняя школа поделена на два потока:
  • Биоинформатика для информатиков и математиков.
  • Биоинформатика для биологов и медиков.

В лекционной программе школы


  • Работа с данными NGS.
  • Методы вычислительной и системной биологии.
  • Популяционная генетика.
  • Методы диагностики злокачественных новообразований.
  • Биоинформатические подходы в изучении геномики и транскриптомики рака.
  • Молекулярное моделирование лекарств для таргетной терапии.
  • Современные достижения в изучении молекулярных процессов в опухоли.
Подробное расписание | версия для печати
    Практические интенсивы и научные проекты

    Практические занятия в этом году не делятся строго на занятия для биологов или информатиков. Однако остаются рекомендации по участию в соответствии с уровнем подготовки. Если рекомендаций нет — к участию приглашаются все желающие. Участники могут самостоятельно выбрать интересные им занятия.

    Логическим продолжением практических интенсивов будет решение практической задачи — научного проекта. Работа над проектом не является обязательной и выполняется по желанию небольшой группой из 4-6 человек под руководством преподавателя практики. За время школы будет возможность поучаствовать в нескольких проектах.

    Ниже можно найти описание практических занятий, а также необходимое к установке (до начала школы!) программное обеспечение.

    Условные обозначения:
    *рекомендовано для биологов
    ** рекомендовано для информатиков

      Обработка данных на Python*
      Преподаватель: Константин Зайцев, Университет ИТМО

      Применение техник машинного обучения в исследовании рака.
      Введение в машинное обучение на Python.

      Неоходимое ПО: Все необходимые пакеты есть внутри дистрибутива anaconda. Именно этот дистрибутив рекомендован к установке: https://www.anaconda.com/download/ python3.6

      Проект: Сравнительный анализ LUAD и LUSC раков легких на основе данных TCGA.
      Управление вычислениями (работа с пайплайнами)*
      Преподаватель: Геннадий Захаров, EPAM

      В курсе будет рассмотрено построение пайплайна - создание из готовых утилит системы для выполнения расчетной задачи. Мы рассмотрим набор стандартных утилит командной строки (grep, sed, cut, sort, ...), а также возможности пакетов samtools bedtools, bwa. Научимся создавать из набора команд рабочие пайплайны с помощью системы snakemake. Все эти задачи изучим на реальном примере построения пайплайна для обработки данных 4С-секвенирования.

      Неоходимое ПО: Любой дистрибутив Linux, установленный в виртуальной машине или на "железе". В работе буду ориентироваться на Ubuntu/Kubuntu 18.04. Дополнительно потребуется установить следующие программы:
      samtools, bedtools, bwa, snakemake
      Все программы есть в репозитарии Ubuntu и могут быть установлены одной командой в терминале:
      sudo apt update && sudo apt install samtools bedtools bwa snakemake

      Проект: Анализ полногеномных сиквенсов дрозофилы.
      Имеются полногеномные сиквенсы 5 линий дрозофилы -- 3-х линий дикого типа и двух мутантов с нарушениями в строении и функционировании нервной системы. Команде предлагаются построить пайплайн для нахождения вариаций, аннотировать и проанализировать полученные результаты.
      Предлагаемые мутантные линии ранее не секвенировались, поэтому поставленная задача интересна с фундаментальной точки зрения. Возможно, удастся обнаружить вариации, уникальные для мутантов и потенциально являющиеся причиной нарушений.

      Предлагаемый пайплайн состоит из следующих утилит (можно установить заранее):
      1. Trimmomatic -- образка некачественных ридов
      2. BWA -- выравникание на референс
      3. samtools -- конвертация и сортировка выравнивания
      4. GATK или Vardict -- идентификация вариаций
      5. snpeff/snpsift -- аннотирование и фильтрация
      6. rtg-tools - сравнение вариаций между линиями
      Методы MCMC в биоинформатике**
      Преподаватели: Никита Алексеев (Университет ИТМО), Мария Черниговская (ЦАБ СПбГУ)

      Ключевые темы: семплирование «конечномерных случайных величин vs семплирование в больших пространствах;
      MCMC алгоритмы для семплирования, примеры, свойства, проблемы;
      MCMC для решения задач оптимизации;
      биоинформатические методы, основанные на использовании MCMC.

      Неоходимое ПО:
      1. R (Мы рекомендуем поставить пакеты ggplot2, dplyr, data.table, pheatmap, mcmc)
      2. R-studio
      3. Python 3 (Рекомендуем поставить anaconda https://www.anaconda.com/download/ python3.6) + jupyter notebook (если вы установили anaconda, то устанавливать jupyter notebook отдельно не нужно)
      4. mrBayes (http://mrbayes.sourceforge.net/download.php)
      5. Dendrix (http://compbio.cs.brown.edu/projects/dendrix/ Latest release: ver0.3, February 4, 2013)
      Алгоритмы в анализе данных NGS**
      Преподаватели: Андрей Пржибельский, ЦАБ СПбГУ

      На данных практиках будут рассмотрены классические алгоритмы выравнивания, такие как алгоритмы Нидлмана-Вунша и Смита-Уотермана, а также их некоторые модификации (линейная память, линейная память с ограниченным количеством ошибок, Аффинная модель вставки, множественное выравнивание). Далее студентам будет предложено реализовать эти алгоритмы на любимом языке программирования. Для более продвинутых в плане программирования студентов можно предложить более интересные алгоритмы, такие как суффиксный массив, выравнивание через seed and extend, итд.

      Необходимое ПО: Python или любой другой императивный язык на котором можно будет быстро писать несложные (и сложные) программы.

      Проект: Поиск геномных повторов с помощью графа де Брюйна. В случае успешного выполнения первой части можно добавить классификацию повторов. От 1 до 4 человек.

      Необходимые навыки: умение реализовывать в коде различные (порой нетривиальные) алгоритмы, желание придумывать новые алгоритмы и анализировать данные, работать над одним кодом в команде.
      Диагностика структурных вариаций в парах опухоль — здоровая ткань
      Преподаватель: Герман Демидов, Universitat Pompeu Fabra/Institut für Medizinische Genetik und angewandte Genomik

      Поиск CNV/CNA в germline/somatic контекстах на примере нескольких тулов.

      Необходимое ПО: GATK 4.0.6 или старше, R, R-studio
      Занимательная протеомика в задачках
      Преподаватель: Павел Синицын

      На данной практической лекции мы разберем несколько задачек с использованием данных протеомики. Также в вашем распоряжении будут задачи, рассчитанные на самостоятельное решение. От самых простых, требующих простейших знаний статистики, и до достаточно сложных, требующих взаимодействия с базами данных или требующих знаний методов машинного обучения.

      Необходимое ПО: Mono
      Принципы анализа данных NGS
      Преподаватель: Юрий Барбитов

      В рамках этого занятия мы рассмотрим базовые принципы анализа данных NGS. Будут рассмотрены основные группы NGS-методов (de novo методы, ресеквенирование, функциональная геномика (RNA-Seq, ChIP-Seq, etc.) и задачи, которые могут быть решены с их помощью.

      Проект: Анализ экспрессии lncRNA в раковых опухолях

      Команде нужно будет взять какой-то тип опухоли (найти публичный датасет с данными на SRA); скачать данные, подсчитать экспрессию при помощи kallisto или другого пайплайна и провести эксплоративный анализ экспрессии lncRNA (здесь - простор для творчества; в любом случае потребуется сделать сравнение с нормальной тканью). По возможности - найти потенциальный механизм действия, наподобие: https://www.nature.com/articles/s41598-017-15712-y)

      Самые продвинутые могут попробовать сделать предсказание lncRNA генов по данным экспрессии и гистоновых марок
      Анализ данных в R*
      Преподаватель: Алексей Сергушичев, Университет ИТМО

      В курсе будут рассмотрены основы работы с клиническими данными и данными экспрессии в R. Мы найдем, какие факторы влияют на выживаемость пациентов и посмотрим, какие молекулярные пути могут быть с этим связаны.
      Ключевые слова: TCGA, анализ выживаемости, дифференциальная экспрессия.

      Необходимое ПО: R версии 3.5, RStudio
      Необходимые пакеты: GenomicDataCommons, magrittr, dplyr, survival, limma, ggplot2, ggrepel, org.Hs.eg.db, reactome.db, fgsea, clusterProfiler, GGally и pheatmap.

      *для установки необходимо ввести комманду:
      source("https://bioconductor.org/biocLite.R")
      biocLite(c("GenomicDataCommons", "magrittr", "dplyr", "survival", "limma", "ggplot2", "ggrepel", "org.Hs.eg.db", "reactome.db", "fgsea", "clusterProfiler", "pheatmap", "GGally"))


      Проект: Анализ молекулярных подтипов рака.
      Команде будет необходимо выбрать один из тип раков из базы TCGA и выполнить максимально подробное описание его молекулярных подтипов: какие они бывают, с чем могут быть связаны, как они влияют на выживаемость и т.д.
      Все вопросы и комментарии по установке ПО можно направлять в чат в Slack.
      Мы подготовили список рекомендованных материалов по подготовке ко всем практикам и лекциям школы. Пожалуйста, ознакомьтесь с наиболее незнакомыми темами.
      Партнеры
      Контакты
      По всем вопросам пишите на summer@bioinf.me, но заранее ознакомьтесь с ответами на самые распространенные вопросы.