Летняя школа
по биоинформатике

23 — 27 июля 2021| Санкт-Петербург

Программа | Материалы школы
Научная программа школы включала лекции, проекты по биоинформатике, а также дискуссионный клуб про карьеру в биоинформатике.

Летняя школа проходила в два потока:
  • Биоинформатика для информатиков и математиков.
  • Биоинформатика для биологов и медиков.

В лекционной программе школы были:

  • Обзор современных достижений в бионформатике.
  • Методы вычислительной и системной биологии.
  • Популяционная генетика.
  • Работа с данными NGS.
  • Биостатистика.
  • Машинное обучение и алгоритмы сборки.
  • Иммуногеномика и структурная биоинформатика.
  • Single-cell секвенирование и применение в онкологии.
  • Метагеномика.

Расписание

    Научные проекты

    Для всех участников была организована работа над научным проектом под руководством опытного куратора в течение всей школы. По итогам команды представили результаты своей работы.

    Ниже располагаются описания научных проектов, а также необходимые к установке программное обеспечение и требования к участникам.
      Улучшение модели предсказания ингибитора EGFR
      Руководитель: Елена Картышева, JetBrains Research

      EGFR (epidermal growth factor receptor) — один из многочисленных рецепторов клеточной мембраны. Делать предсказание того, является ли определенное вещество ингибитором EGFR можно с помощью моделей машинного обучения. Цель проекта — улучшить существующую модель и/или создать новую на ее основе.

      Улучшить модель возможно двумя способами:
      1. Изменить способ получения вектора-признака для молекул. Существующая state-of-the-art модель использует векторное представление молекулы SMILES, однако получает из него вектор-признаков для молекулы довольно странным образом. Использование модели ChemBERTa для получения признака из SMILES строки дала улучшение предсказания, не смотря на то, что на многих задачах модель ChemBERTa проигрывает другим моделям. Возможно использование другой модели улучшит предсказания еще больше.
      2. Изменить архитектуру модели.

      Требования к информатикам:
      1. Знание методов машинного обучения;
      2. Уверенная работа с Python, знание или готовность быстро изучить PyTorch;
      3. Умение работать с научными статьями.

      Требования к биологам:
      1. Понимание принципов работы лекарств и влияния веществ на рецепторы;
      2. Хорошее знание химии и знание машинного обучения будет большим плюсом.

      Требования к ПО:
      • Python >= 3.7
      • IDE для Python или Jupyter Notebook
      • Библиотеки Python: PyTorch, rdkit, numpy, pandas
        Связь структуры хроматина и последовательности ДНК
        Руководитель: Геннадий Захаров, EPAM Systems; ИФ РАН

        Пространственная структура хроматина в ядре играет важную роль в регуляции экспрессии генов у всех эукариот. Но механизмы формирования и поддержания структуры хроматина до сих пор изучены недостаточно хорошо. Было показано, что области эктопических контактов негомологичных хромосом частично совпадают с областями специфической корреляции первичной последовательности ДНК (Zhuravlev et al, 2021, in press). Т.е. первичная последовательность ДНК сама по себе может являться одним из механизмов, определяющих пространственную структуру хроматина.

        Цель проекта — проверить эту гипотезу на более широком наборе данных о пространственной структуре ядра у дрозофилы и других организмов. Метод анализа эктопических контактов хромосом трудоёмок и плохо поддаётся автоматизации. Для анализа пространственной структуры хроматина чаще используется семейство методов Chromosome conformation capture. В проекте будет произведен анализ литературных данных и совершенствование программы для расчёта специфических и неспецифических корреляций ДНК-последовательностей.

        Задачи участников:
        1. Найти открытые данные по пространственной структуре ядра у разных организмов. Предполагается использовать данные, полученные семейством методов Chromosome conformation capture, но можно использовать и любые другие методики для получения информации и пространственной структуре хроматина.
        2. Свести полученные данные по каждому организму в таблицу.
        3. Проанализировать геном каждого организма и найти области гомологии первичных последовательностей ДНК. Можно использовать и усовершенствовать программу, разработанную в лаборатории нейрогенетики ИФ РАН, найти готовые утилиты для выполнения этой задачи, или предложить собственный подход.
        4. Выполнить статистический анализ полученных данных и проверить гипотезу о связи областей контактов ДНК в ядре с участками корреляции первичной последовательности.

        Требования к участникам:
        1. Умение работать с литературными данными;
        2. Навыки программирования на Python (или готовность быстро их получить);
        3. Начальные знания статистического анализа;
        4. Знакомство с методикой Chromosome conformation capture будет полезным дополнением;
        5. Готовность предложить и опробовать собственный подход к решению поставленной задачи горячо приветствуется.
        Требования к ПО:
        • Личный ноутбук. Минимальная конфигурация: CPU x86_64, 6GB RAM, 20 GB HDD/SSD.
        • ssh
          Search for new active substances among the transcriptomes of various marine species
          Руководитель: Данилов Лаврентий, СПбГУ; EPAM Systems

          Коралловые рифы — один из интереснейших объектов для исследования. Они представляют собой сложную экосистему, состоящую из множества видов. Сложность и стабильность системы обеспечивается саморегуляцией численности бактерий, которая может происходить за счет синтеза и выделения различных веществ в окружающую среду. Такие вещества перспективны в борьбе с мультирезистентными штаммами, которая требует нового подхода к поиску эффективных лекарственных соединений.

          Цель проекта — поиск новых антимикробных веществ, которые могут быть использованы как антибиотики нового поколения. Задачи:
          1. Поиск bulk RNA-seq датасетов в публичных базах данных, их сборка и анализ используя адаптированный подход из Seq2Fun.
          2. Оценка дифференциальной экспрессии генов, ответственных за иммунный ответ и взаимодействие с симбионтами, в рамках bulk RNA-seq.
          3. Поиск и аннотация перспективных соединений (АМП и другие активные вещества) для борьбы с мультирезистентными штаммами.
          4. Идентификация бактерий, с которыми могут устанавливаться симбиотические отношения.
          5. В случае обнаружения интересных молекул, найти для них таргеты в организме человека методами молекулярного моделирования.

          Требования к участникам:

          1. Уверенная работа в командной строке;
          2. Базовые знания Python и R;
          3. Желание освоить следующие библиотеки: Deseq2, topGO для R и Biopython для Python.

          Требования к ПО:

          • Операционная система Linux (или эта же система в виде subsytem для Windows)
            Анализ ко-расположения рибосомальных оперонов в разных видах бактерий
            Руководитель: Алексей Забелкин, Университет ИТМО

            Основу рибосом прокариот образуют три основных типа рРНК (16S, 23S и 5S). Кодирующие их гены обычно формируют оперон, который в виду высокой его важности для живых организмов в геномах большинства бактерий встречается в нескольких копиях. Копии оперона представляют собой нуклеотидные повторы на ДНК, что может приводить к внутригеномным рекомбинациям и дестабилизировать структуру хромосом. В этом проекте будет изучено положение рРНК оперонов на кольцевых хромосомах и будет сделана попытка выявить и биологически объяснить паттерны расположения в разных бактериальных таксонах. Работу можно выполнять совместно, разбившись на пары информатик + биолог и выбрав таксон (бактериальный вид) для анализа.

            Большая часть задач сводится к построению графиков на основании известных биологических данных в рамках биологического вида:
            1. Анализ расположения рибосомальных оперонов относительно точек начала и конца репликации.
            2. Сравнение положения тандемных копий рибосомального оперона с "обычными" копиями.
            3. Сравнение положения тандемных копий, находящихся на лидирующей и запаздывающей цепях.
            4. Анализ симметричности расположения рибосомальных оперонов на хромосоме.
            5. Выявление связи согласованной эволюции рибосомальных оперонов с их местоположением на хромосоме.

            Требования к участникам:

            1. Для информатиков знание как минимум одного языка программирования и, желательно, библиотеки для визуализации данных (Python + matplotlib / R + ggplot и тд);
            2. Желательно, но не обязательно:
              - Общие представление об устройстве табличных данных и работе с ними;
              - Общие представление об устройстве бактериальных геномов;
              - Умение работы геномными данными в формате fasta

            Требования к ПО:

            • Python >= 3.7
            • IDE для Python или Jupyter Notebook (e.g. PyCharm)
            • Библиотеки Python: numpy, pandas, matplotlib, seaborn
            • Либо: аналогичный набор в R (R >= 4, RStudio, ggplot)
                Поиск генетических основ сложных признаков человека и взаимосвязей между ними
                Руководитель: Ростислав Скитченко, Университет ИТМО

                Методы GWAS и данные полногеномного секвенирования позволяют проверить ассоциацию с фенотипом каждого генетического варианта в отдельности. Это, в свою очередь, помогает понять генетические основы различных признаков человека. В рамках проекта предлагается использовать открытые публичные данные с известными генотипами и провести GWAS анализ для одного из предложенных признков (феонтипов), в результате чего получить данные о силе ассоциации между различными генетиескими вариантами и изучаемым признаком. После этого можно будет охарактеризовать то, какие генетические варианты оказались связаны с изучаемым признаком, а также рассчитать генетические корреляции между разными признаками.

                Проект в первую очередь учебный и нацелен на ознакомление с рутинным анализом данных GWAS.
                Задачи:
                1. Скачать датасет и выбрать один из предложенных фенотипов (каждый студент может работать со своим признаком на выбор).
                2. Провести полногеномный анализ ассоциации между генотипами и выбранным признаком.
                3. Оценить качество проведённого анализа.
                4. Графически отобразить результаты анализа.
                5. Оценить наследуемость признака, рассчитать генетические корреляции между изучаемыми признаками.

                Требования к участникам:

                1. Данный проект подойдет тем, кто не обладает уверенными навыками программирования, но уже имеет опыт использования биоинформатических инструментов с помощью командной строки Linux.
                2. Для тех же, кто более уверен в собственных навыках программирования будет предложена возможность осуществить анализ в программном пакете Hail 0.2 для Python.

                Требования к ПО:
                • Желательно ОС Linux (Ubuntu 16.0+).
                • R, Rstudio (библиотеки GeneABEL, ggplot2, dplyr).
                • plink-seq
                • *Python >=3.6; (библиотека Hail 0.2) (*более сложный и гибкий инструмент анализа геномных данных)
                  Поиск общих свойств микроорганизмов из Human Gut Microbiome Helath Index
                  Руководитель: Юрий Барбитов, Институт биоинформатики

                  За последние годы был опубликован большой массив исследований, в которых изучались изменения состава микробиоты кишечника людей и модельных организмов в норме и при различных патологиях. Во многих таких исследовагиях было показано, что отдельные таксоны бактерий и грибов значительно чаще встречаются в микробиомах кишечника больных людей. Более того, недавно было показано, что на основе состава кишечного микробиома можно предсказать риск различных заболеваний. Метрика для таких предсказаний, Gut Microbiome Health Index, рассчитывается на основе представленности нескольких ключевых таксономических групп бактерий. Неясно, однако, есть ли у таких бактерий какие-либо общие свойства на уровне генома, протеома и/или метболизма. В данном проекте студентам будет предложено поискать такие свойства.

                  Задачи проекта:
                  1. Скачать последовательности геномов и протеомов, а также их аннотации, для бактерий, специфичных для кишечной микрофлоры больных и здоровых людей.
                  2. При помощи стороннего программного обеспечения или собственных скриптов рассчитать k-мерный спектр геномов и протеомов изучаемых бактерий.
                  3. Рассчитать количество генов, участвующих в синтезе поверхностных антигенов.
                  4. Объединить полученные данные в единую таблицу, провести описательный анализ полученных данных.
                  5. Попробовать построить модель на основе алгоритмов машинного обучения, способную предсказывать "патогенность" различных бактерий.

                  Требования к участникам:
                  1. Базовые навыки работы с молекулярно-биологическими базами данных (NCBI Genome, UniProt, KEGG);
                  2. Базовое умение работать в Python и/или R;
                  3. Как минимум один член команды должен обладать представлениями об алгоритмах машинного обучения;
                  4. Навыки работы в командной строке будут большим плюсом.

                  Требования к ПО:
                  • ОС Linux или приложения для OC Windows, эмулирующие терминал
                  • Среда разработки для Python или RStudio
                    Поиск новых групп ферментов в метагеномах
                    Руководитель: Михаил Райко, СПбГУ ЦАБ

                    Метагеномы, депонированные в открытые базы, представляют собой огромный массив данных, который проанализирован достаточно поверхностно. В данном проекте участники попробуют построить пайплайн по поиску различных новых ферментов в метагеномах и сравнить с уже известными. Можно будет проверить филогенетические гипотезы, поискать случаи горизонтального переноса генов и, если повезет, описать новые группы ферментов.

                    Задачи проекта:
                    1. Для каждого из предлагаемых ферментов найти набор ближайших гомологов и построить PSSM-матрицу
                    2. С помощью полученной матрицы найти более далёкие гомологи а) в бактериальных геномах и б) в метагеномах
                    3. Кластеризовать полученные белки, на представителях кластеров построить дерево
                    4. Добавить таксономическую информацию, оценить разнообразие полученных данных и распределение групп ферментов по дереву

                    Требования к участникам:
                    1. Основы работы в Python/R, в идеале — знакомство с пакетами Biopython и eutils.
                    2. Плюсом будет опыт филогенетического анализа

                    Требования к ПО:
                    • ОС Linux или приложения для OC Windows, эмулирующие терминал.
                    • Python IDE или RStudio.
                      Сравнительный анализ методов изучения протеома плазмы крови
                      Руководитель: Павел Синицын, Max Planck Institute of Biochemistry

                      Белковый состав плазмы крови является крайне информативным показателем физиологического состояния человека. Современная протеомика позволяет измерить концентрацию 500 белков среди тысячи образцов за приемлемое время. Однако, у белков плазмы крови чрезвычайно широкое распределение концентраций. К примеру, основные белки плазмы (альбумин, глобулин, фибриноген) составляют свыше 80% всей ее белковой массы. В протеомике были использованы несколько подходов к анализу столь сложных образцов, однако до сих пор не было сделано единого сравнительного исследования. Отчасти, это было связано с отсутствием единого программного обеспечения. Недавно в нашей лаборатории мы разработали программу MaxDIA, которая позволяет анализировать как DIA, так и DDA методы протеомики. Использую эту программу, мы проанализируем данные из двух независимых проектов (DIA, DDA), которые включают в себя анализ более тысячи образцов плазмы крови. Цель проекта — провести сравнительный анализ данных, и понять какой из двух методов лучше всего подходит для задач клинической классификации по протеомике плазмы крови.

                      Задачи проекта:
                      1. Сравнить статистику пропушенных значений (Missing Values) между технологиями. Сравнить вариацию концентраций белков
                      2. Провести классификация пациентов по стадиям лечения. Найти наиболее значимые факторы. Сравнить ROC curves между технологиями.

                      Требования к участникам:
                      1. Знание Python
                      2. Опыт работы с git
                      3. Прочитать обзоры:
                        -- Про вычислительную протеомику "Computational Methods for Understanding Mass Spectrometry–Based Shotgun Proteomics Data"
                        -- Про применение протеомики для изучения белкового состава плазмы крови "Revisiting biomarker discovery by plasma proteomics"

                      Требования к ПО:
                      • Любая ОС.
                      • IDE или Jupyter.
                        Изучение динамики экспрессии генов Salmonella в ответ на новобиоцин
                        Руководитель: Александр Ткаченко, Университет ИТМО

                        Суперспирализация ДНК является важным механизмом регуляции у бактерий и ее изменение, например, в результате мутаций, ведет к изменению профиля экспрессии генов. Аминокумариновые антибиотики, такие как новобиоцин, могут влиять на суперспирализацию и экспрессию генов, чувствительных к ней. В проекте объектом изучения является Salmonella enterica, которая проявляет значительную устойчивость к новобиоцину и к изменениям суперспирализации вообще. Цель проекта — анализ динамики экспрессии генов бактерий на средах с антибиотиком и без антибиотика, а также поиск кластеров коэкспрессированных генов. Есть возможность разбиться на небольшие команды, чтобы протестировать несколько подходов для анализа коэкспрессии и time course данных.

                        Задачи проекта:
                        1. Оценить экспрессию генов Salmonella в нескольких временных точках/концентрациях антибиотика
                        2. Проанализировать коэкспрессию (как минимум WGCNA и maSigPro, можно предложить свои варианты)
                        3. Оценить обогащение в кластерах генов (KEGG, GO ..)

                        Требования к участникам:
                        1. Основы работы в R и командной строке

                        Требования к ПО:
                        • Любая ОС.
                        • R, желательно Rstudio.
                        • Пакеты: maSigPro, DESeq2, tximport, limma, WGCNA.
                          Методы статистического моделирования для предсказания рисков по геномным данным
                          Руководитель: Герман Демидов, JetBrains Research / Aging Biology Foundation / Broad Institute

                          В рамках этого проекта мы научимся симулировать геномные данные и построим модели для предсказания рисков по геному. Мы разобъемся на команды по два человека (лучше биолог + информатик, первый будет следить за реалистичностью сценария, второй за имплементацией) и каждая команда выберет свой сценарий для симуляции и моделирования рисков различных заболеваний. В конце мы объединим наши результаты в одной презентации и попробуем сделать вывод, какие статистические модели сработали лучше всех и в каких сценариях, какого размера выборки нам для этого понадобились.

                          Задачи проекта:
                          1. Выбрать модель заболевания или признака (насколько сильна генетическая компонента)
                          2. Симулировать выборки различных размеров с помощью plink
                          3. Попробовать найти "связанные с признаком" генетические маркеры
                          4. Попытаться предсказать индивидуальные риски для симулированных пациентов
                          5. Попробовать несколько методов статистического моделирования и сказать, какой метод сработал лучше.
                          6. Добавить образ жизни в качестве рисков
                          7. Попытаться симулировать различные популяции и попробовать взять популяционную структуру под контроль в модели

                          Требования к участникам:
                          1. Некоторое понимание популяционной генетики
                          2. Начальное знание машинного обучения.
                          3. Умение писать на каком-нибудь языке программирования для статистических расчетов (лучше R или Python).
                            Все остальное мы попробуем научиться!

                          Требования к ПО:
                          • Linux / MacOS / VirtualBox.
                            Партнеры
                            Контакты
                            По всем вопросам пишите на summer@bioinf.me, но заранее ознакомьтесь с ответами на самые распространенные вопросы.