Research projects
Academic year 2020/21
ISBN 978-5-7422-7387-5
Summer internship 2021 results are avaliable here:
Slides
Identification and comparison of somatic antigen structures of bacteria from Providencia genus | SCAMT

students: Anna Rybina, Anna Churkina
supervisor: Polina Kuchur

Git
Slides

The project is the next stage of the spring semester project.
Generation of molecules with graph & text deep fusion learning | JetBrains

student: Oleg Vavulov
supervisor Alisa Alenicheva

Slides

Проект посвящен de novo генерации молекул с заданными свойствами с помощью моделей глубокого обучения, совместно использующих строковое и графовое представления молекул.
Adding the moments.LD engine to GADMA | ITMO

student: Iliutkin Stanislav
supervisor: Ekaterina Noskova

Git
Slides

GADMA is a software that implements methods for automatic inference of the joint demographic history of multiple populations from the genetic data. Demographic history is the record of the population's development in the past. Models of demographic history inferred from genetic data complement archeology and serve as null models in genome scans for selection. Inbreeding is the production of the offspring by mating of organisms that are closely related. Unaccounted inbreeding coefficients in models of demographic history may lead to the wrong inference in case of inbred populations.

The Internship's aim was adding moments.LD package as one of the engines of GADMA.


Age-related changes in transposons methylation | JetBrains

student: Daria Khaleneva
supervisors: Oleg Shpynov, Roman Chernyatchik

Slides

The project was aimed to study the relationship between the age of people and the level of methylation of their retrotransposons. The tasks included the analysis of literature on the research topic, analysis and reproduction of the articles' results. The acquired skills were then applied to new monocyte methylation data from 20 young and 20 elderly donors. As a result, there were found retrotransposons with methylation profile significantly changed in relation to age, but no unambiguous relationship with aging was found.


Spring semester 2021 results are avaliable here:
Slides
Adding context to nonsense: analysis of sequence properties at pLoF variant sites | Bioinformatics Institute

student: Артем Иванов
supervisor: Yury Barbitoff

Git
Slides

Large-scale human genome variation datasets such as gnomAD allow researchers to have a closer look at the landscape of genetic variants and mutation rates across the genome. Nonsense variants, i.e. variants leading to the emergence of premature stop codons in a reading frame, are particularly interesting as many of such variants are linked to inherited disorders. It is widely acknowledged that, despite the fact that gnomAD contains mostly healthy individuals, a heavy byrden of nonsense vairants in disease-linked genes is present in the data. Some of these variants are not genuine loss-of-function variants as they affect minor transcriptional isoforms and/or functionally dispensable parts of the gene. At the same time, it is interesting to look into the sequence context of nonsense variants in gnomAD to see if the codon usage near nonsense variant sites differs from the rest of the genome, and if it may favor nonsense suppression. In this project we will try to make such an analysis.
Analysis of transcriptome signatures of patients with heart failure and with myopathy | Almazov National Medical Research Centre

student: Margarita Komarova
supervisor: Oksana Ivanova

Git
Slides
Aim: investigate the transcriptome of HF patients and compare these results with the same experiment performed in Almazov Centre.
Objectives:
Read the article Caspi et.al. "Unique Transcriptome Signature Distinguishes Patients With Heart Failure With Myopathy"(2020).
Reprocess RNA-seq data from it using STAR, featureCounts and DESeq2.
Investigate signal pathways (GSEA) and compare them with result gotten in the same experiment in Almazov Center
Are polyproline motifs evolutionary conserved? | Technical University of Munich

student: Kruglikov Roman
supervisor: Marina Parr

Git
Slides
Translation of consecutive prolines causes ribosome stalling. Polyproline motifs are presented in about one third of E.coli proteins. The exact role of these motifs is not clear. In this project we suggest performing the evolutionary analysis of these motifs in the nucleotide and protein sequences from E.coli.
Bioinformatics analysis of E3 ubiquitin ligase family | Skoltech

students: Anna Shemyakina, Ivan Pyankov, Daria Andreeva, Aleksander Petrov
supervisor: Petr Popov

Git
Slides

Proteolysis-targeting chimeras (PROTACs) and related molecules that induce targeted protein degradation by the ubiquitin-proteasome system represent a new therapeutic modality and are the focus of great interest, owing to potential advantages over traditional occupancy-based inhibitors with respect to dosing, side effects, drug resistance, and modulating ""undruggable"" targets.
However, the technology is still maturing, and the design elements for successful PROTAC-based drugs are currently being elucidated. Importantly, fewer than 10 of the more than 600 E3 ubiquitin ligases have so far been exploited for targeted protein degradation, and expansion of knowledge in this area is a key opportunity.

We have two projects related to molecular modeling and structure-based analysis of E3 ligases.
Building complex biological networks with structural properties | SciLifeLab, Stockholm University

student: Oleg Vavulov
supervisor: Erik Zhivkoplias

Git
Slides

The Sonnhammer group has extensive experience in gene regulatory networks (GRN) inference and has developed several algorithms to improve the reliability of the GRNs inferred from perturbation-based data. GeneSpider package includes a set of inference methods and data generation module, which is used for GRN inference benchmarking with controlled network and data properties. Accessing the properties of real networks remains to be a great challenge in systems biology.
Comparative analysis of methods for batch correction in proteomics | SPbU

студент: Катерина Данько
руководитель: Lavrentii Danilov, Arseniy Lobov
The data are presented as an Excel table with the expression intensities of the identified proteins, after processing the data in MaxQuant. Raw data of LC-mass-spectrometric analysis on the Q-Exactive instrument are also available. The aim of the study is to search for differences in the molecular mechanisms of osteogenic differentiation between cells from sick and healthy donors. For this, cells from different patients were cultured in control and osteogenic differentiation. Then the total protein was isolated and analyzed using shotgun proteomics - chromatography-mass spectrometric analysis of tryptic peptides.
The data consists of two runs of mass spectrometric analysis with a difference of one year - two series of patients.

Git
Слайды
Developing best practices for single-cell analysis: data integration | ImmunoMind Inc.

студенты: Даниил Литвинов, Максим Сердаков
руководитель: Vasily Tsvetkov
Single-cell sequencing is paving the way for precision medicine. It is the next step towards making precision medicine more accurate. However, the analysis of single-cell data is incredibly complex with numerous distinct approaches resulting in more than 500 Python and R libraries existing today.
The goal of this project is to tackle the complexity of data analysis by identifying the best approaches. The single-cell transcriptomics analysis has multiple steps, but we will focus on data integration – a crucial step when working with clinical data coming from patients.
Successful students will study the most popular tools for data integration, including ComBat, Harmony, MNN and others. They will mine the public databases to collect high-quality single-cell datasets and develop a benchmark to evaluate the efficacy, time and memory requirements of popular tools. In the end they will contribute to the development of the golden standard for single-cell data analysis.
Students will have access to high-performance computing servers to analyse big single-cell data. They will be working alongside skilful bioinformaticians and their results will be impactful both for the company and scientific community worldwide.

Git
Слайды
Evaluation of DNA Methylation Episignatures workflow | Technical University of Munich

студент: Евгения Хохлова
руководитель: Дмитрий Смирнов
An expanding number of genetic disorders have been shown to have unique genomic DNA methylation patterns (called "episignatures"). Peripheral blood episignatures can be used for diagnostic testing as well as for the interpretation of ambiguous genetic test results. This project aims to develop a standardised workflow to generate and validate episignatures.

Git
Слайды
Fine mapping of SCARB2 and CTSB genes in Parkinson's disease | McGill

студент: Дарья Никанорова
руководитель: Ziv Gan-Or
Aim:
Pinpoint causal SNPs in PD GWAS data for further functional analysis
Objectives:
Annotation of GWAS summary statistic data
Summary-based Mendelian randomization
Colocalization analysis
FINEMAP
SUSIE
FGWAS

Git
Слайды
Identification and analysis of SARS-CoV-2-specific T-cell receptors | Institute of
Bioorganic Chemistry


студент: Артем Ершов, Андрей Соболев
руководитель: Mikhail Shugay
Our recent results demonstrate that T-cell receptor (TCR) repertoire can be utilized as a useful biomarker for deducing past and current infections of an individual, as well as monitoring vaccination efficiency.
In one of our latest studies, we were able to detect T-cell response in COVID-19 cases and demonstrated that it is more reliable than conventional tests.
Moreover, we were able to identify certain TCRs that are targeting specific antigens of SARS-CoV-2. The aim of this project is to provide a follow-up to several recently published studies, identify a set of TCRs that can serve as COVID-19 biomarkers and develop machine learning methods that can associate individual TCR repertoires with COVID-19 status.

Git
Слайды
Identification and comparison of somatic antigen structures of symbiotic and pathogenic bacteria from Morganellaceae family | SCAMT

студент: Анна Рыбина, Анна Чуркина
руководитель: Polina Kuchur
Practice shows that among plant symbiont bacteria, conditional pathogens and, then, pathogens emerge over time. We wondered whether the structure of their somatic antigens differs and, if so, in what waу? We have already found something similar in representatives of the genus Herbaspirillum and we wonder whether something similar will be found in representatives of other genera.
Why exactly o-antigens? These are the distal part of lipopolysaccharides; hence, they are involved in the interaction between the bacterium; the environment (including plants and animals). Since the nature of the interaction changes, it means that the o-antigen can undergo changes as well. The question is: which ones?

Git
Слайды
Shared biologic architecture between Parkinson's disease, dementia with Lewy bodies and inflammatory disorders | McGill

студент: Ектерина Чернявская
руководитель: Konstantin Senkevich
Поиск общей генетической архитектуры и специфических общих маркеров между заболеваниями, с использованием данных сводной статистики полногеномных ассоциативных исследований. Проведение полнотранскриптомного анализа ассоциаций и выявление генов с перекрытием экспрессии между заболеваниями.

Git
Слайды
Studying role of rare variants in lysosomal and mitochondrial genes on whole genome sequencing data of Parkinson's disease patients | McGill

студент: Алексей Ермолаев
руководитель: Konstantin Senkevich
Цель: Проведение анализа редких вариантов в лизосомных и митохондриальных генах, пользуясь данными полногеномного сиквенса (WGS). Все результаты полученные в данном проекте будем использовать в нескольких статьях, как репликативные данные выполненного сиквенса.

Git
Слайды
Transcritptomics and small RNAome responses to the infection by phytopathogenic fungi: an analysis in the wild model legume Medicago truncatula infected by Verticillium alfalfae | Skoltech

студент: Алексей Замалутдинов
руководитель: Laurent Gentzbittel
Plants continuously have to cope with attacks from pathogens or pests. Although in most cases these attacks are efficiently encountered by the plants' natural defense mechanisms, plant disease is still a major constraint in agricultural productivity.
We intend to explore resistance and defense mechanisms against Verticillium wilt, a major soil-borne root pathogen of plants, and more generally to gain knowledge on the molecular mechanisms involved in Quantitative Disease Resistance in plants. Our model species is Medicago truncatula, a wild species developped as a model species for legumes - the second most important plant family that produces most of proteins for feed and food (soybean, beans, peas, alfalfa)
The data constitutes in data from RNA-seq experiments of resistant or susceptible plants infected or not by a soil pathogen ( Verticillium alfalfae) and of sRNA-Seq data of the same samples. A time-course analysis of three typical stages of the diseases onset was realised.
The goal of the project is to reveal differentially expressed genes (DEGs) of both protein-coding genes (mRNAs) and genes encoding small regulatory RNAs, in particular miRNAs.

Git
Слайды
Вывод коэффициентов инбридинга в GADMA | ITMO University

студенты: Станислав Илюткин, Антон Сидорин
руководитель: Екатерина Носкова
Демографические истории популяций - это история эволюции популяций, которая включает в себя такие параметры как время разделения, размеры популяций, коэффициенты миграций и отбора. По генетическим данным возможно восстановить такую историю.
Использование полногеномных данных - вычислительно сложная задача, поэтому прибегают к различным статистикам и успрощениям. Dadi - реализация одного из наиболее популярных методов вывода параметров демографической истории по статистике, называемой аллель-частотным спектром. В 2019 году в dadi добавили возможность вывода коэффициентов инбридинга.
Мы разрабатываем алгоритм автоматического вывода демографической истории по аллель-частотному спектру - GADMA. Он использует dadi и еще один метод moments для симуляций, а оптимизация проводится с помощью генетического алгоритма. Требуется внедрить коэффициенты инбридинга dadi в GADMA и провести анализ эффективности полученной реализации на данных из статьи.

Git
Слайды
Изучение возрастных изменений метилирования на участках активной репликации ДНК человека | JetBrains Research

студенты: Екатерина Кириллова
руководитель: Роман Чернятчик
Как известно, репликация ДНК эукариот начинается одновременно на разных участках цепи ДНК, такие участки называются "replication origins". Согласно опубликованным данным, участки инициации транскрипции связаны с состоянием хроматина и могут быть интересны с эпигенетической точки зрения. Проект посвящен изучению таких участок ДНК в контексте их связи с метилированием ДНК и старением человека.

Git
Слайды
Исследование особенностей микробиома больных метастатическими солидными опухолями и получающих терапию современными иммунотерапевтическими препаратами | ФГБУ ДНКЦИБ ФМБА России

студенты:
Карина Согомонян, Дарья Купаева
руководитель: Сергей Сидоренко
Злокачественные опухоли являются существенной медицинской и социальной проблемой. Наличие отдаленных от первичной опухоли очагов – метастазов, практически всегда определяет неизлечимую стадию заболевания. Из имеющихся на настоящий момент методов противоопухолевой терапии, только самый новый – иммунотерапия, позволяет достичь у небольшой части пациентов длительного эффекта.
Микробиом представляет отдельную «экосистему» в организме носителя, которая находится в тесном взаимодействии с организмом хозяина. Среди функций, на которые оказывает влияние качественный и количественный состав микрофлоры энергетический гомеостаз и функционирование центральной нервной системы, активность врожденного и особенности приобретенного иммунитета. Как следствие такого плотного взаимодействия, микроорганизмы могут оказывать влияние на возникновение и течение многих патологических состояний организма, среди которых и возникновение злокачественных опухолей. Эффективность и токсичность практически всех из применяемых видов противоопухолевой терапии находится во взаимодействии с микробиомом. Так, показана связь между отдельными особенностями микробиоты кишечника и высокой эффективностью иммунотерапии у пациентов с меланомой, уротелиальными опухолями, раком легкого.
В рамках инициативной части проекта были получены данные о составе и характеристиках микробиома 50 больных немелкоклеточным раком легкого. Описаны клинические характеристики, а также непосредственные (частота объективных ответов) и отдаленные (время до прогрессирования и общая выживаемость) результаты лечения для включенных в исследование пациентов.

Git
Слайды
Поиск параллельных адаптивных замен у высокогорных грызунов | ЗИН РАН

студент: Дарья Халенева
руководитель: Ольга Бондарева
В процессе независимых адаптаций к высокогорью у грызунов могли возникнуть схожие аминокислотные замены, которые помогают выживать в условиях гипоксии и измененного давления. Цель проекта - провести сравнительный анализ транскриптомов для поиска сходных молекулярных адаптаций грызунов к высокогорью.

Git
Слайды
Поиск сайта инсерции бетагерпесвируса человека 6А в хромосому человека| ФГБУ ДНКЦИБ ФМБА России

студент: Игнат Сонец
руководитель: Ольга Голева
Показано, что бетагерпесвирус человека 6 типа (ВГЧ-6) может интегрироваться в теломеры хромосом клетки-хозяина.
Хромосомно-интегрированная форма вируса (хиВГЧ-6) встречается в человеческой популяции до 1,5% случаев и может наследоваться от одного или обоих родителей детям. Места интеграции четко не определены, хотя предполагают, что вирусная интеграция происходит преимущественно в определенных хромосомах.
Существуют данные о возможности реактивации интегрированного в хромосому человека ВГЧ-6 в течение жизни у инфицированных.
Подтверждение реактивации хиВГЧ-6 с развитием активного инфекционного процесса будет важным фактором при решении вопроса о необходимости назначения этиотропной терапии.
В ФГБУ ДНКЦИБ ФМБА России изучается клинический случай постоянного выделения в неизменных концентрациях из крови и соскоба ротоглотки ДНК ВГЧ-6А у пациента клиники 6 лет, госпитализированного по поводу ринофарингита, а также у обследованных членов его семьи (старшего брата и отца), не предъявлявших жалоб на состояние здоровье. Кроме того в секрете половых желез отца госпитализированного пациента также выявлена ДНК ВГЧ-6А.
Предполагается возможная хромосомная интеграция вируса в человеческую ДНК, переданная по наследству по отцовской линии детям, не вызывающая патологического процесса, что требует дальнейшего углубленного изучения.
Таким образом, исследование посвящено локализации сайта интеграции ВГЧ-6А в хромосому человека. Выполнено полногеномное секвенирование ДНК, полученной из биологических материалов отца (кровь, секрет половых желез) с помощью следующих технологий: Illulmina, BGI, Oxford Nanopore Technology.
Целью работы является гибридная сборка генома человека, предположительно содержащего интегрированный ВГЧ-6А.
Результаты могут быть актуальными для последующих уточняющих исследований (секвенирование по Сэнгеру, FISH-гибридизация)

Цель: выполнить гибридную сборку генома человека, предположительно содержащего хромосомно-интегрированный ВГЧ-6А с использованием данных секвенирования, полученных с помощью Ilulmina, BGI, Oxford Nanopore Technology

Git
Слайды
Поиск структурных вариаций для улучшения сборки немодельных геномов | University of La Verne

студенты:
Людмила Проценко, Александр Андреев
руководитель: Татьяна Татаринова
Частая задача биоинформатики - найти все варианты в геноме и оценить их фенотипическую значимость. Ситуация со снипами в одном виде относительно простая: даже короткие риды неплохо справляются с этой задачей. Небольшие indel - тоже не проблема. Но когда задача найти большие изменения между разными видами, в тысячу или сотни тысяч нуклеотидов, то короткие риды уже не совсем справляются. Часто такая задача решается путем выравнивания целых хромосом. При сравнении законченных геномов, например мыши и человека подобный подход работает. Представим более реальную задачу, особенно актуальную сейчас. Есть два или более родственных видов (например, африканская и американская масляничные пальмы). Геномы пока в контигах. В контигах есть неточности. Большое количество транспозонов. Как описать структурные отличия этих видов?

Git
Слайды
Предоперационная оценка резектабельности глиобластом. Разработка фенотипической шкалы оценки | СПбГУ

студент: Даниил Паншин
руководитель: Ирина Бабкина
Глиобластомы наиболее распространенные и агрессивные опухоли мозга. Плохо поддаются медикаментозному лечению и часто требуют операционных вмешательств. Разработан ряд шкал предоперационной оценки резектабельности опухолей, основанных на фенотипических признаках. Например, учитывается положение опухоли, наличие у пациента неврологических симптомов, возраст и т.д. Однако эффективность таких шкал на практике никто не проверял. Цель проекта: проверить эффективность трех шкал оценки и в случае их несостоятельности попробовать разработать свой метод предсказания.

Git
Слайды
Сборка гаплотипов при помощи гиперграфов | Университет ИТМО

студент: Елизавета Власова
руководитель: Никита Алексеев
Как известно, любой вирус при попадании в организм человека начинает очень быстро эволюционировать, что приводит к появлению в организме человека генома не только того вируса, который непосредственно попал туда, но и других гаплотипов этого вируса (геномов, отличающихся от исходного всего несколькими мутациями). Точное определение количественного и качественного состава в смеси гаплотипов -- очень важная на практике задача, поскольку от качества определения состава вируса в организме зависит продуктивность лечения.
Основная задача проекта - разработать алгоритм сборки гаплотипов, основанный на гиперграфах. В существующем алгориме вершиной в гиперграфе является SNP (закрепившееся отличие от референсного генома в один нуклеотид), а гиперребрами - набор ридов, соединяющих различные SNP в единую последовательность. К сожалению, текущий алгоритм не учитывает встречаемость ридов, поэтому теряет довольно большое количество информации о составе смеси. Необходимо доработать этот алгоритм, добавив возможность отслеживать встречаемость ридов на каждой позиции и использовать эту информацию для сборки.

Git
Слайды
Упорядочивание контигов с помощью Hi-C данных | Университет ИТМО

студент: Александра Иванова
руководитель: Никита Алексеев
Данный проект является продолжением проекта с прошлого семестра "Ориентирование контигов с помощью Hi-C данных". Результаты этого проекта показали многообещающие результаты применения Monte Carlo Monte Chain (MCMC) для скаффолднига геномов. В рамках текущего проекта хотелось бы, во-первых, провести анализ метода на полном геноме человека, а, во-вторых, попробовать расширить предыдущий метод добавив возможность переупорядочивания контигов. Итого, студенту предлагается улучшить ранее разработанный метод на основе MCMC и провести все стороннее сравнение с конкурентами (например GRAAL).

Git
Слайды
Spring semester 2020 results are avaliable here:
Slides
Assembly and analysis of Preeria caryophylla genome | СПбГУ

студенты: Даниил Паншин
руководитель: Юлия Яковлева
Бэкграунд: семейство Holosporaceae является семейством бактерий, которые паразитируют в ядре и/или цитоплазме инфузорий. Типовой представитель – бактерии рода Holopora, о геномах которых мы имеем некоторое представление. Preeria caryophylla является близким родственником рода Holospora, про геном который мы ничего не знаем, но хотели бы узнать. Полученное знание поможет нам понять закономерности эволюции данной группы бактерий и подсмотреть механизмы паразито-хозяинных отношений между Preeria caryophylla и ее хозяином.

Git
Слайды
Batch effect | Институт биоинформатики

студенты: Евгения Хохлова, Александра Иванова, Борис Егоров
руководитель: Лаврентий Данилов, Михаил Райко
Batch effect наблюдается, когда на результаты эксперимента влияют какие-то небиологические факторы, например разные запуски секвенатора или обработка контрольных и опытных образов по отдельности. Такие эффекты приводят к неточным выводам, если их причины коррелируют с интересующими результатами эксперимента.
В проекте проводится сравнение пакетов ComBat и Harmony, предназначенных для коррекции batch-эффекта, на данных RNAseq исследования дифференциальной экспрессии генов в различных тканях человека и мыши.

Git
Слайды
Detecting novel molecular events in proteomics data for genetic diagnostics | Technical University of Munich

студенты: Андрей Соболев
руководитель: Дмитрий Смирнов, Prokisch Holger
Применение таких омик, как транскриптомика и протеомика в диагностике редких генетических заболеваний человека набирает стремительные обороты и начинает входить в стандартную клиническую практику. Для приоритизации генов, мутации в которых вызывают заболевание у пациентов, в РНК-секвенировании применяется 3 подхода: 1) детекция аберрантной экспрессии генов, 2) аберрантного сплайсинга и 3) моно-аллельной экспрессии. На данный момент протеомика, в контексте данной задачи, нашла свое применение только для детекции аберрантной экспрессии белка. Однако, существует свидетельство того, что протеомные данные позволяют достоверно предсказывать уровень экспрессии белковых комплексов, а также отражают нарушения белок-белковых взаимодействий.
Также, одним из ограничений в применении протеомики является сниженный по сравнению с РНК-секвенированием уровень детекции генов. В связи с этим, существует необходимость в разработке и усовершенствовании методик, позволяющих отличать белки, которые не были детектированы в силу технических ограничений от белков, отсутствующих в образце по биологическим причинам.

Git
Слайды
GWAS analysis of region of genome associated with severe Covid-19 | Институт биоинформатики

студенты: Валерий Черанев, Анастасия Евдокимова, Дарья Гречишкина
руководитель: Лаврентий Данилов, Михаил Райко
Основная задача проекта — использование инструмента PLINK для GWAS анализа пациентов с тяжелой формой Covid-19. GWAS или полногеномный поиск ассоциаций позволяет искать взаимосвязи между фенотипом организма и набором SNP, делеций, вставок и других индивидуальных характеристик генома.
В проекте проведен анализ GWAS данных из двух статей и найдены SNP, связанные с тяжелым течением Covid-19.

Git
Слайды
Hidden biodiversity: search for uncultured protists in metagenomes | СПбГУ, ИНЦ РАН

студенты: Иван Пьянков, Игнат Сонец
руководитель: Юлия Яковлева, Михаил Райко
Бэкграунд: метагеномика позволяет выявить скрытое разнообразие некультивируемого живого и неживого на планете, в том числе одноклеточных существ (протистов). Существуют группы протистов, которые достаточно сложно изолировать из окружающей среды и еще сложнее культивировать. Обнаружение скрытых групп протистов и ранее неописанных представителей известных групп поможет нам больше узнать об их биоразнообразии, эволюции т.д.

Git
Слайды
Improve casual gene prioritization by patient's phenotype | Technical University of Munich

студенты: Никита Константиновский, Александра Примак
руководитель: Дмитрий Смирнов, Prokisch Holger
Одна из основных целей глубокого фенотипирования пациентов – усовершенствование анализа геномных данных для персонализированной медицины. В контексте редких заболеваний глубокое фенотипирование позволяет а) поставить корректный клинический диагноз (определить заболевание), б) на основе ранее опубликованных данных об ассоциации ген – набор фенотипов произвести приоритизацию генов. Применение единой номенклатуры для документирования фенотипов пациентов (HPO ontology) позволило разработать ряд методов для приоритизации генов. Однако эффективность данных методов на данный момент остается относительно низкой (AUC ~0.6). Можно выделить 2 основных подхода к повышению эффективности, в соответствии с которыми и были сформулированы 2 субпроекта:
Первый, "Phenotype-driven gene prioritization for rare diseases", основан на наличии уникального датасета ассоциаций пациент – ген – фенотип, позволяющего применять для решения данной задачи как методы машинного обучения, так и методы и алгоритмы теории графов.
Второй, "New line of evidence", основан на интегрировании новых данных, ассоциированных с зависимой и/или независимой переменной. В задаче приоритизации генов, наибольшую популярность получили методы фильтрации генов на основе информации о мутациях находящихся в них, что лишь искусственно завышает производительность. В данном субпроекте мы предлагаем проанализировать на сколько экспрессия РНК или белков может предсказать набор фенотипов пациента (Phenotype ~ expression) и могут ли эти данные быть использованы для повышения эффективности приоритизации генов.

Git: Примак, Константиновский
Слайды: Примак, Константиновский
In search of PET-degrading enzymes: metagenomes discover hidden homologues | Институт биоинформатики

студенты: Роман Шанин, Дарья Халенева, Полина Джелали, Владимир Пирогов, Григорий Буклей
руководитель: Михаил Райко, Лаврентий Данилов
Полиэтиленперефталат (PET) широко используется во всем мире в изделиях из пластика, и его накопление в окружающей среде стало глобальной проблемой. Поэтому остро встает вопрос разработки эффективной системы для переработки PET. В 2016-м в геноме бактерии Ideonella sakaiensis strain 201-F6 обнаружили ферменты PETаse и MHETase, споспобные гидролизовать PET до терефталевой кислоты и этиленгликоля (https://science.sciencemag.org/content/351/6278/1196). Задача проекта — найти в базах данных все известные ПЭТазы, посмотреть, в каких ещё организмах они обнаруживаются, проследить эволюцию, понять, где и когда она возникла.

Git
Слайды
Prediction protein sequences using machine learning approach | Skoltech

студенты: Камилла Файзуллина
руководитель: Петр Попов
Задача предсказания белковых последовательностей по известным пространственным структурам находит применение при изучении химических структур. В этом проекте используются структуры из Protein Data Bank. Поскольку обработанные и вокселизированные тензоры имеют большие размеры, использованы только короткие белки (до 80 аминокислотных остатков).В зоде проекта реализована трехмерную сверточную нейронную сеть с использованием фреймворка PyTorch.

Git
Слайды
Агентное моделирование распространения антибиотикорезистентности в популяции бактерий с учетом пространственных координат, рецепции питательных веществ и антибактериального агента | Институт биоинформатики

студенты: Максим Сердаков, Екатерина Кириллова
руководитель: Александр Ильин
Проект направлен на моделирование системы, позволяющей наблюдать динамику распространения устойчивости к антибиотикам с учетом некоторых факторов бактериальной популяции: перемещение бактерий за питательным веществом и его рецепция. Предположительно, скорость движения резистентных бактерий ниже. Чувствительные бактерии в модели размножаются с большей частотой. Такие параметры основаны на том факте, что устойчивость к антибиотикам является избыточной функцией клетки, когда в окружающей среде нет антибиотика. Изначально все бактерии в модели чувствительны к антибиотикам и могут стать устойчивыми только в результате случайных мутаций. Показано, что в результате трех волн распространения антибиотиков популяция выжила за счет распространения антибиотиков. Это четко иллюстрирует тот факт, что антибиотикорезистентность представялет серьезную проблему, потому что даже при появлении очень небольшого числа устойчивых бактерий, популяция никогда не умирает полностью под воздействием антибиотика.

Git
Слайды
Анализ дифференциальной экспрессии генов у немодельного гидроидного полипа Dynamena pumila | Институт биоинформатики

студенты: Дарья Купаева
руководитель: Лаврентий Данилов
В процессе развития организма формируются различные молекулярные паттерны, определяющие процессы дифференцировки клеток и формирования систем органов. Паттерны, ответственные за развитие, довольно консервативны среди различных групп организмов, и это представляет дополнительный интерес, поскольку одни и те же сигнальные пути могут привести к развитию сложной структуры организма у Hydrozoa. Рост и морфогенез гидроидных полипов происходит с помощью специализированного органа - кончика роста. В процессе морфогенеза он удлиняется и образует форму колонии. Проект посвящен анализу дифференциальной экспрессии генов для сравнения кончика побега и гидранта.

Git
Слайды
Анализ почвенных метагеномных образцов черневой тайги и зональной почвы | Институт биоинформатики

студенты: Алексей Зверев
руководитель: Лаврентий Данилов, Михаил Райко
Проект посвящен анализу двух почв — черноземной и региональной регулярной почвы. Используется по одному образцу для каждого вида почв, прочитанных Oxford Nanopore, и 10 библиотек 16S рДНК Illumina.

Git
Слайды
Анализ результатов исследования по переливанию конвалесцентной плазмы больным COVID-19 | ФГБУ «НИИ гриппа им. А.А. Смородинцева» МЗ РФ

студенты: Софья Лопатина, Алиса Родионова-Кравченко
руководитель: Оксана Станевич, Евгений Бакин
В течение новой коронавирусной инфекции иммунный ответ формируется особенным образом: антитела класса IgM появляются поздно, к 10-12 дню, и практически одновременно с IgG. Кроме того, появляется всё больше данных о том, что IgG держатся недолго и через какое-то время исчезают. Также, не очень ясно, связан ли уровень антител в крови с их нейтрализующей, то есть защитной, способностью. И вообще, так ли важны антитела при этой инфекции? Защищают ли они тех больных, кому перелили плазму от переболевшего? На эти и другие вопросы предстоит ответить в ходе проекта, используя полученные в ходе пандемии данные от реальных больных.

Git
Слайды
Аннотация метагеномов микробных целлюлолитических сообществ | Институт биоинформатики

студенты: Григорий Гладков
руководитель: Лаврентий Данилов, Михаил Райко
Микробные сообщества, способные разлагать целлюлозу на различных субстратах (солома, подстилка, опилки) просеквенированы по гену 16S SSU рРНК с использованием технологии Illumina. Кроме того, для каждого сообщества была проведена сборка на основе метагеномной последовательности, полученной по технологии Oxford Nanopore. Цель работы — выявление различий между микробными сообществами, метаболизирующими целлюлозу на разных субстратах из сборок ONT. Задачи работы: проведение de-novo биннинга, сравнение результатов с данными по 16S SSU рРНК и поиске специфичных для сообщества гликозидгидролаз.

Git
Слайды
Выявление молекулярных особенностей старения мезенхимальных стволовых клеток человека | Институт биоинформатики

студенты: Павел Дерябин
руководитель: Лаврентий Данилов
Сенолитические стратегии избирательного воздействия на стареющие клетки, которые являются основным фактором, опосредующим возрастные нарушения функционирования тканей и прогрессирование старения, представляют собой ключевую тенденцию в области терапии против старения. Недавно в качестве сенолитиков широкого спектра действия были предложены сердечные гликозиды. Показано, что сердечные гликозиды не способны проявлять сенолитическую активность по отношению к мезенхимальным стволовым клеткам человека различного происхождения. Проект направлен на сравнительный транскриптомный анализ развития развития старения в клетках, чувствительных к сердечным гликозидам и нечувствительный мезенхимальных клетках человека с целью идентифицировать специфические молекулярные характеристики старения стволовых клеток, лежащие в основе их устойчивости к сенолизу, опосредованному сердечными гликозидами.

Git
Слайды
Заболеваемость и выживаемость пациентов с раком пищевода в России | Институт биоинформатики

студенты: Дарья Андреева
руководитель: Лаврентий Данилов
Рак пищевода занимает восьмое место по распространенности в мире и шестое место среди причин смертности от рака. Цель данного проекта — анализ изменений динамики заболеваемости и смертности от рака пищевода с использованием данных Российского государственного онкологического реестра.

Git
Слайды
Изучение транскриптома в момент интенсивных нагрузок в условиях высокогорья | Медико-генетический центр Сербалаб

студенты: Даниил Литвинов, Екатерина Чернявская
руководитель: Анна Маслова, Андрей Глотов
Исследование индивидуального транскрипционного ответа 19 спортсменов на физический и психологический стресс до и после физических беговых нагрузок по природному рельефу в экстремальных условиях высокогорья (2450-3450 м г. Эльбрус), а также в «нулевой» точке до приезда на соревнования (Санкт-Петербург).

Git
Слайды
Моделирование гибридизации ДНК-пробы с мишенью в методе Tyramide-FISH | Институт биоинформатики

студенты: Алексей Ермолаев
руководитель: Александр Ильин
Метод флуоресцентной гибридизации in situ (FISH) был разработан для визуализации определенной последовательности ДНК на физической хромосоме. Однако чувствительность FISH для обнаружения последовательностей однокопийной ДНК была ограничена, особенно для сильно уплотненных хромосом растений. Сверхчувствительный метод, получивший название Tyramide-FISH, был адаптирован для цитогенетики растений. Tyramide-FISH в основном используется для визуализации небольших мишеней — генов или маркеров. Часто гены включаются в семейства генов, и сложно создать зонд для визуализации только одного члена мультигенного семейства. Метод Tyramide-FISH показал, что включение интрона в зонд позволяет нам визуализировать конкретный ген из мультигенного семейства. Проект посвящен анализу влияния разных интронов на специфичность гибридизации. Специфичность гибридизации метода Tyramide-FISH определяется строгостью, которая ограничивает процент совпадений и несоответствий между зондом и нуклеиновой кислотой-мишенью, которые могут иметь место, не нарушая образования гибрида двойной спирали. Чаще всего используется порог 80%. В проекте создана симуляцию процесса гибридизации и рассчитан ряд различных результатов с использованием метода Монте-Карло. Моделирование показало, что даже один фрагмент интрона в зонде приводит к уменьшению числа событий гибридизации с мутированной мишенью без влияния на количество событий гибридизации с реальной мишенью.

Git
Слайды
Моделирование межклеточных взаимодействий на основе single cell RNA-seq данных| Systems Biology Ireland, University College Dublin

студенты: Сергей Тихомиров, Никита Шараев
руководитель: Вадим Жерновков
Быстрый прогресс в развитии технологий секвенирования следующего поколения (NGS) в последние годы дал много полезных сведений о сложных биологических системах. Технологии NGS в области геномики, транскриптомики и эпигеномики в настоящее время все в большей степени ориентированы на определение характеристик отдельных клеток. Метод single cell RNA-seq, например, может выявить сложные и редкие популяции клеток, выявить регуляторные связи между генами и проследить траектории развития отдельных линий клеток. Задачей данного проекта является анализ сети межклеточных взаимодействий используя single cell RNA-seq данные и базы данных лиганд-рецепторных взаимодействий.

Git
Слайды
Моделирование мутаций в S-белке SARS-Cov-2 | СПбГУ, Институт биоинформатики

студенты: Евгения Стребулаева, Кирилл Варченко, Мария Акаменкова, Олег Вавулов, Анна Шемякина
руководитель: Андрей Золотарев, Лаврентий Данилов
В рамках проекта предлагается взять готовую кристаллическую структуру RBD домена Spike S белка вируса SARS-Cov-2 в комплексе с ACE2 (основная мишень вируса в организме человека - ангиотензин-превращающий фермент), содержащуюся в базе PDB.
После знакомства с основами визуализации трехмерных структур в PyMOL, студентам будет предложено детально рассмотреть интерфейс взаимодействия двух белков и предположить мутации по каким аминокислотным остаткам Spike S- белка могут увеличить афинность данного взаимодействия.
При помощи FoldX в структуру белка будут внесены соответствующие мутации, после чего в данной же программе будет произведен перерасчет трехмерной структуры комплекса в заданном силовом поле. (будет взято поле, предлагаемое разработчиками foldX, но при наличии желания и времени можно будет попробовать и другие силовые поля).
Полученную структуру с повышенной афинностью к ACE2 будет предложено протестировать на силу взаимодействия с лекарствами из списка FDA approved (лекарства из данной базы протестированы клинически, а потому интересны тем, что их их введение в эксплуатацию может быть произведено очень быстро. Также таким методом можно сузить область поиска потенциального конкурентного ингибитора до определенного класса веществ) http://zinc.docking.org/substances/subsets/fda/?page=1

Git
Слайды
Ориентирование контигов с помощью Hi-C данных | Университет ИТМО, The George Washington University

студенты: Антон Фонин, Артем Иванов
руководитель: Никита Алексеев, Павел Авдеев
Благодаря появлению технологий секвенирования третьего поколения (таких как PacBio и Oxford Nanopore) произошла очередная революция в сборке геномов. Разработка алгоритмов использующих такого типа данные в последние годы привела к тому что сегодня можно рутинно получать сборки геномов уровня, который 10 лет тому назад требовали неимоверных усилий нескольких университетов. В данном проекте предлагается поработать с другим типом данных, а именно с Hi-C данными. Существующие алгоритмы скаффолдинга (такие как SALSA2 и 3D-DNA) с помощью Hi-C данных в целом делают хорошую работу по упорядочиванию контигов. Однако, данные сборки содержат значительное число ошибок ориентации контигов (когда контиг находится на правильной позиции, но имеет не правильную ориентацию). На данный момент, такие ошибки обычно корректируются вручную. Несколько месяцев назад был предложен первый алгоритм - HiC-Hiker [8], который адресует данную проблему. Авторам удалось добиться улучшения результатов. Однако, метод был протестирован на сборках из технологий второго поколения и полагается на сборки полученные с помощью метода 3D-DNA (данный метод имеет проблемы со сборкой геномов из данных третьего поколения). Также HiC-Hiker не использовал всю информацию предоставляемую сборщиками, а именно графы сборки. Поэтому существует возможность методологического улучшения. В рамках проекта предлагается разработать метод, который использовал бы оптимизационный алгоритм (например, метод имитации отжига или Monte Carlo Monte Chain), для ориентации контигов.

Git: Фонин, Иванов
Слайды: Фонин, Иванов
Оценка фактора экзоцитоза Виллебранда эндотелиальными клетками в ответ на различные стимулы | Институт биоинформатики, ИБР им. Кольцова РАН

студенты: Александра Цитрина
руководитель: Лаврентий Данилов, Павел Авдонин
Эндотелиальные клетки выстлают поверхность кровеносных и лимфатических сосудов и регулируют многие аспекты физиологии человеческого тела. Основные функции эндотелиальных клеток — контроль свертывания крови, а фактор фон Виллебранда (vWF) является одним из основных белков в этой реакции. При специфической стимуляции эндотелиальные клетки высвобождают vWF посредством экзоцитоза из специфических запасающих органелл — телец Вейбелла-Паллады. После экзоцитоза vWF может образовывать мультимерные структуры — «нити» на поверхности ЭК. Эти структуры активируют агрегацию тромбоцитов и инициируют образование тромбов. Недавно активные формы кислорода (АФК) были признаны вторичными посредниками вместе с Ca2 + и цАМФ. Из всех АФК H2O2 является лучшим кандидатом на такую роль благодаря своим молекулярным свойствам. H2O2 — мягкий относительно стабильный окислитель, хорошо растворимый в липидах. Существует два основных источника клеточной H2O2: супероксиддисмутаза и NADPH-оксидаза NOX4, внеклеточно H2O2 может генерироваться во время активации тромбоцитов, моноцитов и нейтрофилов. Влияние H2O2 на высвобождение vWF из эндотелиальных клеток неизвестно. Цель данного проекта — оценить влияние воздействия H2O2 на высвобождение vWF из эндотелиальных клеток по сравнению с гистамином и тромбином, хорошо известными агонистами секреции vWF.

Git
Слайды
Поиск запрограммированных сдвигов рамки считывания в геномах бактерий рода Streptomyces | ФИЦ Биотехнологии РАН

студенты: Александр Миленькин, Александр Петров
руководитель: Иван Антонов
Основным направлением данного проекта является поиск генов бактерий рода Streptomyces, использующих запрограммированный сдвиг рамки считывания (ПСРС). Группой Джона Аткинса недавно было показано, что редкий кодон UUA может вызывать рибосомальный обход (translational bypassing) относительно длинного участка мРНК. В настоящее время имеются убедительные доказательства того, что такой трансляционный обход используется фагом Streptomyces в качестве датчика физиологического состояния его клетки-хозяина и эффектора того, входить ли в литическое состояние профага (Smith et al., 2013; O'Loughlin и др. не опубликовано). Вопрос, который необходимо решить, заключается в том, может ли подобный механизм обхода использоваться в экспрессии клеточных генов Streptomyces. В предлагаемом проекте биоинформатический анализ будет сопровождаться экспериментальным анализом. Следует отметить, что благодаря высокому содержанию GC, виды Streptomyces не экспрессируют родственный тРНК UUA на ранних и вегетативных стадиях роста, а только экспрессируют такую тРНК на поздней стадии развития. Существуют убедительные доказательства того, что в клеточном вегетативном состоянии отсутствие тРНК для кодона UUA вызывают эффект «голодного кодона», что приводит к паузе во время трансляции последующему трансляционному обходу (Smith et al., 2013; Review, Atkins et al., 2016; O'Loughlin and Atkins, не опубликовано).

В рамках данного проекта запланировано тесное сотрудничество с ведущими учеными в данной области из г Корк (Ирландия). В лаборатирии Джона Аткинса были получены неопубликованные экспериментальные результаты по изучению рибосомальный обхода в генах бактериофага. Предлагается объединить эти неопубликованные результаты с биоинформатическим анализом, который будет осуществлен в предлагаемом проекте. Важно отметить, что у разных видов Streptomyces, только 3% генов содержат кодон UUA (Chater and Chandra, 2008). Следует отметить, что в анализе Li et al., 2007, 59% этих генов имели неизвестную функцию, а 17% были известны как регуляторные. Таким образом, главной задачей предлагаемого проекта, является сравнительно-геномный анализ генов, содержащих кодон UUA для того, чтобы предсказать, какие из них могут использовать рибосомальный обход или запрограммированный сдвиг рамки считывания при своей экспрессии.

Git
Слайды
Поиск общей генетической архитектуры между неврологическими заболеваниями | McGill

студенты: Людмила Проценко, Дарья Никанорова
руководитель: Константин Сенкевич
С использованием данных сводной статистики полногеномных ассоциативных исследований (нейродегенеративные, нейровоспалительные заболевания, заболевания двигательного нейрона) проведение генетической корреляции между заболеваниями. Далее, проведение полнотранскриптомного анализа ассоциаций и выявление генов с перекрытием экспрессии между заболеваниями.

Git
Слайды
Предсказание молекулярных свойств с использованием глубокого обучения на графах | JetBrains Research

студенты: Елизавета Власова
руководитель: Нина Лукашина, Алиса Аленичева
Липофильность — один из факторов, определяющих проницаемость клеточной мембраны для молекулы лекарства. Следовательно, точное прогнозирование липофильности — важный шаг в разработке лекарств. Проект посвящен созданию нейронной сети на графах для предсказания молекулярных субструктур.

Git
Слайды
Решение стохастических уравнений динамики численности популяций двух конкурирующих видов | Институт биоинформатики

студенты: Артем Ершов
руководитель: Юрий Белоусов
Математическое моделирование широко используется для изучения биологических систем. Один из подходов — использование теории стохастических дифференциальных уравнений и формулы Itô. В проекте для знакомства с этой теорией решено несколько задач моделирования методом Монте-Карло на языке программирования Python.

Git
Слайды
Сборка бактериального генома и очистка от контаминации | Институт биоинформатики

студенты: Анна Рыбина
руководитель: Лаврентий Данилов, Михаил Райко
Что делать, если в ридах есть не только нужный штамм, но и какие-то другие? В лабораторию поступил штамм Escherichia coli str. Nissle 1917, который оказался контаминирован. Были получены два типа колоний, морфологически различающиеся по размеру. Обе колонии секвенировали Illumina. Проект посвящен сборке de novo и определению таксономического положения контаминантов.

Git
Слайды
Сборка органельного генома растений на примере Ели европейской и видов рода Ирис | Институт биоинформатики

студенты: Александр Андреев, Петр Журбенко
руководитель: Лаврентий Данилов, Михаил Райко
Цель проекта — сборка и анализ хлоропластного генома видов рода Ирис и митохондриального генома Ели европейской. Проект посвящен построению филогенетического дерева Ирисов и поиску NUMT у Ели европейской.

Git
Слайды
Симуляция эпидемии на примере COVID-19 | Институт биоинформатики

студенты: Алексей Замалутдинов
руководитель: Александр Ильин
Человечество часто сталкивается с самыми разными заболеваниями, некоторые из которых крайне заразны и опасны. Чтобы найти баланс между здоровьем людей и развитием экономики, используется моделирование таких событий. Проект посвящен моделированию эпидемии COVID-19 на основе модели SIR (susceptible-infected-removed).

Git
Слайды
Сравнение методов анализа дифференциальной экспрессии генов для данных RNA-seq | Институт биоинформатики

студенты: Анна Квач, Маргарита Комарова, Кристина Гайнова
руководитель: Лаврентий Данилов, Михаил Райко
На сегодняшний день существует большое разнообразие пайплайнов для анализа транскриптомных данных. Каждый из них подходит для решения разного типа задач, и бывает достаточно сложно выбрать пайплайн для конкретных данных. Данный проект направлен на сравнение наиболее популярных вариантов пайлайнов, подходящих для анализа как данных de novo секвенирования, так и при наличии опубликованной сборки.

Git
Слайды
Сравнительный анализ пайплайнов анализа метагеномных данных | Институт биоинформатики

студенты: Анна Чуркина
руководитель: Лаврентий Данилов, Михаил Райко
Метагеномика — быстро развивающаяся область, задачей которой является определение составов микробных сообществ. Метагеномный анализ данных секвенирования следующего поколения (NGS) маркерного гена 16S рРНК или полногеномного секвенирования широко используется в экологических и биомедицинских исследованиях. На сегодняшний день разработано большое количество методов анализа метагеномных данных. Чтобы определить наиболее оптимальный метод анализа метагеномных данных, в этом проекте предложено сравнить 4 самых популярных биоинформатических пайплайна: USEARCH-UPARSE (OTU), USEARCH-UNOISE3 (ASV), Qiime2-Deblur (ASV) и DADA2 (ASV).

Git
Слайды
Сравнение дифференциальной экспрессии генов у полевочьих из разных ниш | ЗИН РАН

студенты: Данько Катерина, Сидорин Антон, Илюткин Станислав, Согомонян Карина, Воропаев Иван
руководитель: Надежда Потапова, Ольга Бондарева, Татьяна Петрова, Семен Бодров
Экологические ниши оказывают влияние на организм, который вынужден к текущим условиям приспосабливаться. При этом условия проживания высокогорных и степных организмов сильно отличаются, что скажется на их профилях экспрессии. На руках у нас есть транскриптомы полёвок (это мелкие грызуны семейства хомякообразных) из разных ниш: степные, горные и лесные. Более того, есть данные для одного вида (то есть для популяции) из очень разных точек. В наборе также есть транскриптомные данные для особей, которые выглядят одинаково, а на самом деле – генетически совсем разные виды. Так сказать, виды-двойники, или криптические виды. Имея на руках транскриптомы, можно сделать массу всего, начиная с того, что просто научиться работать с такими данными от начала и до конца: научиться считать дифференциальную экспрессию и применять поправки, понять, как можно на транскриптомах смотреть перестройки, инделы и инверсии. Но кроме изучения разных методов, конкретно для этих данных будет интересно поискать, чем же отличаются между собой разные виды, да и особи внутри одной популяции. И что может делать виды-двойники разными и похожими. Как влияет ниша на экспрессию генов и какие гены больше нужны высокогорным, а какие-степным видам.

Git
Слайды
Улучшение биннинга за счет графов сборки в SPAdes | Лаборатория "Центр алгоритмических биотехнологий СПбГУ"

студенты: Гинзбург Георгий, Кругликов Роман
руководитель: Антон Коробейников
Одна из задач анализа метагеномных данных – выделение геномов отдельных представителей из метагеномной сборки, получение т.н. MAG'ов (metagenome assembled genomes). Для этого, как правило, используются внешние утилиты-биннеры, которые используют различные метрики типа покрытия, тетрануклеотидного состава и т.п. для кластеризации контигов. Однако, данных подход не учитывает связность графа сборки, а также позволяет кластеризовывать только достаточно длинные контиги.
В рамках данного проекта предполагается реализация подхода label propagation по распространению разметки биннера на графах сборки. Тем самым окажется возможным определить потенциально неверно раскластеризованные контиги, а также заметно улучшить полноту кластеров за счет включения более коротких контигов.

Git
Слайды