Научные проекты


За время обучения в Институте биоинформатики каждый студент занимается научно-исследовательскими проектами. Руководят проектами ведущие специалисты из российских и зарубежных научных лабораторий и компаний в области биоинформатики и биотехнологий.

Если у вас есть интересные задачи по биоинформатике для студентов пишите нам на info@bioinf.me.
Проект подразумевает еженедельные встречи с руководителем очно или по скайпу, а также 5–15 часов в неделю самостоятельной работы. Многие проекты выливаются в дальнейшее сотрудничество со студентами и потом выпускниками.

Гид с подробностями о формате работы над проектами.

Институт биоинформатики публикует на сайте итоги и презентации студенческих проектов:

Научные проекты 2021/2022
Весна 2022
A transcriptome assembly from fragments of the annelids Pygospio elegans (Spionidae, Annelida) and Arenicola marina (Arenicolidae, Annelida) | Zoological Institute of the RAS

student: Aleksandr Chen
supervisor: Elena Novikova

Slides
GitHub
Annelids, like many other invertebrate animals, replace lost body parts in a process called regeneration. In particular, polychaetes, a class of generally marine annelid worms, are capable of regenerating to some degree. The degree of regeneration varies widely across the taxon. For instance, Pygospio elegans (Spionidae, Annelida) is capable of regenerating both head and tail segments, whereas Arenicola marina (Arenicolidae, Annelida) does not regenerate lost segments. The aim of the project is to assemble transcriptomes of two polychaetes - Pygospio elegans and Arenicola marina, - and to prepare data for further investigation of genes responsible for gradient expression in the body of annelids.
Transcriptome analysis of Platynereis dumerilii (Nereididae, Annelida) and Pygospio elegans (Spionidae, Annelida) at different stages of anterior and posterior regeneration | Zoological Institute of the RAS

student: Anna Koroleva
supervisor: Elena Novikova

Slides
GitHub
In the course of the project, it will be necessary to identify genes that are activated and suppressed at each stage of regeneration in the tail and head sites of regeneration compared to point 0. It will also be necessary to determine the belonging of these genes to biological processes and build heat maps that reflect the dynamics of expression of selected conservative genes in the process of regeneration.
"Split" repeat resolution for long reads | Center for bioinformatics and algorithmic biotechnology, SPbSU

student: Grigoriy Bukley
supervisor: Dmitry Antipov

Slides
GitHub
When assembling the genome, de Bruijn graphs built on the basis of reads are used. However, some of the information from the original reads remains unused in the graph. Due to inaccuracies of readings and imperfections of genome assemblers, unresolved repeats occur in the de Bruijn graph. This project implements some approaches for resolving repetitions for the LJA assembler based on Split methods.
Role of Drosophila Chromatin Remodeling Factor CHD1 in regulation of gene expression | NRC "KI" - PNPI

students: Zhanna Repinskaia, Alexander Zhuravlev
supervisor: Alexander Konev

Slides
GitHub
The aim of this project is to study the role of chromatin remodeling factor CHD1 (Chromo-ATPase/Helicase-DNA-binding protein 1) in the in the process of dosage compensation in Drosophila melanogaster. We have previously demonstrated CHD1 is unique among Drosophila chromatin-remodeling factors in terms of its specific recruitment to the male X chromosome suggesting the role in DC. To investigate the specific roles (if any) of the CHD1 in dosage compensation and assess additional functions in regulation of gene expression we sequenced (using an MGI platform) rRNA depleted total RNA from wildtype and Chd1 mutant male and female larvae.The main task of this project is to analyze the data acquired. We will need to perform quality control, alignment and analysis of gene differential expression in the X-chromosome and in autosomes of Drosophila males and females.
Studying Salmonella gene expression dynamics in response to novobiocin | ITMO University

students: Semyon Kupriyanov, Valeriia Ladyhina
supervisor: Aleksandr Tkachenko

Slides
GitHub
The object of the study is Salmonella enterica, bacterium largely resistant to novobiocin and DNA superspiralization alterations in general. Here we aim to analyze gene expression changes in Salmonella cultures grown on media with varying concentrations of antibiotics and to identify clusters of coexpressing genes. We need to analyze gene expression in several bacterial cultures (several timepoints and concentrations). Identify clusters of coexpressing genes. Characterize clusters form functional point of view.
Developing best practices for semi-automatic single-cell data annotation | ImmunoMind Inc.

students: Ivan Semenov, Anton Muromtsev, Vladimir Shitov
supervisors: Daniil Litvinov, Vasily Tsvetkov

Slides
GitHub
Single-cell sequencing is paving the way for precision medicine. It is the next step towards making precision medicine more accurate. One of the most important step in single-cell data analysis is cell type labeling. This is a very time-consuming process, the automation of which is a task of current interest. The goal of this project is using modern machine learning approaches to build semi-automatic single-cell data annotation tool.
Structure-based modeling of cysteine and serine disease variants of human proteome | Skoltech

student: Dmitrii Podgalo
supervisor: Petr Popov

Slides
GitHub

The goal of this project is to model structures of human proteins with disease-associated amino acid substitutions. Two types of amino acid substitutions are selected: X to Cysteine or X to Serine (X is any amino acid residue) – these residues are often used as the attachment points for covalent drugs.
Determining the effectiveness of momi2 for inferring demographic history in GADMA | ITMO

students: Kseniya Struikhina, Valentin Mikhalchuk
supervisor: Ekaterina Noskova

Slides
GitHub
Restoration of parameters of demographic history by chromosomes and comparison with real data.
Application of machine learning methods to approximate demographic history parameters from allele frequency spectrum | ITMO

student: Elizaveta Gorelkina
supervisor: Ekaterina Noskova

Slides
GitHub
Full-fledged genetic data are not used to output demographic history parameters, as they require a lot of computing resources. Therefore, they use various statistics based on these data. One of these statistics is the allele-frequency spectrum. In the simplest case, it can be represented as a multidimensional tensor (matrix). Existing methods for deriving demographic history parameters (dadi, moments) use local optimization algorithms that work faster for given initial approximations of parameters close to optimal. In this project, it is proposed to apply the simplest machine learning methods for approximate prediction of the parameters of the demographic history of two populations. As machine learning algorithms, a choice is offered: random forest or convolutional neural networks. It is required to generate data, train and validate the selected method on them.
Genome-wide association search (GWAS) and construction of polygene scales (PRS) for height and weight | Genotek

students: Mark Zorin, Dmitrii Iliushchenko
supervisor: Alexander Rakitko

Slides
GitHub
Genome-wide association study (GWAS) is a search for single nucleotide polymorphisms (SNPs) on which the human phenotype directly depends. GWAS is often used to identify various diseases or risks of their occurrence. In our study we analyzed the genetic variants of a large cohort of Russians to identify SNPs with significant associations with changes in body mass index.
In silico modeling of coverage profiles for multiplex target panels | ParSeq Lab

student: Anastasia Kislova
supervisor: Ivan Pyankov

Slides
GitHub
The development of multiplex target panels for polymerase chain reaction means that highly specific primers are designed to minimize the number of amplicons for target regions. The panels are obligatory in vitro validated, but in silico validation would improve the existing pipeline. The goal of this project was to adjust existing tool called DegenPrimer for in silico validation of designed target panels and check the output correlation with the real data.
Pipeline for a targeted gene sequencing panel validation | ParSeq Lab

student: Maria Lopatkina
supervisor: Tamara Simakova

Slides
GitHub
Targeted sequencing is a rapid and cost-effective way to detect known and novel variants and is widely applied in medicine. Targeted sequencing requires upfront selection and isolation of genes or regions of interest, typically by either PCR amplification or hybridization-based capture methods. It should be recalled that not all regions of interest are suitable for analysis. It is important to be aware of the analytical characteristics and limitations of panels. The goal of the project was to develop a pipeline for validation of targeted gene sequencing panels.
Clustering Hi-C contact graphs using Graph Neural Networks | Center for Bioinformatics and Algorithmic Biotechnology, SPbSU

student: Fyodor Velikonivtsev
supervisors: Ivan Tolstoganov, Anton Korobeynikov

Slides
GitHub
A typical approach to binning using Hi-C data consists of two steps: constructing Hi-C contact graph, where nodes are contigs and edge weights are normalized number of Hi-C links between them, and Hi-C contact graph clusterization. Existing binning approaches based on Hi-C technology, such as bin3C and HiCBin, are based on community detection algorithms, such as Infomap and Leiden. Recent advances in genome binning approaches implemented in tools such as VAMB clearly shows the potential of neural networks in binning problem solutions. As a result we hope that recent advances in graph clusterization using Graph Neural Networks (GNN) might provide a more generalized and possibly more accurate way to clusterize Hi-C contact maps, which would in turn provide more accurate and complete MAGs and improve further metagenomic analysis.
Analysis and construction of SARS-CoV-2 neutralizing ligands with extensive Spike binding | Laboratory of Biomolecular NMR, Saint Petersburg State University

students: Aleksandr Kovalenko, Xenia Sukhanova
supervisors: Olga Lebedenko, Nikolai Skrynnikov

Slides
GitHub
Protein minibinders (MP1 and MP3) have been designed in silico against RBD of wild-type spike protein to prevent SARS-CoV-2 entry into cells. However, the emergence of new covid strains hinders MPs effective use. The main goal of this project is to develop a workflow for estimation of the MP1 and MP3 proteins binding affinity to RBD of the new SARS-CoV-2 variants (alpha, delta, delta+, omicron) and propose a way to optimize the MP1 and MP3 sequences for stronger interaction with new covid strains RBDs. As a result, the collection of python scripts is provided for structure manipulation, simulations, binding analyses and results processing. MP1/3 interaction with the new SARS-CoV-2 RBD variants is analysed. For MP1 no beneficial mutation were observed, while MP3(D37R) mutant with enhanced binding to delta+ strain RBD is proposed.

Differential expression analysis of macrophage RNA sequencing data using the Hobotnica tool | Ivannikov Institute for System Programming of the RAS, Information Systems Department

students: Anton Zhelonkin, Alexandra Belyaeva
supervisor: Evgeny Karpulevich

Slides
GitHub
Macrophages are a central component of innate immunity and play an important role in host defense. In our work, we study the effect of lipopolysaccharide on macrophages derived from the two most polar (CD14+ and CD16+ monocytes), as well as an intermediate subset of blood monocytes from healthy donors, and evaluate what happens to the subset most prone to polarization at the transcriptomic level. Tools for calculating the differential expression of RNA sequencing data work on the basis of the apparatus of mathematical statistics. In order to choose the most appropriate tool for specific data, it is proposed to use the Hobotnitsa tool.


Search for homologs of egg-cell specific genes, study of their expression patterns and regulatory elements for the creation of effective constructs for genetic engineering | Skolkovo Institute of Science and Technology, Institute for Information Transmission Problems RAS

students: Elena Grigoreva, Anna Toidze
supervisors: Maria Logacheva, Artem Kasianov

Slides
GitHub
Using germ line cells-specific promoters is effective approach in genome editing. EC1.1 and EC1.2 are A. thaliana genes from Egg Cell family that are specifically and highly expressed in egg cells. It was shown that using of promoters of these genes significantly improved genome editing. But no similar promoters are known for other plants. Knowing that homologous genes can have similar functions, we supposed that EC homologs could have similar expression patterns and using their promoters could also be effective. So the aim of our project is to find functional analogs of EC genes in different crops and model plants and explore their expression patterns and regulatory elements.


Research of signaling pathways and transcriptional factors (TF) activity alteration associated with acute myeloid leukemia (AML) | BostonGene

students: Iuliia Ruzhenkova, Ekaterina Osintseva
supervisor: Eleonora Belykh

Slides
GitHub
In the bone marrow, transcriptional factors (TFs) control the genes important for normal hematopoiesis maintenance. Dysregulation of TFs activity can lead to hematological malignancies including acute myeloid leukemia (AML). Currently, TFs are considered as promising drug targets, and their research (as well as the signaling pathways responsible for their activation) is relevant for the development of new therapeutic strategies. In the present study, we analyze publicly available NGS data (RNA-seq and scRNA-seq) from the bone marrow of AML patients and healthy donors: after preprocessing the data, we run PROGENy and DoRothEA programs to determine the important molecular pathways and TFs activity alteration. To validate the obtained results the literature research, Kaplan-Meier survival analysis as well as TFs visualization single cells are performed.


Correlation between DNA sequence and chromatin structure | EPAM Systems

students: Kirill Kirilenko, Ivan Kozlov
supervisor: Gennadii Zakharov

Slides
GitHub
The goal is to determine whether DNA sequence itself can be a good predictor of 3D nuclear structure.


Предсказание структуры вариабельных участков антител | JetBrains Research

студент: Егор Шаповал
руководитель: Наталья Зенкова

Слайды
Антитела – белковые соединения, вырабатываемые организмом, которые предназначены для нейтрализации различных патогенов и вирусов. Они связываются с чужеродными объектами, попадающими в организм, предотвращая нанесение ими вреда и помечая их для удаления. Антитела можно искусственно синтезировать и использовать в качестве препаратов, что широко используется в фармацевтике. Для фармацевтических задач часто нужна трехмерная структура антитела. Один из способов ее получения – это экспериментальный способ, но это долго и дорого. Другой способ – использовать методы глубокого обучения для решения данной задачи. На данный момент существует несколько алгоритмов, способных предсказывать общую форму антитела по аминокислотной последовательности, но эти алгоритмы допускают довольно большие погрешности в особо важных участках молекулы, которые отвечают за связывание с антигеном – complementarity-determining regions (CDRs). На данный момент есть некоторый фреймоворк для предсказания самого трудного участка CDR-H3.


Сlassification of β-arches based on their 3D structure | Saint-Petersburg State University

students: Rustam Basyrov, Leonid Zhozhikov
supervisor: Stanislav Bondarev

Slides
GitHub
β-arches are structural elements of proteins that include two β-strands united by a turn. They are present in the proteins of β-solenoids, as well as amyloid aggregates. In the original article in which the term was proposed, such structures were divided into groups based on the conformation of amino acids at the turn sites, as well as the number of amino acids in them. As part of the project, we analyzed the diversity of 3D β-arch organizations.


Analysis of differential expression of genes involved in NO-signaling in synucleinopathies | Saint-Petersburg State University

students: Aleksandra Livanova, Anna Kapitonova
supervisor: Stanislav Bondarev

Slides
GitHub
Synucleinopathies are neurodegenerative diseases characterized by aggregation of proteins, in particular, alpha-synuclein, in brain neurons. According to bioinformatic predictions, nitric oxide synthase 1 adaptor protein (NOS1AP) is also capable of forming protein aggregates in neurons. Moreover, it directly interacts with alpha-synuclein. Based on this, the hypothesis emerged, that NO signaling could be involved in the pathogenesis of synucleinopathies. The aim of the project was to evaluate changes in expression level of NOS1AP and other NO-signaling genes in brain samples from patients with synucleinopathies. Four open datasets with raw RNA-seq reads from different brain regions of patients with synucleinopathies were analyzed. Although NOS1AP expression did not change significantly, tissue-specific differential expression of other NO-signaling genes was demonstrated.


Analysis of variable evolutionary constraint within a single ORF | Bioinformatics Institute, Research Center of Medical Genetics

student: Oksana Kotovskaya
supervisors: Yury Barbitoff, Mikhail Skoblov

Slides
GitHub
Genetic variants leading to loss of function are not found in all genes. If a gene is found under selection pressure, protein truncation variants (PTV) are much less common in them (Cassa C., 2017). Most often, such genes have important functions, and a such catastrophic change in the protein leads to various diseases or death (Samocha K., 2014). In this work, we are interested in the case when the division of genes into conservative (that is, under selection) and non-conservative (that is, free from selection) becomes less unambiguous, namely, cases when non-conservative genes are found in relatively conservative genes. This work is devoted to implementation of algorithm to the search for such sequences.
Goal: to estimate the evolutionary conservation of individual regions within single ORF.
The key task to achieve this goal was to implement an algorithm based on the hidden Markov model (HMM), which allows to determine the conservativeness of individual regions of the protein-coding sequence (CDS).

Analysis of the effects of combinations of single nucleotide polymorphisms within a single codon | Bioinformatics Institute, Research Center of Medical Genetics

student: Ekaterina Kravchuk
supervisors: Yury Barbitoff, Mikhail Skoblov

Slides
GitHub
Creating a tool that correctly predicts the effects of polymorphisms within a single codon.
Evaluation of the evolutionary conservation of uORFs | Bioinformatics Institute, Research Center of Medical Genetics

student: Dmitrii Poliakov
supervisors: Yury Barbitoff, Mikhail Skoblov

Slides
GitHub
The method highlights ORFs that encode functional proteins important for human survival. The idea of the current project is to try to apply the method to upstream open reading frames (uORFs) to find the ones encoding functional products. uORFs are the relatively short ORFS found upstream of the main ORF in eucaryotic mRNAs. image They were lacking attention for a long time because of the paradigm "one mRNA - one protein" for eucaryotic mRNA. Then ribosome profiling emerged, the method which allowed for the mapping of the translating ribosomes on mRNAs. And then it became clear that there are a lot of uORFs on which translation occurs. If the majority of products of the uORFs are functional is still a matter of discussion though. Our goal is to try to find uORFs encoding functional proteins.
Generation of possible single-nucleotide variants with a given effect on protein-coding sequence | Bioinformatics Institute, Research Center of Medical Genetics

student: Oxana Kolpakova
supervisors: Yury Barbitoff, Mikhail Skoblov

Slides
GitHub
Creation of a tool to generate pathogenic and benign SNPs for OMIM genes by substitution of 1 codon nucleotide resulting in the same amino acid substitution.
Identification of genetic variants affecting branchpoints within human introns | Bioinformatics Institute, Research Center of Medical Genetics

students: Alisa Sergeeva, Irina Veretenenko
supervisors: Yury Barbitoff, Mikhail Skoblov

Slides
GitHub
The aim of the project is to evaluate the effect of intronic variations on the position and strengh of branchpoints – the sites in introns which guide the splicing process. We used two existing tools: Branchpointer and BPP to predict branchpoint probability in reference human intrones and to identify, how inctonic variations change it. We compared pathogenic variations from ClinVar and high-frequent variations from gnomAD. We observed the similarity of BPP and Branchpointer tools in separating ClinVar and gnomAD databases but also their difference in predition probabilities. We created a new ML predictor which showed a good performance and quality metrics. Next we`re planning to verify this model on the ClinVar and gnomAD datasets and estimate the role of pathogenic variaions in the splicing process.
Dissecting the role of gene expression variability in complex traits | Bioinformatics Institute

student: Mikhail Slizen
supervisors: Yury Barbitoff

Slides
GitHub
Genome-Wide Association Study (GWAS) is a technique used to look for genome sequence variations that affect the development of complex traits. In recent years, GWAS results have been published for thousands of different traits, including two of the world's largest datasets, UK Biobank and Finngen. It is known that changes in gene expression levels are one of the main mechanisms that determine the small effects of genetic variants detected during GWAS. In this project, we test the hypothesis that not only the level of gene expression, but also the degree of expression variability, is associated with the influence of a gene on complex human traits.
Borgs - new entities in archaeal genomes? | Saint-Petersburg State University

students: Vera Emelianenko, Alexandra Kolodyazhnaya
supervisors: Mikhail Rayko, Lavrentiy Danilov

Slides
GitHub
In a preprint published on bioarchive in July 2021, authours describe misterious new entities in archeal genomes (Al-Shayeb et al., 2021.). Authours define them them the following way: "We infer that these are a new type of archaeal extrachromosomal element with a distinct evolutionary origin. Gene sequence similarity, phylogeny, and local divergence of sequence composition indicate that many of their genes were assimilated from methane-oxidizing Methanoperedens archaea. We refer to these elements as "Borgs"". We used the Borgs sequences published in this paper along with the open-source metagenomic data to find out what are Borgs, how can they be defined and whether they have representatived in metagenomic data.


Systematics and classification of plasmids | Bioinformatics Institute

students: Ekaterina Vostokova, Pavel Vychik
supervisor: Mikhail Rayko

Slides
GitHub
Investigate an approach for plasmid systematics based on Rep-protein sequence, and develop the automatized pipeline for newly sequenced plasmid classification.
Molecular mechanisms behind the life cycle evolution and speciation in hydroids of the Arctic region | Bionformatic institute, Saint Petersburg State University, Moscow State University, N.K. Koltsov Institute of Developmental Biology

student: Polina Guro
supervisors: Lavrenty Danilov, Stanislav Kremnyov

Slides

The molecular mechanisms of speciation in hydroids have never been studied, neither has the relationship between the evolution of the life cycle and speciation ever been considered. The hydroid Sarsia lovenii was chosen as the object. Recently, in S. lovenii, breeding season polymorphism has been found to be associated with life cycle polymorphism. Colonies of one morph produce normally developed free-floating medusas, while colonies of the second morph produce attached gonophores - medusoids. The morphs identified represent phenological populations: in the example of S. lovenii, we can observe the initial stage of sympatric speciation. Thus, due to the object we have chosen, we can study the molecular mechanisms of speciation associated with the divergence of sympatric populations in breeding time and associated with the evolution of the life cycle.
Search for human proteins capable to co-aggregate with SARS-CoV-2 proteins | SPbSU

student: Evgeniia Sevasteeva
supervisor: Stanislav Bondarev

Slides
GitHub
To assess the probability of developing human amyloidosis as a result of coaggregation with SARS-CoV-2 proteins. To solve this problem, the AmyloComp program should be used, developed in SPbSU laboratory together with the A.V. Kayava group (University of Montpellier, France).
Studying complex structural variations in cancer using long reads | NIH / NCI

student: Olga Kalinichenko
supervisor: Mikhail Kolmogorov

Slides
GitHub
Cancer is driven by genomic changes. Small-scale mutations have been extensively catalogued across various types of cancer using short-read sequencing data. However, it is more difficult to detect large and complex structural rearrangements due to read mapping ambiguities. In this project, we will use long-read sequencing to explore the complex genomic changes in cancer genomes. The approach will build on our experience in computational genomics, graph algorithms and de novo assembly.
Integration of the ADASTRA database as a novel annotator module in the OpenCRAVAT pipeline | IITP RAS

students: Stepan Kuznetsov, Mikhail Fofanov, Andrey Suponin
supervisor: Artem Kasyanov

Slides
GitHub
Development of an annotator and widget and integration into the open-cravat system.
Age in gene regulatory networks | SciLifeLab, Stockholm University

student: Yuliya Burankova
supervisor: Erik Zhivkoplias

Slides
GitHub
The wide availability of system-level gene expression datasets gave rise to a variety of reverse-engineering methods that aim to reconstruct the hidden regulatory gene-gene and gene–protein relationships. Such relationships form a gene regulatory network (GRN) that controls the organismic response to changes in the environment. The GRNs we know are the result of a long biological evolution. With the phylogenomic analysis, it is possible to classify genes based on the oldest species that carry orthologous gene. For protein-protein interaction networks in yeast and human, it was shown that proteins of the same age tend to interact more. The goal of this project is to explore if gene interaction preference for genes with similar age holds in gene regulatory networks, in particular in those that describe direct regulatory interaction (transcription factor-target gene).
Analysis of 5'-isomiR targeting | National Research University HSE

student: Alexandra Gorbonos
supervisor: Stepan Nersisyan

Slides
GitHub
MicroRNAs are short non-coding RNA molecules that post-transcriptionally regulate gene expression. MicroRNA expression has been shown to play an important role in various pathologies, including various types of cancer. Studies have shown that there is variability in the nucleotide sequences at the 5'- and 3'-ends of mature miRNAs - miRNA isoforms. The project analyzes targets of miRNA isoforms in 31 cancers based on mRNA and miRNA sequencing data from The Cancer Genome Atlas (TCGA) project, and proposes a method for assessing the activity of miRNA isoforms.
Analysis of RecQ involvement in primed adaptation in the type I-E CRISPR-Cas system of Escherichia coli | Skoltech

student: Anna Shiriaeva
supervisor: Konstantin Severinov

Slides

Analysis of primed adaptation efficiency and prespacer generation efficiency in cells with the recQ deletion.
Benchmark creation for drug-target interaction (DTI) prediction task | JetBrains Research

student: Dmitrii Traktirov
supervisor: Ellen Kartysheva

Slides
GitHub
Drug-target interaction prediction (DTI) task plays an important role in the drug discovery process, which aims to identify new drugs for biological targets. Automation of prediction will speed up the process of creating new drugs. Now there are many machine learning models that solve this problem, however, due to the presence of a huge number of different datasets and testing protocols, it is difficult to compare different models with each other. And so one unified benchmark is needed.
Domain based burden analysis in PD genes | McGill

student: Artem Kosmin
supervisor: Konstantin Senkevich

Slides
GitHub
1) Prepare a list of domains with chromosome position-reference for each PD causing gene (Around 20 familiar plus 80 GWAS). 2) Write script for domain based burden analysis, QC script was prepared during the previous project 3) Project will be done using Terra cloud. Knowledge of R, awk, Linux will be helpful.
Improving Quality of Epitope Mapping by Deep Learning Methods | JetBrains Research

student: Simon Tsirikov
supervisor: Natalia Zenkova

Slides
GitHub
The task of epitope mapping is to determine the region on the surface of the antigen – a specific type of protein recognized by the organism as malicious – to which an antibody – a special protein produced to destroy the antigen – will attach. To reduce the cost and increase the speed of drug development, computer modeling of this process is used. Existing models cope well with the task when the input is a complex of an antigen and an antibody, but if there are no assumptions about a possible antibody, there is need to work only with an antigen. For this formulation of the problem, previous researchers have maximized the value of the recall metric, while the proposed model, built using the Transformer architecture, gives a higher value of the precision metric, which is more relevant for applied tasks.
Metagenomic analysis of diversity and properties of bacterial communities of White Sea sponges | IGB RAS, Skoltech

student: Anastasiia Rusanova
supervisors: Dmitry Sutormin, Svetlana Dubiley

Slides
GitHub
Sponges (phylum Porifera) form symbiotic relationship with the community of microorganisms. Sponges and their symbionts produce various pharmacologically active substances. These communities differ in taxonomic composition from those of the surrounding seawater. Metagenomic analysis of the microbiome allows to find out the taxonomic diversity and properties of the microbial community. We investigated potential bacterial symbionts of our sponges to found out their specific symbioyic features.
Potential cancer dependencies in the context of LKB1 loss in non-small cell lung cancer (NSCLC) | Clarivate

student: Tatiana Kikalova
supervisor: Aliaksei Holik

Slides
GitHub
One of the characteristics of NSCLC is a loss of the tumor-suppressor kinase LKB1 (liver kinase B1). LKB1 is known for its ability to induce apoptosis, regulate cell polarity and differentiation and suppress the growth, invasion, and metastases of tumor cells. Although the inhibition of tumor-suppressors, such as LKB1, gives an advantage in avoiding the apoptosis, is also affects the normal pathways and thus the tumor cells have to rely on alternative means (ways) of survival. This gives us an opportunity to identify effective targets in these alternative pathways that we can inhibit and by this affect only tumor cells without damaging normal tissues.
Prediction of pathogenicity of genetic variants in Kozak sequences | Bioinformatics Institute, Research Center of Medical Genetics

student: Marianna Baranovskaia
supervisors: Yury Barbitov, Michail Skoblov

Slides
GitHub
Kozak sequence is a consensus nucleotide environment of the start codon in the most of the eukaryotic mRNAs, involved in the translation initiation. Kozak sequence can be different in different mRNAs and is was reported that different Kozak sequences influenced the translation level differently. In 2014, collective of scientists has published the data of direct measurement of translation level for every possible Kozak sequence containing classic AUG start codon and computed the model of influence of the particular nucleotides on particular position in the Kozak sequence on the translation efficiency. It is known that human genome has a lot of variable positions and some of them are annotated as related with some diseases, some of them are referred as benign but the significance of some other genetic variants is uncertain for now. If the variant is located in the protein-coding secuence or other well studied sequence, it can be easy to predict the effect of such variant but if is is located in non-coding sequence the prediction becomes more unreliable. In this project we have tried to combine the data of Kozak sequence efficiency and genetic variants located in the Kozak sequences to predict possible pathogenicity of such variants to improve medical genetic analysis.
Studying the alternative ORFs in genes associated with neurological and psychiatric diseases | McGill

student: Eduard Akhmetgaliev, Ekaterina Kershinskaya
supervisor: Konstantin Senkevich

Slides
GitHub
OpenVar is the first tool for genomic variant annotation and functional effect prediction supporting deep open reading frame (ORF) annotation and polycistronic annotation of Human, Mouse, Rat and Fruit fly transcripts. OpenVar builds on the well-known and extensively used SNPEff tool (Cingolani et al., 2012), but also offers the possibility to predict variant effect in alternative ORFs as defined in OpenProt (Brunet et al., 2019). The aim of the project is to analyze data from OpenVar results for 16 VCF with GWAS SNPs associated with 7 neurological and 9 psychiatric disorders to make a list of SNPs that are nonpathogenic in the canonical ORF along with altering the alternative ORF with moderate/high impact and affecting expression in brain tissues as candidates for future functionality studies.
Осень 2020
Весна 2021
Лето 2021
Основные результаты проектов летних стажировок 2021 доступны в презентации
Identification and comparison of somatic antigen structures of bacteria from Providencia genus | SCAMT

студент: Анна Рыбина, Анна Чуркина
руководитель: Polina Kuchur
Данная работа является продолжением весеннего проекта.

Git
Слайды
Generation of molecules with graph & text deep fusion learning | JetBrains

студент: Oleg Vavulov
руководитель: Alisa Alenicheva
Проект посвящен de novo генерации молекул с заданными свойствами с помощью моделей глубокого обучения, совместно использующих строковое и графовое представления молекул.

Слайды
Adding the moments.LD engine to GADMA | ITMO

студент: Iliutkin Stanislav
руководитель: Ekaterina Noskova
GADMA - это программа для автоматического вывода и симуляции демографических историй популяций. Она использует различные python библиотеки (движки) для симуляции моделей, а оптимизация параметров реализуется с использованием генетического алгоритма. Имеющиеся в GADMA движки работают с использованием аллель-частотного спектра. В библиотеке moments, использующейся как один из доступных для работы движков, имеется поддержка работы с LD статистиками, которая не была реализована в GADMA. Целью стажировки являлось добавление поддержки движка momentsLD в GADMA. В ходе работы была изучена работа библиотеки moments.LD, она была добавлена в GADMA, новый код был сопровожден тестами, проведены несколько тестовых запусков и написана сопроводительная документация.

Git
Слайды
Age-related changes in transposons methylation | JetBrains

студент: Daria Khaleneva
руководители: Oleg Shpynov, Roman Chernyatchik
Проект посвящён поиску взаимосвязи между возрастом людей и уровнем метилирования ретротранспозонов. В задачи входил анализ актуальной литературы по теме исследования, разбор и воспроизведение результатов избранных статей. Затем полученные навыки применялись для новых данных о метилировании в моноцитах у 20 молодых и 20 пожилых доноров. В результате были обнаружены ретротранспозоны, метилирование которых с возрастом значимо изменялось, однако однозначной взаимосвязи со старением выявлено не было.

Слайды
Основные результаты проектов весеннего семестра 2021 доступны в презентации
Adding context to nonsense: analysis of sequence properties at pLoF variant sites | Bioinformatics Institute

студент: Артем Иванов
руководитель: Yury Barbitoff
Large-scale human genome variation datasets such as gnomAD allow researchers to have a closer look at the landscape of genetic variants and mutation rates across the genome. Nonsense variants, i.e. variants leading to the emergence of premature stop codons in a reading frame, are particularly interesting as many of such variants are linked to inherited disorders. It is widely acknowledged that, despite the fact that gnomAD contains mostly healthy individuals, a heavy byrden of nonsense vairants in disease-linked genes is present in the data. Some of these variants are not genuine loss-of-function variants as they affect minor transcriptional isoforms and/or functionally dispensable parts of the gene. At the same time, it is interesting to look into the sequence context of nonsense variants in gnomAD to see if the codon usage near nonsense variant sites differs from the rest of the genome, and if it may favor nonsense suppression. In this project we will try to make such an analysis.

Git
Слайды
Analysis of transcriptome signatures of patients with heart failure and with myopathy | ФГБУ «НМИЦ им. В. А. Алмазова» Минздрава России

студент: Маргарита Комарова
руководитель: Оксана Иванова
Aim: investigate the transcriptome of HF patients and compare these results with the same experiment performed in Almazov Centre.
Objectives:
Read the article Caspi et.al. "Unique Transcriptome Signature Distinguishes Patients With Heart Failure With Myopathy"(2020).
Reprocess RNA-seq data from it using STAR, featureCounts and DESeq2.
Investigate signal pathways (GSEA) and compare them with result gotten in the same experiment in Almazov Center

Git
Слайды
Are polyproline motifs evolutionary conserved? | Technical University of Munich

студент: Кругликов Роман
руководитель: Marina Parr
Translation of consecutive prolines causes ribosome stalling. Polyproline motifs are presented in about one third of E.coli proteins. The exact role of these motifs is not clear. In this project we suggest performing the evolutionary analysis of these motifs in the nucleotide and protein sequences from E.coli.

Git
Слайды
Bioinformatics analysis of E3 ubiquitin ligase family | Skoltech

студенты: Дарья Андреева, Александр Петров, Иван Пьянков, Анна Шемякина
руководитель: Petr Popov
Proteolysis-targeting chimeras (PROTACs) and related molecules that induce targeted protein degradation by the ubiquitin-proteasome system represent a new therapeutic modality and are the focus of great interest, owing to potential advantages over traditional occupancy-based inhibitors with respect to dosing, side effects, drug resistance, and modulating ""undruggable"" targets.
However, the technology is still maturing, and the design elements for successful PROTAC-based drugs are currently being elucidated. Importantly, fewer than 10 of the more than 600 E3 ubiquitin ligases have so far been exploited for targeted protein degradation, and expansion of knowledge in this area is a key opportunity.

We have two projects related to molecular modeling and structure-based analysis of E3 ligases.

Git
Слайды
Building complex biological networks with structural properties | SciLifeLab, Stockholm University

студент: Олег Вавулов
руководитель: Erik Zhivkoplias
The Sonnhammer group has extensive experience in gene regulatory networks (GRN) inference and has developed several algorithms to improve the reliability of the GRNs inferred from perturbation-based data. GeneSpider package includes a set of inference methods and data generation module, which is used for GRN inference benchmarking with controlled network and data properties. Accessing the properties of real networks remains to be a great challenge in systems biology.

Git
Слайды
Comparative analysis of methods for batch correction in proteomics | SPbU

студент: Катерина Данько
руководитель: Lavrentii Danilov, Arseniy Lobov
The data are presented as an Excel table with the expression intensities of the identified proteins, after processing the data in MaxQuant. Raw data of LC-mass-spectrometric analysis on the Q-Exactive instrument are also available. The aim of the study is to search for differences in the molecular mechanisms of osteogenic differentiation between cells from sick and healthy donors. For this, cells from different patients were cultured in control and osteogenic differentiation. Then the total protein was isolated and analyzed using shotgun proteomics - chromatography-mass spectrometric analysis of tryptic peptides.
The data consists of two runs of mass spectrometric analysis with a difference of one year - two series of patients.

Git
Слайды
Developing best practices for single-cell analysis: data integration | ImmunoMind Inc.

студенты: Даниил Литвинов, Максим Сердаков
руководитель: Vasily Tsvetkov
Single-cell sequencing is paving the way for precision medicine. It is the next step towards making precision medicine more accurate. However, the analysis of single-cell data is incredibly complex with numerous distinct approaches resulting in more than 500 Python and R libraries existing today.
The goal of this project is to tackle the complexity of data analysis by identifying the best approaches. The single-cell transcriptomics analysis has multiple steps, but we will focus on data integration – a crucial step when working with clinical data coming from patients.
Successful students will study the most popular tools for data integration, including ComBat, Harmony, MNN and others. They will mine the public databases to collect high-quality single-cell datasets and develop a benchmark to evaluate the efficacy, time and memory requirements of popular tools. In the end they will contribute to the development of the golden standard for single-cell data analysis.
Students will have access to high-performance computing servers to analyse big single-cell data. They will be working alongside skilful bioinformaticians and their results will be impactful both for the company and scientific community worldwide.

Git
Слайды
Evaluation of DNA Methylation Episignatures workflow | Technical University of Munich

студент: Евгения Хохлова
руководитель: Дмитрий Смирнов
An expanding number of genetic disorders have been shown to have unique genomic DNA methylation patterns (called "episignatures"). Peripheral blood episignatures can be used for diagnostic testing as well as for the interpretation of ambiguous genetic test results. This project aims to develop a standardised workflow to generate and validate episignatures.

Git
Слайды
Fine mapping of SCARB2 and CTSB genes in Parkinson's disease | McGill

студент: Дарья Никанорова
руководитель: Ziv Gan-Or
Aim:
Pinpoint causal SNPs in PD GWAS data for further functional analysis
Objectives:
Annotation of GWAS summary statistic data
Summary-based Mendelian randomization
Colocalization analysis
FINEMAP
SUSIE
FGWAS

Git
Слайды
Identification and analysis of SARS-CoV-2-specific T-cell receptors | Institute of
Bioorganic Chemistry


студент: Артем Ершов, Андрей Соболев
руководитель: Mikhail Shugay
Our recent results demonstrate that T-cell receptor (TCR) repertoire can be utilized as a useful biomarker for deducing past and current infections of an individual, as well as monitoring vaccination efficiency.
In one of our latest studies, we were able to detect T-cell response in COVID-19 cases and demonstrated that it is more reliable than conventional tests.
Moreover, we were able to identify certain TCRs that are targeting specific antigens of SARS-CoV-2. The aim of this project is to provide a follow-up to several recently published studies, identify a set of TCRs that can serve as COVID-19 biomarkers and develop machine learning methods that can associate individual TCR repertoires with COVID-19 status.

Git
Слайды
Identification and comparison of somatic antigen structures of symbiotic and pathogenic bacteria from Morganellaceae family | SCAMT

студент: Анна Рыбина, Анна Чуркина
руководитель: Polina Kuchur
Practice shows that among plant symbiont bacteria, conditional pathogens and, then, pathogens emerge over time. We wondered whether the structure of their somatic antigens differs and, if so, in what waу? We have already found something similar in representatives of the genus Herbaspirillum and we wonder whether something similar will be found in representatives of other genera.
Why exactly o-antigens? These are the distal part of lipopolysaccharides; hence, they are involved in the interaction between the bacterium; the environment (including plants and animals). Since the nature of the interaction changes, it means that the o-antigen can undergo changes as well. The question is: which ones?

Git
Слайды
Shared biologic architecture between Parkinson's disease, dementia with Lewy bodies and inflammatory disorders | McGill

студент: Ектерина Чернявская
руководитель: Konstantin Senkevich
Поиск общей генетической архитектуры и специфических общих маркеров между заболеваниями, с использованием данных сводной статистики полногеномных ассоциативных исследований. Проведение полнотранскриптомного анализа ассоциаций и выявление генов с перекрытием экспрессии между заболеваниями.

Git
Слайды
Studying role of rare variants in lysosomal and mitochondrial genes on whole genome sequencing data of Parkinson's disease patients | McGill

студент: Алексей Ермолаев
руководитель: Konstantin Senkevich
Цель: Проведение анализа редких вариантов в лизосомных и митохондриальных генах, пользуясь данными полногеномного сиквенса (WGS). Все результаты полученные в данном проекте будем использовать в нескольких статьях, как репликативные данные выполненного сиквенса.

Git
Слайды
Transcritptomics and small RNAome responses to the infection by phytopathogenic fungi: an analysis in the wild model legume Medicago truncatula infected by Verticillium alfalfae | Skoltech

студент: Алексей Замалутдинов
руководитель: Laurent Gentzbittel
Plants continuously have to cope with attacks from pathogens or pests. Although in most cases these attacks are efficiently encountered by the plants' natural defense mechanisms, plant disease is still a major constraint in agricultural productivity.
We intend to explore resistance and defense mechanisms against Verticillium wilt, a major soil-borne root pathogen of plants, and more generally to gain knowledge on the molecular mechanisms involved in Quantitative Disease Resistance in plants. Our model species is Medicago truncatula, a wild species developped as a model species for legumes - the second most important plant family that produces most of proteins for feed and food (soybean, beans, peas, alfalfa)
The data constitutes in data from RNA-seq experiments of resistant or susceptible plants infected or not by a soil pathogen ( Verticillium alfalfae) and of sRNA-Seq data of the same samples. A time-course analysis of three typical stages of the diseases onset was realised.
The goal of the project is to reveal differentially expressed genes (DEGs) of both protein-coding genes (mRNAs) and genes encoding small regulatory RNAs, in particular miRNAs.

Git
Слайды
Вывод коэффициентов инбридинга в GADMA | ITMO University

студенты: Станислав Илюткин, Антон Сидорин
руководитель: Екатерина Носкова
Демографические истории популяций - это история эволюции популяций, которая включает в себя такие параметры как время разделения, размеры популяций, коэффициенты миграций и отбора. По генетическим данным возможно восстановить такую историю.
Использование полногеномных данных - вычислительно сложная задача, поэтому прибегают к различным статистикам и успрощениям. Dadi - реализация одного из наиболее популярных методов вывода параметров демографической истории по статистике, называемой аллель-частотным спектром. В 2019 году в dadi добавили возможность вывода коэффициентов инбридинга.
Мы разрабатываем алгоритм автоматического вывода демографической истории по аллель-частотному спектру - GADMA. Он использует dadi и еще один метод moments для симуляций, а оптимизация проводится с помощью генетического алгоритма. Требуется внедрить коэффициенты инбридинга dadi в GADMA и провести анализ эффективности полученной реализации на данных из статьи.

Git
Слайды
Изучение возрастных изменений метилирования на участках активной репликации ДНК человека | JetBrains Research

студенты: Екатерина Кириллова
руководитель: Роман Чернятчик
Как известно, репликация ДНК эукариот начинается одновременно на разных участках цепи ДНК, такие участки называются "replication origins". Согласно опубликованным данным, участки инициации транскрипции связаны с состоянием хроматина и могут быть интересны с эпигенетической точки зрения. Проект посвящен изучению таких участок ДНК в контексте их связи с метилированием ДНК и старением человека.

Git
Слайды
Исследование особенностей микробиома больных метастатическими солидными опухолями и получающих терапию современными иммунотерапевтическими препаратами | ФГБУ ДНКЦИБ ФМБА России

студенты:
Карина Согомонян, Дарья Купаева
руководитель: Сергей Сидоренко
Злокачественные опухоли являются существенной медицинской и социальной проблемой. Наличие отдаленных от первичной опухоли очагов – метастазов, практически всегда определяет неизлечимую стадию заболевания. Из имеющихся на настоящий момент методов противоопухолевой терапии, только самый новый – иммунотерапия, позволяет достичь у небольшой части пациентов длительного эффекта.
Микробиом представляет отдельную «экосистему» в организме носителя, которая находится в тесном взаимодействии с организмом хозяина. Среди функций, на которые оказывает влияние качественный и количественный состав микрофлоры энергетический гомеостаз и функционирование центральной нервной системы, активность врожденного и особенности приобретенного иммунитета. Как следствие такого плотного взаимодействия, микроорганизмы могут оказывать влияние на возникновение и течение многих патологических состояний организма, среди которых и возникновение злокачественных опухолей. Эффективность и токсичность практически всех из применяемых видов противоопухолевой терапии находится во взаимодействии с микробиомом. Так, показана связь между отдельными особенностями микробиоты кишечника и высокой эффективностью иммунотерапии у пациентов с меланомой, уротелиальными опухолями, раком легкого.
В рамках инициативной части проекта были получены данные о составе и характеристиках микробиома 50 больных немелкоклеточным раком легкого. Описаны клинические характеристики, а также непосредственные (частота объективных ответов) и отдаленные (время до прогрессирования и общая выживаемость) результаты лечения для включенных в исследование пациентов.

Git
Слайды
Поиск параллельных адаптивных замен у высокогорных грызунов | ЗИН РАН

студент: Дарья Халенева
руководитель: Ольга Бондарева
В процессе независимых адаптаций к высокогорью у грызунов могли возникнуть схожие аминокислотные замены, которые помогают выживать в условиях гипоксии и измененного давления. Цель проекта - провести сравнительный анализ транскриптомов для поиска сходных молекулярных адаптаций грызунов к высокогорью.

Git
Слайды
Поиск сайта инсерции бетагерпесвируса человека 6А в хромосому человека| ФГБУ ДНКЦИБ ФМБА России

студент: Игнат Сонец
руководитель: Ольга Голева
Показано, что бетагерпесвирус человека 6 типа (ВГЧ-6) может интегрироваться в теломеры хромосом клетки-хозяина.
Хромосомно-интегрированная форма вируса (хиВГЧ-6) встречается в человеческой популяции до 1,5% случаев и может наследоваться от одного или обоих родителей детям. Места интеграции четко не определены, хотя предполагают, что вирусная интеграция происходит преимущественно в определенных хромосомах.
Существуют данные о возможности реактивации интегрированного в хромосому человека ВГЧ-6 в течение жизни у инфицированных.
Подтверждение реактивации хиВГЧ-6 с развитием активного инфекционного процесса будет важным фактором при решении вопроса о необходимости назначения этиотропной терапии.
В ФГБУ ДНКЦИБ ФМБА России изучается клинический случай постоянного выделения в неизменных концентрациях из крови и соскоба ротоглотки ДНК ВГЧ-6А у пациента клиники 6 лет, госпитализированного по поводу ринофарингита, а также у обследованных членов его семьи (старшего брата и отца), не предъявлявших жалоб на состояние здоровье. Кроме того в секрете половых желез отца госпитализированного пациента также выявлена ДНК ВГЧ-6А.
Предполагается возможная хромосомная интеграция вируса в человеческую ДНК, переданная по наследству по отцовской линии детям, не вызывающая патологического процесса, что требует дальнейшего углубленного изучения.
Таким образом, исследование посвящено локализации сайта интеграции ВГЧ-6А в хромосому человека. Выполнено полногеномное секвенирование ДНК, полученной из биологических материалов отца (кровь, секрет половых желез) с помощью следующих технологий: Illulmina, BGI, Oxford Nanopore Technology.
Целью работы является гибридная сборка генома человека, предположительно содержащего интегрированный ВГЧ-6А.
Результаты могут быть актуальными для последующих уточняющих исследований (секвенирование по Сэнгеру, FISH-гибридизация)

Цель: выполнить гибридную сборку генома человека, предположительно содержащего хромосомно-интегрированный ВГЧ-6А с использованием данных секвенирования, полученных с помощью Ilulmina, BGI, Oxford Nanopore Technology

Git
Слайды
Поиск структурных вариаций для улучшения сборки немодельных геномов | University of La Verne

студенты:
Людмила Проценко, Александр Андреев
руководитель: Татьяна Татаринова
Частая задача биоинформатики - найти все варианты в геноме и оценить их фенотипическую значимость. Ситуация со снипами в одном виде относительно простая: даже короткие риды неплохо справляются с этой задачей. Небольшие indel - тоже не проблема. Но когда задача найти большие изменения между разными видами, в тысячу или сотни тысяч нуклеотидов, то короткие риды уже не совсем справляются. Часто такая задача решается путем выравнивания целых хромосом. При сравнении законченных геномов, например мыши и человека подобный подход работает. Представим более реальную задачу, особенно актуальную сейчас. Есть два или более родственных видов (например, африканская и американская масляничные пальмы). Геномы пока в контигах. В контигах есть неточности. Большое количество транспозонов. Как описать структурные отличия этих видов?

Git
Слайды
Предоперационная оценка резектабельности глиобластом. Разработка фенотипической шкалы оценки | СПбГУ

студент: Даниил Паншин
руководитель: Ирина Бабкина
Глиобластомы наиболее распространенные и агрессивные опухоли мозга. Плохо поддаются медикаментозному лечению и часто требуют операционных вмешательств. Разработан ряд шкал предоперационной оценки резектабельности опухолей, основанных на фенотипических признаках. Например, учитывается положение опухоли, наличие у пациента неврологических симптомов, возраст и т.д. Однако эффективность таких шкал на практике никто не проверял. Цель проекта: проверить эффективность трех шкал оценки и в случае их несостоятельности попробовать разработать свой метод предсказания.

Git
Слайды
Сборка гаплотипов при помощи гиперграфов | Университет ИТМО

студент: Елизавета Власова
руководитель: Никита Алексеев
Как известно, любой вирус при попадании в организм человека начинает очень быстро эволюционировать, что приводит к появлению в организме человека генома не только того вируса, который непосредственно попал туда, но и других гаплотипов этого вируса (геномов, отличающихся от исходного всего несколькими мутациями). Точное определение количественного и качественного состава в смеси гаплотипов -- очень важная на практике задача, поскольку от качества определения состава вируса в организме зависит продуктивность лечения.
Основная задача проекта - разработать алгоритм сборки гаплотипов, основанный на гиперграфах. В существующем алгориме вершиной в гиперграфе является SNP (закрепившееся отличие от референсного генома в один нуклеотид), а гиперребрами - набор ридов, соединяющих различные SNP в единую последовательность. К сожалению, текущий алгоритм не учитывает встречаемость ридов, поэтому теряет довольно большое количество информации о составе смеси. Необходимо доработать этот алгоритм, добавив возможность отслеживать встречаемость ридов на каждой позиции и использовать эту информацию для сборки.

Git
Слайды
Упорядочивание контигов с помощью Hi-C данных | Университет ИТМО

студент: Александра Иванова
руководитель: Никита Алексеев
Данный проект является продолжением проекта с прошлого семестра "Ориентирование контигов с помощью Hi-C данных". Результаты этого проекта показали многообещающие результаты применения Monte Carlo Monte Chain (MCMC) для скаффолднига геномов. В рамках текущего проекта хотелось бы, во-первых, провести анализ метода на полном геноме человека, а, во-вторых, попробовать расширить предыдущий метод добавив возможность переупорядочивания контигов. Итого, студенту предлагается улучшить ранее разработанный метод на основе MCMC и провести все стороннее сравнение с конкурентами (например GRAAL).

Git
Слайды
Результаты проектов осеннего семестра 2020 доступны в презентации
Assembly and analysis of Preeria caryophylla genome | СПбГУ

студенты: Даниил Паншин
руководитель: Юлия Яковлева
Бэкграунд: семейство Holosporaceae является семейством бактерий, которые паразитируют в ядре и/или цитоплазме инфузорий. Типовой представитель – бактерии рода Holopora, о геномах которых мы имеем некоторое представление. Preeria caryophylla является близким родственником рода Holospora, про геном который мы ничего не знаем, но хотели бы узнать. Полученное знание поможет нам понять закономерности эволюции данной группы бактерий и подсмотреть механизмы паразито-хозяинных отношений между Preeria caryophylla и ее хозяином.

Git
Слайды
Batch effect | Институт биоинформатики

студенты: Евгения Хохлова, Александра Иванова, Борис Егоров
руководитель: Лаврентий Данилов, Михаил Райко
Batch effect наблюдается, когда на результаты эксперимента влияют какие-то небиологические факторы, например разные запуски секвенатора или обработка контрольных и опытных образов по отдельности. Такие эффекты приводят к неточным выводам, если их причины коррелируют с интересующими результатами эксперимента.
В проекте проводится сравнение пакетов ComBat и Harmony, предназначенных для коррекции batch-эффекта, на данных RNAseq исследования дифференциальной экспрессии генов в различных тканях человека и мыши.

Git
Слайды
Detecting novel molecular events in proteomics data for genetic diagnostics | Technical University of Munich

студенты: Андрей Соболев
руководитель: Дмитрий Смирнов, Prokisch Holger
Применение таких омик, как транскриптомика и протеомика в диагностике редких генетических заболеваний человека набирает стремительные обороты и начинает входить в стандартную клиническую практику. Для приоритизации генов, мутации в которых вызывают заболевание у пациентов, в РНК-секвенировании применяется 3 подхода: 1) детекция аберрантной экспрессии генов, 2) аберрантного сплайсинга и 3) моно-аллельной экспрессии. На данный момент протеомика, в контексте данной задачи, нашла свое применение только для детекции аберрантной экспрессии белка. Однако, существует свидетельство того, что протеомные данные позволяют достоверно предсказывать уровень экспрессии белковых комплексов, а также отражают нарушения белок-белковых взаимодействий.
Также, одним из ограничений в применении протеомики является сниженный по сравнению с РНК-секвенированием уровень детекции генов. В связи с этим, существует необходимость в разработке и усовершенствовании методик, позволяющих отличать белки, которые не были детектированы в силу технических ограничений от белков, отсутствующих в образце по биологическим причинам.

Git
Слайды
GWAS analysis of region of genome associated with severe Covid-19 | Институт биоинформатики

студенты: Валерий Черанев, Анастасия Евдокимова, Дарья Гречишкина
руководитель: Лаврентий Данилов, Михаил Райко
Основная задача проекта — использование инструмента PLINK для GWAS анализа пациентов с тяжелой формой Covid-19. GWAS или полногеномный поиск ассоциаций позволяет искать взаимосвязи между фенотипом организма и набором SNP, делеций, вставок и других индивидуальных характеристик генома.
В проекте проведен анализ GWAS данных из двух статей и найдены SNP, связанные с тяжелым течением Covid-19.

Git
Слайды
Hidden biodiversity: search for uncultured protists in metagenomes | СПбГУ, ИНЦ РАН

студенты: Иван Пьянков, Игнат Сонец
руководитель: Юлия Яковлева, Михаил Райко
Бэкграунд: метагеномика позволяет выявить скрытое разнообразие некультивируемого живого и неживого на планете, в том числе одноклеточных существ (протистов). Существуют группы протистов, которые достаточно сложно изолировать из окружающей среды и еще сложнее культивировать. Обнаружение скрытых групп протистов и ранее неописанных представителей известных групп поможет нам больше узнать об их биоразнообразии, эволюции т.д.

Git
Слайды
Improve casual gene prioritization by patient's phenotype | Technical University of Munich

студенты: Никита Константиновский, Александра Примак
руководитель: Дмитрий Смирнов, Prokisch Holger
Одна из основных целей глубокого фенотипирования пациентов – усовершенствование анализа геномных данных для персонализированной медицины. В контексте редких заболеваний глубокое фенотипирование позволяет а) поставить корректный клинический диагноз (определить заболевание), б) на основе ранее опубликованных данных об ассоциации ген – набор фенотипов произвести приоритизацию генов. Применение единой номенклатуры для документирования фенотипов пациентов (HPO ontology) позволило разработать ряд методов для приоритизации генов. Однако эффективность данных методов на данный момент остается относительно низкой (AUC ~0.6). Можно выделить 2 основных подхода к повышению эффективности, в соответствии с которыми и были сформулированы 2 субпроекта:
Первый, "Phenotype-driven gene prioritization for rare diseases", основан на наличии уникального датасета ассоциаций пациент – ген – фенотип, позволяющего применять для решения данной задачи как методы машинного обучения, так и методы и алгоритмы теории графов.
Второй, "New line of evidence", основан на интегрировании новых данных, ассоциированных с зависимой и/или независимой переменной. В задаче приоритизации генов, наибольшую популярность получили методы фильтрации генов на основе информации о мутациях находящихся в них, что лишь искусственно завышает производительность. В данном субпроекте мы предлагаем проанализировать на сколько экспрессия РНК или белков может предсказать набор фенотипов пациента (Phenotype ~ expression) и могут ли эти данные быть использованы для повышения эффективности приоритизации генов.

Git: Примак, Константиновский
Слайды: Примак, Константиновский
In search of PET-degrading enzymes: metagenomes discover hidden homologues | Институт биоинформатики

студенты: Роман Шанин, Дарья Халенева, Полина Джелали, Владимир Пирогов, Григорий Буклей
руководитель: Михаил Райко, Лаврентий Данилов
Полиэтиленперефталат (PET) широко используется во всем мире в изделиях из пластика, и его накопление в окружающей среде стало глобальной проблемой. Поэтому остро встает вопрос разработки эффективной системы для переработки PET. В 2016-м в геноме бактерии Ideonella sakaiensis strain 201-F6 обнаружили ферменты PETаse и MHETase, споспобные гидролизовать PET до терефталевой кислоты и этиленгликоля (https://science.sciencemag.org/content/351/6278/1196). Задача проекта — найти в базах данных все известные ПЭТазы, посмотреть, в каких ещё организмах они обнаруживаются, проследить эволюцию, понять, где и когда она возникла.

Git
Слайды
Prediction protein sequences using machine learning approach | Skoltech

студенты: Камилла Файзуллина
руководитель: Петр Попов
Задача предсказания белковых последовательностей по известным пространственным структурам находит применение при изучении химических структур. В этом проекте используются структуры из Protein Data Bank. Поскольку обработанные и вокселизированные тензоры имеют большие размеры, использованы только короткие белки (до 80 аминокислотных остатков).В зоде проекта реализована трехмерную сверточную нейронную сеть с использованием фреймворка PyTorch.

Git
Слайды
Агентное моделирование распространения антибиотикорезистентности в популяции бактерий с учетом пространственных координат, рецепции питательных веществ и антибактериального агента | Институт биоинформатики

студенты: Максим Сердаков, Екатерина Кириллова
руководитель: Александр Ильин
Проект направлен на моделирование системы, позволяющей наблюдать динамику распространения устойчивости к антибиотикам с учетом некоторых факторов бактериальной популяции: перемещение бактерий за питательным веществом и его рецепция. Предположительно, скорость движения резистентных бактерий ниже. Чувствительные бактерии в модели размножаются с большей частотой. Такие параметры основаны на том факте, что устойчивость к антибиотикам является избыточной функцией клетки, когда в окружающей среде нет антибиотика. Изначально все бактерии в модели чувствительны к антибиотикам и могут стать устойчивыми только в результате случайных мутаций. Показано, что в результате трех волн распространения антибиотиков популяция выжила за счет распространения антибиотиков. Это четко иллюстрирует тот факт, что антибиотикорезистентность представялет серьезную проблему, потому что даже при появлении очень небольшого числа устойчивых бактерий, популяция никогда не умирает полностью под воздействием антибиотика.

Git
Слайды
Анализ дифференциальной экспрессии генов у немодельного гидроидного полипа Dynamena pumila | Институт биоинформатики

студенты: Дарья Купаева
руководитель: Лаврентий Данилов
В процессе развития организма формируются различные молекулярные паттерны, определяющие процессы дифференцировки клеток и формирования систем органов. Паттерны, ответственные за развитие, довольно консервативны среди различных групп организмов, и это представляет дополнительный интерес, поскольку одни и те же сигнальные пути могут привести к развитию сложной структуры организма у Hydrozoa. Рост и морфогенез гидроидных полипов происходит с помощью специализированного органа - кончика роста. В процессе морфогенеза он удлиняется и образует форму колонии. Проект посвящен анализу дифференциальной экспрессии генов для сравнения кончика побега и гидранта.

Git
Слайды
Анализ почвенных метагеномных образцов черневой тайги и зональной почвы | Институт биоинформатики

студенты: Алексей Зверев
руководитель: Лаврентий Данилов, Михаил Райко
Проект посвящен анализу двух почв — черноземной и региональной регулярной почвы. Используется по одному образцу для каждого вида почв, прочитанных Oxford Nanopore, и 10 библиотек 16S рДНК Illumina.

Git
Слайды
Анализ результатов исследования по переливанию конвалесцентной плазмы больным COVID-19 | ФГБУ «НИИ гриппа им. А.А. Смородинцева» МЗ РФ

студенты: Софья Лопатина, Алиса Родионова-Кравченко
руководитель: Оксана Станевич, Евгений Бакин
В течение новой коронавирусной инфекции иммунный ответ формируется особенным образом: антитела класса IgM появляются поздно, к 10-12 дню, и практически одновременно с IgG. Кроме того, появляется всё больше данных о том, что IgG держатся недолго и через какое-то время исчезают. Также, не очень ясно, связан ли уровень антител в крови с их нейтрализующей, то есть защитной, способностью. И вообще, так ли важны антитела при этой инфекции? Защищают ли они тех больных, кому перелили плазму от переболевшего? На эти и другие вопросы предстоит ответить в ходе проекта, используя полученные в ходе пандемии данные от реальных больных.

Git
Слайды
Аннотация метагеномов микробных целлюлолитических сообществ | Институт биоинформатики

студенты: Григорий Гладков
руководитель: Лаврентий Данилов, Михаил Райко
Микробные сообщества, способные разлагать целлюлозу на различных субстратах (солома, подстилка, опилки) просеквенированы по гену 16S SSU рРНК с использованием технологии Illumina. Кроме того, для каждого сообщества была проведена сборка на основе метагеномной последовательности, полученной по технологии Oxford Nanopore. Цель работы — выявление различий между микробными сообществами, метаболизирующими целлюлозу на разных субстратах из сборок ONT. Задачи работы: проведение de-novo биннинга, сравнение результатов с данными по 16S SSU рРНК и поиске специфичных для сообщества гликозидгидролаз.

Git
Слайды
Выявление молекулярных особенностей старения мезенхимальных стволовых клеток человека | Институт биоинформатики

студенты: Павел Дерябин
руководитель: Лаврентий Данилов
Сенолитические стратегии избирательного воздействия на стареющие клетки, которые являются основным фактором, опосредующим возрастные нарушения функционирования тканей и прогрессирование старения, представляют собой ключевую тенденцию в области терапии против старения. Недавно в качестве сенолитиков широкого спектра действия были предложены сердечные гликозиды. Показано, что сердечные гликозиды не способны проявлять сенолитическую активность по отношению к мезенхимальным стволовым клеткам человека различного происхождения. Проект направлен на сравнительный транскриптомный анализ развития развития старения в клетках, чувствительных к сердечным гликозидам и нечувствительный мезенхимальных клетках человека с целью идентифицировать специфические молекулярные характеристики старения стволовых клеток, лежащие в основе их устойчивости к сенолизу, опосредованному сердечными гликозидами.

Git
Слайды
Заболеваемость и выживаемость пациентов с раком пищевода в России | Институт биоинформатики

студенты: Дарья Андреева
руководитель: Лаврентий Данилов
Рак пищевода занимает восьмое место по распространенности в мире и шестое место среди причин смертности от рака. Цель данного проекта — анализ изменений динамики заболеваемости и смертности от рака пищевода с использованием данных Российского государственного онкологического реестра.

Git
Слайды
Изучение транскриптома в момент интенсивных нагрузок в условиях высокогорья | Медико-генетический центр Сербалаб

студенты: Даниил Литвинов, Екатерина Чернявская
руководитель: Анна Маслова, Андрей Глотов
Исследование индивидуального транскрипционного ответа 19 спортсменов на физический и психологический стресс до и после физических беговых нагрузок по природному рельефу в экстремальных условиях высокогорья (2450-3450 м г. Эльбрус), а также в «нулевой» точке до приезда на соревнования (Санкт-Петербург).

Git
Слайды
Моделирование гибридизации ДНК-пробы с мишенью в методе Tyramide-FISH | Институт биоинформатики

студенты: Алексей Ермолаев
руководитель: Александр Ильин
Метод флуоресцентной гибридизации in situ (FISH) был разработан для визуализации определенной последовательности ДНК на физической хромосоме. Однако чувствительность FISH для обнаружения последовательностей однокопийной ДНК была ограничена, особенно для сильно уплотненных хромосом растений. Сверхчувствительный метод, получивший название Tyramide-FISH, был адаптирован для цитогенетики растений. Tyramide-FISH в основном используется для визуализации небольших мишеней — генов или маркеров. Часто гены включаются в семейства генов, и сложно создать зонд для визуализации только одного члена мультигенного семейства. Метод Tyramide-FISH показал, что включение интрона в зонд позволяет нам визуализировать конкретный ген из мультигенного семейства. Проект посвящен анализу влияния разных интронов на специфичность гибридизации. Специфичность гибридизации метода Tyramide-FISH определяется строгостью, которая ограничивает процент совпадений и несоответствий между зондом и нуклеиновой кислотой-мишенью, которые могут иметь место, не нарушая образования гибрида двойной спирали. Чаще всего используется порог 80%. В проекте создана симуляцию процесса гибридизации и рассчитан ряд различных результатов с использованием метода Монте-Карло. Моделирование показало, что даже один фрагмент интрона в зонде приводит к уменьшению числа событий гибридизации с мутированной мишенью без влияния на количество событий гибридизации с реальной мишенью.

Git
Слайды
Моделирование межклеточных взаимодействий на основе single cell RNA-seq данных| Systems Biology Ireland, University College Dublin

студенты: Сергей Тихомиров, Никита Шараев
руководитель: Вадим Жерновков
Быстрый прогресс в развитии технологий секвенирования следующего поколения (NGS) в последние годы дал много полезных сведений о сложных биологических системах. Технологии NGS в области геномики, транскриптомики и эпигеномики в настоящее время все в большей степени ориентированы на определение характеристик отдельных клеток. Метод single cell RNA-seq, например, может выявить сложные и редкие популяции клеток, выявить регуляторные связи между генами и проследить траектории развития отдельных линий клеток. Задачей данного проекта является анализ сети межклеточных взаимодействий используя single cell RNA-seq данные и базы данных лиганд-рецепторных взаимодействий.

Git
Слайды
Моделирование мутаций в S-белке SARS-Cov-2 | СПбГУ, Институт биоинформатики

студенты: Евгения Стребулаева, Кирилл Варченко, Мария Акаменкова, Олег Вавулов, Анна Шемякина
руководитель: Андрей Золотарев, Лаврентий Данилов
В рамках проекта предлагается взять готовую кристаллическую структуру RBD домена Spike S белка вируса SARS-Cov-2 в комплексе с ACE2 (основная мишень вируса в организме человека - ангиотензин-превращающий фермент), содержащуюся в базе PDB.
После знакомства с основами визуализации трехмерных структур в PyMOL, студентам будет предложено детально рассмотреть интерфейс взаимодействия двух белков и предположить мутации по каким аминокислотным остаткам Spike S- белка могут увеличить афинность данного взаимодействия.
При помощи FoldX в структуру белка будут внесены соответствующие мутации, после чего в данной же программе будет произведен перерасчет трехмерной структуры комплекса в заданном силовом поле. (будет взято поле, предлагаемое разработчиками foldX, но при наличии желания и времени можно будет попробовать и другие силовые поля).
Полученную структуру с повышенной афинностью к ACE2 будет предложено протестировать на силу взаимодействия с лекарствами из списка FDA approved (лекарства из данной базы протестированы клинически, а потому интересны тем, что их их введение в эксплуатацию может быть произведено очень быстро. Также таким методом можно сузить область поиска потенциального конкурентного ингибитора до определенного класса веществ) http://zinc.docking.org/substances/subsets/fda/?page=1

Git
Слайды
Ориентирование контигов с помощью Hi-C данных | Университет ИТМО, The George Washington University

студенты: Антон Фонин, Артем Иванов
руководитель: Никита Алексеев, Павел Авдеев
Благодаря появлению технологий секвенирования третьего поколения (таких как PacBio и Oxford Nanopore) произошла очередная революция в сборке геномов. Разработка алгоритмов использующих такого типа данные в последние годы привела к тому что сегодня можно рутинно получать сборки геномов уровня, который 10 лет тому назад требовали неимоверных усилий нескольких университетов. В данном проекте предлагается поработать с другим типом данных, а именно с Hi-C данными. Существующие алгоритмы скаффолдинга (такие как SALSA2 и 3D-DNA) с помощью Hi-C данных в целом делают хорошую работу по упорядочиванию контигов. Однако, данные сборки содержат значительное число ошибок ориентации контигов (когда контиг находится на правильной позиции, но имеет не правильную ориентацию). На данный момент, такие ошибки обычно корректируются вручную. Несколько месяцев назад был предложен первый алгоритм - HiC-Hiker [8], который адресует данную проблему. Авторам удалось добиться улучшения результатов. Однако, метод был протестирован на сборках из технологий второго поколения и полагается на сборки полученные с помощью метода 3D-DNA (данный метод имеет проблемы со сборкой геномов из данных третьего поколения). Также HiC-Hiker не использовал всю информацию предоставляемую сборщиками, а именно графы сборки. Поэтому существует возможность методологического улучшения. В рамках проекта предлагается разработать метод, который использовал бы оптимизационный алгоритм (например, метод имитации отжига или Monte Carlo Monte Chain), для ориентации контигов.

Git: Фонин, Иванов
Слайды: Фонин, Иванов
Оценка фактора экзоцитоза Виллебранда эндотелиальными клетками в ответ на различные стимулы | Институт биоинформатики, ИБР им. Кольцова РАН

студенты: Александра Цитрина
руководитель: Лаврентий Данилов, Павел Авдонин
Эндотелиальные клетки выстлают поверхность кровеносных и лимфатических сосудов и регулируют многие аспекты физиологии человеческого тела. Основные функции эндотелиальных клеток — контроль свертывания крови, а фактор фон Виллебранда (vWF) является одним из основных белков в этой реакции. При специфической стимуляции эндотелиальные клетки высвобождают vWF посредством экзоцитоза из специфических запасающих органелл — телец Вейбелла-Паллады. После экзоцитоза vWF может образовывать мультимерные структуры — «нити» на поверхности ЭК. Эти структуры активируют агрегацию тромбоцитов и инициируют образование тромбов. Недавно активные формы кислорода (АФК) были признаны вторичными посредниками вместе с Ca2 + и цАМФ. Из всех АФК H2O2 является лучшим кандидатом на такую роль благодаря своим молекулярным свойствам. H2O2 — мягкий относительно стабильный окислитель, хорошо растворимый в липидах. Существует два основных источника клеточной H2O2: супероксиддисмутаза и NADPH-оксидаза NOX4, внеклеточно H2O2 может генерироваться во время активации тромбоцитов, моноцитов и нейтрофилов. Влияние H2O2 на высвобождение vWF из эндотелиальных клеток неизвестно. Цель данного проекта — оценить влияние воздействия H2O2 на высвобождение vWF из эндотелиальных клеток по сравнению с гистамином и тромбином, хорошо известными агонистами секреции vWF.

Git
Слайды
Поиск запрограммированных сдвигов рамки считывания в геномах бактерий рода Streptomyces | ФИЦ Биотехнологии РАН

студенты: Александр Миленькин, Александр Петров
руководитель: Иван Антонов
Основным направлением данного проекта является поиск генов бактерий рода Streptomyces, использующих запрограммированный сдвиг рамки считывания (ПСРС). Группой Джона Аткинса недавно было показано, что редкий кодон UUA может вызывать рибосомальный обход (translational bypassing) относительно длинного участка мРНК. В настоящее время имеются убедительные доказательства того, что такой трансляционный обход используется фагом Streptomyces в качестве датчика физиологического состояния его клетки-хозяина и эффектора того, входить ли в литическое состояние профага (Smith et al., 2013; O'Loughlin и др. не опубликовано). Вопрос, который необходимо решить, заключается в том, может ли подобный механизм обхода использоваться в экспрессии клеточных генов Streptomyces. В предлагаемом проекте биоинформатический анализ будет сопровождаться экспериментальным анализом. Следует отметить, что благодаря высокому содержанию GC, виды Streptomyces не экспрессируют родственный тРНК UUA на ранних и вегетативных стадиях роста, а только экспрессируют такую тРНК на поздней стадии развития. Существуют убедительные доказательства того, что в клеточном вегетативном состоянии отсутствие тРНК для кодона UUA вызывают эффект «голодного кодона», что приводит к паузе во время трансляции последующему трансляционному обходу (Smith et al., 2013; Review, Atkins et al., 2016; O'Loughlin and Atkins, не опубликовано).

В рамках данного проекта запланировано тесное сотрудничество с ведущими учеными в данной области из г Корк (Ирландия). В лаборатирии Джона Аткинса были получены неопубликованные экспериментальные результаты по изучению рибосомальный обхода в генах бактериофага. Предлагается объединить эти неопубликованные результаты с биоинформатическим анализом, который будет осуществлен в предлагаемом проекте. Важно отметить, что у разных видов Streptomyces, только 3% генов содержат кодон UUA (Chater and Chandra, 2008). Следует отметить, что в анализе Li et al., 2007, 59% этих генов имели неизвестную функцию, а 17% были известны как регуляторные. Таким образом, главной задачей предлагаемого проекта, является сравнительно-геномный анализ генов, содержащих кодон UUA для того, чтобы предсказать, какие из них могут использовать рибосомальный обход или запрограммированный сдвиг рамки считывания при своей экспрессии.

Git
Слайды
Поиск общей генетической архитектуры между неврологическими заболеваниями | McGill

студенты: Людмила Проценко, Дарья Никанорова
руководитель: Константин Сенкевич
С использованием данных сводной статистики полногеномных ассоциативных исследований (нейродегенеративные, нейровоспалительные заболевания, заболевания двигательного нейрона) проведение генетической корреляции между заболеваниями. Далее, проведение полнотранскриптомного анализа ассоциаций и выявление генов с перекрытием экспрессии между заболеваниями.

Git
Слайды
Предсказание молекулярных свойств с использованием глубокого обучения на графах | JetBrains Research

студенты: Елизавета Власова
руководитель: Нина Лукашина, Алиса Аленичева
Липофильность — один из факторов, определяющих проницаемость клеточной мембраны для молекулы лекарства. Следовательно, точное прогнозирование липофильности — важный шаг в разработке лекарств. Проект посвящен созданию нейронной сети на графах для предсказания молекулярных субструктур.

Git
Слайды
Решение стохастических уравнений динамики численности популяций двух конкурирующих видов | Институт биоинформатики

студенты: Артем Ершов
руководитель: Юрий Белоусов
Математическое моделирование широко используется для изучения биологических систем. Один из подходов — использование теории стохастических дифференциальных уравнений и формулы Itô. В проекте для знакомства с этой теорией решено несколько задач моделирования методом Монте-Карло на языке программирования Python.

Git
Слайды
Сборка бактериального генома и очистка от контаминации | Институт биоинформатики

студенты: Анна Рыбина
руководитель: Лаврентий Данилов, Михаил Райко
Что делать, если в ридах есть не только нужный штамм, но и какие-то другие? В лабораторию поступил штамм Escherichia coli str. Nissle 1917, который оказался контаминирован. Были получены два типа колоний, морфологически различающиеся по размеру. Обе колонии секвенировали Illumina. Проект посвящен сборке de novo и определению таксономического положения контаминантов.

Git
Слайды
Сборка органельного генома растений на примере Ели европейской и видов рода Ирис | Институт биоинформатики

студенты: Александр Андреев, Петр Журбенко
руководитель: Лаврентий Данилов, Михаил Райко
Цель проекта — сборка и анализ хлоропластного генома видов рода Ирис и митохондриального генома Ели европейской. Проект посвящен построению филогенетического дерева Ирисов и поиску NUMT у Ели европейской.

Git
Слайды
Симуляция эпидемии на примере COVID-19 | Институт биоинформатики

студенты: Алексей Замалутдинов
руководитель: Александр Ильин
Человечество часто сталкивается с самыми разными заболеваниями, некоторые из которых крайне заразны и опасны. Чтобы найти баланс между здоровьем людей и развитием экономики, используется моделирование таких событий. Проект посвящен моделированию эпидемии COVID-19 на основе модели SIR (susceptible-infected-removed).

Git
Слайды
Сравнение методов анализа дифференциальной экспрессии генов для данных RNA-seq | Институт биоинформатики

студенты: Анна Квач, Маргарита Комарова, Кристина Гайнова
руководитель: Лаврентий Данилов, Михаил Райко
На сегодняшний день существует большое разнообразие пайплайнов для анализа транскриптомных данных. Каждый из них подходит для решения разного типа задач, и бывает достаточно сложно выбрать пайплайн для конкретных данных. Данный проект направлен на сравнение наиболее популярных вариантов пайлайнов, подходящих для анализа как данных de novo секвенирования, так и при наличии опубликованной сборки.

Git
Слайды
Сравнительный анализ пайплайнов анализа метагеномных данных | Институт биоинформатики

студенты: Анна Чуркина
руководитель: Лаврентий Данилов, Михаил Райко
Метагеномика — быстро развивающаяся область, задачей которой является определение составов микробных сообществ. Метагеномный анализ данных секвенирования следующего поколения (NGS) маркерного гена 16S рРНК или полногеномного секвенирования широко используется в экологических и биомедицинских исследованиях. На сегодняшний день разработано большое количество методов анализа метагеномных данных. Чтобы определить наиболее оптимальный метод анализа метагеномных данных, в этом проекте предложено сравнить 4 самых популярных биоинформатических пайплайна: USEARCH-UPARSE (OTU), USEARCH-UNOISE3 (ASV), Qiime2-Deblur (ASV) и DADA2 (ASV).

Git
Слайды
Сравнение дифференциальной экспрессии генов у полевочьих из разных ниш | ЗИН РАН

студенты: Данько Катерина, Сидорин Антон, Илюткин Станислав, Согомонян Карина, Воропаев Иван
руководитель: Надежда Потапова, Ольга Бондарева, Татьяна Петрова, Семен Бодров
Экологические ниши оказывают влияние на организм, который вынужден к текущим условиям приспосабливаться. При этом условия проживания высокогорных и степных организмов сильно отличаются, что скажется на их профилях экспрессии. На руках у нас есть транскриптомы полёвок (это мелкие грызуны семейства хомякообразных) из разных ниш: степные, горные и лесные. Более того, есть данные для одного вида (то есть для популяции) из очень разных точек. В наборе также есть транскриптомные данные для особей, которые выглядят одинаково, а на самом деле – генетически совсем разные виды. Так сказать, виды-двойники, или криптические виды. Имея на руках транскриптомы, можно сделать массу всего, начиная с того, что просто научиться работать с такими данными от начала и до конца: научиться считать дифференциальную экспрессию и применять поправки, понять, как можно на транскриптомах смотреть перестройки, инделы и инверсии. Но кроме изучения разных методов, конкретно для этих данных будет интересно поискать, чем же отличаются между собой разные виды, да и особи внутри одной популяции. И что может делать виды-двойники разными и похожими. Как влияет ниша на экспрессию генов и какие гены больше нужны высокогорным, а какие-степным видам.

Git
Слайды
Улучшение биннинга за счет графов сборки в SPAdes | Лаборатория "Центр алгоритмических биотехнологий СПбГУ"

студенты: Гинзбург Георгий, Кругликов Роман
руководитель: Антон Коробейников
Одна из задач анализа метагеномных данных – выделение геномов отдельных представителей из метагеномной сборки, получение т.н. MAG'ов (metagenome assembled genomes). Для этого, как правило, используются внешние утилиты-биннеры, которые используют различные метрики типа покрытия, тетрануклеотидного состава и т.п. для кластеризации контигов. Однако, данных подход не учитывает связность графа сборки, а также позволяет кластеризовывать только достаточно длинные контиги.
В рамках данного проекта предполагается реализация подхода label propagation по распространению разметки биннера на графах сборки. Тем самым окажется возможным определить потенциально неверно раскластеризованные контиги, а также заметно улучшить полноту кластеров за счет включения более коротких контигов.

Git
Слайды
Осень 2019
Весна 2020
Использование искусственных нейронных сетей для анализа вторичной структуры биологических последовательностей | СПбГУ / JetBrains Research (PLT Lab)

студенты: Кутленков Дмитрий, Конгоев Михаил
руководитель: Григорьев Семён
Известно, что формальные граммтики --- достаточно выразительный способ описания особенностей вторичной структуры. При этом, из-за особенностей реальных данных, приходится использовать вероятностные граммтики, что значительно усложняет и инструменты и процесс построения таких граммтик. Мы предлагаем использовать обычные контекстно-свободные граммтики, а в качестве вероятностной модели использовать нейронные сети.

В рамках осеннего семестра предлагается подготовить всё необходимое для того, чтобы создать нейронную сеть, способную предсказывать вторичную структуру цепочек. А если останется время, то и обучить такую сеть.

Слайды
Импутация снипов с использованием данных генотипирования на чипах | Мираторг Генетика

студент: Файзуллина Камилла
руководители: Жегалова Ирина, Черняева Екатерина
Импутация – процесс "достраивания" отсутствующих снипов в генотипе с использованием референсной популяции. Импутация является одним из ключевых этапов протокола предобработки и контроля качества любого генетического исследования.
Использование более высокой плотности маркеров может привести к лучшим результатам, даже если индивидуумы не были генотипированы по большинству маркеров, кроме того, это позволяет заместить маркеры валидными значениями, в случаях, когда в точности генотипа мы не уверены.
Однако, большинство алгоритмов для импутации были первоначально разработаны для использования в генетике человека и поэтому оптимизированы для высокого уровня генетического разнообразия. Основной же особенностью сельскохозяйственной генетики является наличие большого количества близкородственных связей и потому умеренный уровень генетического разнообразия. Споры о пригодности тех или иных алгоритмов, равно как и о поиске "лучшего" алгоритма все еще ведутся. Потому основной целью проекта является реализация пайплайна для импутации снипов у коров для чипов разной плотности.
GWAS для определения особенностей метаболизма и поиск ассоциаций с заболеваниями | Мираторг Генетика

студенты: Карпова Наталия, Куреев Николай

руководители: Жегалова Ирина, Черняева Екатерина
GWAS, или полногеномный анализ ассоциаций, ответствен за поток открытий с точки зрения генетических факторов риска для заболевания или исследования причинно-следственной связи между генотипами и фенотипическими признаками. Исследования основаны на том, что есть большая когорота, в которой у каждого есть исследуемый признак\болезнь, и когорта, у которых этого признака\заболевания нет. И затем, просматривая весь геном с использованием SNP, вы пытаетесь найти мутацию, которая встречается у больных и нет у здоровых. Прелесть GWAS в том, что он помог нам преодолеть подход генов-кандидатов, который был довольно разочаровывающим, потому что большинство кандидатов не подтвердились расчетами, и вместо этого исходит из теории, что весь набор генов - кандидаты, давайте рассмотрим все из них. И вот стратегия, которая является достаточно всеобъемлющей, чтобы позволить вам сделать это.
Цель проекта – изучить связи фенотипов – хозяйственно важных признаков и заболеваний – и генотипов у коров породы Black Angus.

Слайды
Dashboard for exploratory data analysis of large-scale immune repertoires | ImmunoMind

студент: Уразбахтин Шамиль

руководитель: Назаров Вадим
Адаптивная иммунная система - "невидимая рука" организма, направляющая триллионы лимфоцитов на защиту от различных патогенов. Ключевая особенность адаптивного иммунитета заключается в уникальной системе генерации его основных агентов - Б- и Т-клеточных рецепторов, которые находятся на поверхности соответствующих лимфоцитов. Вместо кодирования огромного объема информации о белках-рецепторах в геноме, организм генерирует случайные последовательности рецепторов в процессе соматической рекомбинации генов.

В процессе столкновения с различными заболеваниями, первоначально сгенерированное множество рецепторов - "репертуар" - изменяет свою структуру: некоторые рецепторы отфильтровываются, некоторые, наоборот, увеличивают свою численность в ответ на атаки вирусов или бактерий. Таким образом, иммунные репертуары сохраняют в себе историю борьбы с заболеваниями и текущее состояние иммунитета. Они содержат в себе много ценной информации, которую человечеству еще придется раскрыть - эта подобласть иммунологии появилась примерно десять лет назад.

Развитие технологий секвенирования позволило идентифицировать геномные последовательности для сотен тысяч вариантов клеточных рецепторов в образце крови или исследуемой ткани. Анализ таких данных позволяет, например, понять, что вызывает аутоиммунные заболевания, почему люди умирают от иммунотерапии, а также как изменяется иммунитет с возрастом.

Однако для эффективных исследований необходимы эффективные инструменты. На данный момент в мире существует всего два биоинфоматических пакета, которые позволяют удобно и быстро анализировать данные иммунных репертуаров - VDJtools и R пакет immunarch. В данной работе вам предлагается сделать immunarch еще более удобным для исследователей. Поскольку многие статьи дублируют методы анализа клеточных рецепторов, то это открывает возможность для оптимизации научного процесса и минимизации страданий исследователей. Разработав интерактивный дашборд, которые содержит в себе все самые встречаемые методы и визуализации для анализа иммунных репертуаров, можно сильно сократить время, которые исследователи тратят на программирование одних и тех же пайплайнов анализа, совершая каждый раз разные ошибки.

Цель проекта: ускорить процесс генерации научных инсайтов и минимизировать бессмысленные страдания исследователей за счет разработки интерактивного дашборда с наиболее часто встречаемыми подходами к анализу репертуаров иммунных рецепторов.

Слайды
Оценка дифференцильной экспрессии изоформ генов интереса | ФГБУ «НИИ гриппа им. А.А. Смородинцева» Минздрава России

студенты: Цыба Дарья, Окорокова Лариса, Алексеев Дмитрий
руководители: Станевич Оксана, Бакин Евгений
В проекте предлагается оценить дифференциальную экспрессию изоформ генов - сначала на примере генов модельных организмов (дрожжи/C.elegans/дрозофила), затем, если останется время, на примере данных РНК-секвенирования из образцов рака молочной железы человека. Оценку дифференциальной экспрессии изоформ генов будет предложено произвести с использованием существующего пайплайна на инструменте Cufflinks. В случае успешного освоения пайплайна будет дана возможность сравнить свой результат с имеющимся - на данных из образцов рака молочной железы.

Слайды
Разработка имитационной модели для формировании V-D и D-J регионов в последовательностях иммуноглобулинов | Институт Биоинформатики

студенты: Жукова Наталия, Репинская Жанна
руководители: Станевич Оксана, Бакин Евгений
V-D и D-J регионы CDR3-зоны иммуноглобулинов играют важную роль в обеспечении разнообразия репертуара антител и, как следствие, способности организма защищаться от различных патогенов. В рамках предыдущих студенческих проектов были созданы вероятностные модели для формирования регионов CDR3 зоны. Анализ показал, что, в силу некоторых введенных допущений, в ряде случаев модель обеспечивает недостаточно высокую точность. В данном проекте предлагается построить более точную, имитационную модель и с ее помощью проанализировать вклад различных механизмов в формирование указанных регионов.

Слайды
Обработка данных РНК-секвенирования с целью изучения функций белка Pcbp1 | Институт Биоинформатики

студент: Потапенко Евгений
руководители: Станевич Оксана, Бакин Евгений
Pcbp1 является представителем семейства KH-доменных поли(Ц)-связывающих белков и участвует в регуляции множества процессов – транскрипции, трансляции и сплайсинге. В частности, существует гипотеза о важной роли Pcbp1 при переходе плюрипотентных стволовых клеток из раннего (наивного) в позднее (праймированное) состояние. В лаборатории молекулярной биологии стволовых клеток института цитологии РАН были получены 12 проб для анализа RNA-seq – по 3 биологических повторности дикого типа и нокаутных клеток в исходном и праймированном плюрипотентном состоянии. Целью данного проекта является оценка дифференциальной экспрессии генов в данных образцах для лучшего понимания вовлеченности Pcbp1 в различные сигнальные пути.

Слайды
Апробация вероятностной модели формирования V-D и D-J зон CDR3 региона тяжелой цепи иммуноглобулинов на открытых данных | Институт Биоинформатики

студент: Петросян Степан
руководители: Станевич Оксана, Бакин Евгений
Студентам предлагается апробировать вероятностную модель формирования N1/N2 зон региона CDR3-VH иммуноглобулинов мышей и человека на ряде отобранных открытых данных.

Слайды
Exploring properties of amino acids in immunoglobulin clonal lineages | UCSD

студент: Меженская Дарья
руководитель: Сафонова Яна
An antibody repertoire can be viewed as a collection of clonal lineages. Each clonal lineage presents a result of somatic hypermutagenesis and clonal selection and thus can be described as an evolutionary tree. The goal of this project is to analyze somatic hypermutations appearing in expanded clonal lineages and reveal associations between immunoglobulin positions and properties of amino acids generated through the mutation process.

Слайды
Phenome-wide functional analysis of human genetic association data | Институт биоинформатики

студенты: Масликова Татьяна, Догонашева Олеся, Ушаков Михаил, Чангалиди Антон
руководители: Барбитов Юрий, Шиков Антон
Проект является продолжением работы нашей группы, опубликованной в виде препринта на bioRxiv (https://www.biorxiv.org/content/10.1101/672758v1). Мы интересуемся тем, какие гены и группы генов определяют различные группы признаков у человека. В данной работе мы хотим уйти от анализа отдельных генетических вариаций и их комбинаций к генам за счет аккуратной оценки степени ассоциации каждого гена с признаком. Получив такие оценки, мы хотим использовать различные статистические методы для функционального анализа фенома человека.

Слайды
Охарактеризовать представителей Bacteroidetes и Firmicutes в кишечных микробиомах подростков | Научный центр проблем здоровья семьи и репродукции человека

студенты: Сарана Юлия, Селезнева Елизавета

руководитель: Белькова Наталья
Bacteroidetes и Firmicutes – это две филы бактерий, доминирующие в кишечных микробиомах человека. Их представленность и соотношение изменяется в течение жизни человека, зависит от генетических, средовых, социально-экономических и поведенческих факторов (возраст, тип питания, образ жизни и др.) и может опосредованно влиять на состояние здоровья.
Цель настоящего исследования – изучить состав, структуру и разнообразие представителей двух доминирующих фил бактерий в кишечных микробиомах подростков с разным индексом массы тела.
Вывод демографической истории популяций современных людей с помощью метода, основанного на модели Морана | Университет ИТМО

студенты: Биба Дмитрий, Волкова Мария, Яковлева Екатерина

руководитель: Носкова Екатерина
Демографическая истории популяций - история развития этих популяций, включающая в себя такие события как разделения популяций, изменение их численности и миграции. Демографическая история "Out of Africa" - одна из самых популярных историй развития трех популяций: народа Йоруба из Нигерии, европейцев и народа Хань из Пекина. Параметры такие как время разделения популяций, их численность и темпы миграций могут быть получены разными методами. На данный момент существует несколько программных обеспечений позволяющих вывести параметры по таким данным как аллель-частотный спектр (распределение частот аллелей в популяциях): например dadi (Gutenkunst et al., 2009) и moments (Jouganous et al., 2018). Однако они основаны на математической модели Райта-Фишера, которая описывает частоту аллелей при переходе от одного поколения особей к другому, предполагая, что поколения не пересекаются. Недавно появилось новое программное обеспечение momi2 (Kamm et al.), в основе которого лежит модель Морана, которая позволяет поколениям пересекаться, что делает ее более близкой к реальности. Задачей проекта является вывод параметров демографической истории современных людей с помощью momi2 и сравнение полученных результатов с параметрами, полученными ранее с помощью dadi и moments.

Слайды
Investigation of yeast multilayer molecular network | Институт биоинформатики

студент: Штыкалова Софья
руководители: Барбитов Юрий, Скитченко Ростислав
В последние годы было проведено много экспериментов по систематическому анализу генетических взаимодействий. Например, в одной из работ (https://science.sciencemag.org/content/353/6306/aa...) были проанализированы взаимодействия 23 миллионов пар генов. Также в этой работе были проведены сравнения структуры сетей генетических взаимодействий, коэкспрессии генов и белок-белковых взаимодействий. В нашем проекте мы попробуем интегрировать все три вида данных (GI, co-expression, PPI) и найти в такой многослойной сети интересные паттерны, связанные с функциональными характеристиками генов и их продуктов.

Слайды
Differential mutability of human genome regions | Институт биоинформатики

студент: Мамаева Мария
руководители: Барбитов Юрий, Скитченко Ростислав
Большая часть моделей в популяционной геномике принимает частоту мутирования за константу, которая не зависит от конкретного региона. Однако же, существует достаточно давно обсуждаемая концепция, согласно которой открытый и закрытый хроматин имеют различную подверженность мутагенезу. У этой гипотезы есть подтверждения на модельных организмах и на человеке (https://www.nature.com/articles/nature11273?proof=...). Тем не менее, большая часть результатов была получена с использованием раковых данных и межвидового сравнения. В этом проекте мы хотим оценить локальную частоту мутирования с использованием популяционных данных и определить параметры, влияющие на эту частоту.

Слайды
Inference of coevolutionary events from coalescent trees | Институт биоинформатики

студент: Дерябина Полина
руководители: Барбитов Юрий, Скитченко Ростислав
Коалесцентная теория предоставляет широкий арсенал для популяционногенетического анализа геномных данных. Так, с использованием коалесцентных методов с применением скрытых марковских цепей были сделаны оценки размера динамики размера популяций и даже давления отбора (https://www.nature.com/articles/s41588-018-0177-x). В этом проекте мы хотим использовать метод ASMC (см. статью) для построения локус-специфических коалесцентных деревьев. Такие деревья затем предполагается использовать для нахождения событий совместной эволюции регионов генома, что может говорить об эпистатических взаимодействиях генов.

Слайды
Поиск генетических факторов осложнений беременности | Институт биоинформатики

студент: Царев Александр
руководители: Барбитов Юрий, Скитченко Ростислав
Проект посвящен расшифровке генетических механизмов осложнений беременности. В данной работе мы воспользуемся публичным набором данных UK Biobank (http://www.nealelab.is/uk-biobank). Мы попробуем не только определить наборы значимых маркеров изучаемых фенотипов, но и сделать глубокую функциональную аннотацию результатов и сравнение с результатами других исследований (например, NHGRI GWAS Catalog).

Слайды
Генератор неразрешимых неоднозначностей (roi_amb_analyzer tool) | Parseq Lab

студент: Толмачев Михаил
руководители: Симакова Тамара, Мозгов Сергей
HLA-типирование является необходимым этапом при подборе доноров для трансплантации органов и тканей. HLA - это белки, расположенные на поверхности клетки, обеспечивающие презентацию фрагментов антигенов иммунным клеткам. Разнообразие этих молекул крайне велико, все известные аминокислотные и нуклеотидные последовательности молекул HLA содержатся в специализированной базе данных IMGT HLA, насчитывающей на данный момент около 24 000 вариантов генов HLA. HLA-типирование осуществляется за счет NGS-секвенирования и последующего выравнивания прочтений на базу данных. При этом различные тест-системы покрывают различные регионы генов HLA, в результате чего возникают естественные ограничения метода, связанные с тем, что часть аллелей невозможно дискриминировать по причине того, что различия между ними находятся в непокрытых тест-системой регионах. Выявление таких ограничений является необходимым этапом верификации тест-систем, которую требуется проводить каждый раз после ежеквартальных обновлений базы данных.

Целью проекта является создание инструмента для выявления ограничений тест-систем для HLA-типирования (roi_amb_analyzer tool).

Слайды
Deep Learning for 3D Molecular Interactions | Skoltech

студенты: Кузнецов Игорь, Ефимов Егор, Глубоков Дмитрий, Ковалев Александр

руководители: Попов Петр
Molecules constantly interact with each other, maintaining integrity and functionality of living organisms. Broken molecular interactions typically lead to serious diseases, such as cardiovascular, neurodegenerative diseases, cancer, and others. Nowadays, there is a great need in more efficient, specific and safer drugs that modulate molecular function via atomic interaction. In order to design a chemical with desired modulation activity one needs to known molecular interactions in atomic details. Experimental techniques, such as X-ray crystallography, NMR, and Cryo-electron microscopy are used to determine spatial structures of molecular complexes on sub-nanometer scale and, hence, allow to look at molecular interactions in atomic details. With the growing number of structural information about molecular complexes and powerful computational resources, it is now possible to develop new generation of structural bioinformatics approaches using state-of-the-art machine learning methods.

Слайды (Кузнецов Игорь, Ефимов Егор)
Слайды (Глубоков Дмитрий, Ковалев Александр)
Deep learning approach to determination of local ancestry | Университет Ла Верне

студенты: Веселова Влада, Сметанин Александр
руководитель: Татьяна Татаринова
Большинство людей живущих сейчас на Земле имеют смешанное происхождение. У кого-то есть всего лишь небольшая примесь, кто-то - сплошная мозаика из разных этнических групп. Современные методы определения происхождения хорошо работают для ограниченного набора сценариев смешения. Методы машинного обучения - это новая и многообещающая область, позволяющая эффективно решить эту задачу для всех сценариев.

Слайды
Поиск адаптаций к повышенному содержанию кислорода у байкальских организмов с помощью данных об экспрессии генов | НИИ биологии ИГУ

студенты: Киркилевич Анна, Долгих Александра
руководитель: Дроздова Полина
Кислород необходим для жизнедеятельности практически всех живых организмов, но его избыток опасен, поскольку нарушает равновесие окислительно-восстановительных процессов. Вода озера Байкал насыщена кислородом в значительно большей степени, чем многие другие пресноводные водоёмы. Следовательно, длительно существующая в озере фауна могла эволюционно приобрести адаптации к высокой концентрации растворённого кислорода в течение всего года. В рамках проекта предлагается прицельно изучить различия в системе антиоксидантной защиты байкальских видов амфипод (литоральные виды Eulimnogammarus verrucosus и E. cyaneus) и родственного им вида Gammarus lacustris, который обитает в других водоёмах региона, но не образует стабильных популяций в открытом Байкале.

Слайды
Анализ структуры популяции по данным секвенирования РНК | НИИ биологии ИГУ

студент: Глушкевич Анна
руководитель: Дроздова Полина
Разнообразие особей внутри популяции — показатель, по которому можно судить о происходящих микроэволюционных событиях. Обычно для анализа генетического материала популяций животных используют секвенирование амплифицированных фрагментов митохондриальных (COI) или ядерных (18S) маркерных генов. Информацию об этих последовательностях можно получить и из данных секвенирования нуклеиновых кислот методами NGS. В этом проекте мы сравним разнообразие последовательностей маркерных генов, полученные с помощью разных способов секвенирования для особей одной и той же популяции байкальского эндемичного вида амфипод Eulimnogammarus verrucosus.

Слайды
Филогенетический анализ как инструмент криминалистики | Университет ИТМО

студент: Поденкова Ульяна
руководитель: Алексеев Никита
В последние несколько лет биоинформатика находит себе все новые применения в forensic sciences. В частности, в случаях вспышек вирусных заболеваний, важным вопросом является "кто кого заразил", на который можно ответить с помощью филогенетического анализа штаммов вирусов, найденных у разных пациентов. В рамках проекта предполагается сделать обзор существующих методов и алгоритмов, и, возможно, поучаствовать в разработке новых методов. На проекте уже есть команда из программистов, но присутствие биолога помогло бы сделать нашу деятельность более полезной.

Слайды
Иммуносупрессивные домены в геноме человека | yRisk

студенты: Мураева Ольга, Поздняков Данила, Панков Викентий, Рапота Диана, Охтиенко Анастасия
руководители: Афанасьев Андрей, Ступников Алексей
Идентификация иммуносупрессивных доменов (ISD) в геноме человека, гомологичных ретровирусным.

Слайды (Мураева Ольга, Поздняков Данила, Панков Викентий)
Слайды (Рапота Диана, Охтиенко Анастасия)
Молекулярная мимикрия ВИЧ | ИБХ РАН

студенты: Харламов Владислав, Овсянникова Александра, Кравец Андрей

руководитель: Цветков Василий
Проект нацелен на изучение свойств вируса иммунодефицита человека и его эволюцию в течение срока инфицирования организма. Было показано, что частицы вируса мутируют с высокой скоростью, изменяя молекулы в своём составе таким образом, чтобы избежать иммунного ответа со стороны организма хозяина. В связи с этим было бы интересно показать на данных глубокого и лонгитюдного секвенирования вирусных частиц у больных СПИД, как изменяются физикохимические характеристики поверхностных белков вирусных частиц. Также можно попробовать натренировать классификатор, который позволил бы предсказывать последствия конкретных мутаций вирусного генома.

Слайды (Харламов Владислав
Слайды (Овсянникова Александра, Кравец Андрей)
Участие бактериофага в горизонтальном переносе прокариотических генов в геномы эукариот | Институт Цитологии РАН

студент: Грецова Мария
руководитель: Даугавет Мария
Передача генов из генома одного организма в геном другого неродственного организма называется горизонтальным переносом генов (ГПГ). На сегодняшний день описаны случаи ГПГ из генома прокариот в геном эукариот для большого числа организмов, однако, механизм этого процесса неизвестен. Для асцидий, одной из групп примитивных Хордовых животных, описано два случая ГПГ от прокариотических организмов. Один из них это приобретение гена целлюлозо-синтазы от бактерии Streptomyces sp., описанный Накашима с соавторами (Nakashima et al., 2004). Другой, для асцидии Styela rustica, был описан в нашей работе (Daugavet et al., 2019). Белок асцидии S. rustica, рустикалин, содержит два структурных домена, при этом кодирующая область C концевого домена имеет достоверное сходство с ферментом карбоксипептидазой, описанной ранее только для бактерий и бактериофагов. Как для С концевого домена рустикалина, так и для каталитического домена целлюлозо-синтазы было показано, что их кодирующие области лежат в геноме рядом с потенциальным сайтом встраивания бактериофага - AttP. Таким образом, возможный механизм ГПГ может задействовать бактериофага в качестве вектора переноса генов из генома прокариот в геном эукариот.
Мы предполагаем, что последовательность сайта встраивания бактериофага может помочь обнаружить новые случаи ГПГ в геномах эукариотических организмов. Однако, длина сайта встраивания бактериофага AttP составляет всего 43 нуклеотида, что слишком мало, чтобы достоверно обнаружить его в больших базах данных. Тем не менее, мы знаем, что в гене гомолога рустикалина AttP-подобный сайт расположен внутри интронов N концевого домена. Основываясь на этом, мы провели поиск отдалённых гомологов (HMMER) с использованием аминокислотной последовательности N концевого домена. Последовательности, схожие с N концевым доменом, обычно являются частью более крупных белков. В составе этих белков так же присутствую известные консервативные домены. Несмотря на то, что найденные белки почти исключительно эукариотические, консервативные домены, входящие в их состав (в 98 белках из 124) являются доменами, которые в соответствии с базой данных Pfam типичны для прокариот или бактериофагов. Было идентифицировано девять различных доменов, которые можно классифицировать как бактериальные ферменты, гидролизующие клеточную стенку. На основании этих наблюдений можно сделать вывод, что последовательность схожая с N концевым доменом в эукариотических белках обычно сопровождается типичными прокариотическими доменами. Мы предполагаем, что найденные эукариотические последовательности могут иметь химерное происхождение и некоторые их консервативные домены образовались в результате ГПГ от прокариотических организмов.
Цель проекта:
Подтвердить химерное происхождение найденных последовательностей, содержащих домены типичные для прокариот или бактериофагов.

Слайды
Effect of the proteomic sample pooling on statistical power and type I error rate | СПбГУ

студенты: Гурина Алёна, Озерова Юлия
руководители: Данилов Лаврентий, Варфоломеева Марина
Протеомные исследования часто проводят с применением пулированных образцов. Пулирование проб - это смешивание биологического материала от разных особей. В результате уровень экспрессии большинства белков в пуле будет равен среднему уровню экспрессии соответствующих белков в отдельных образцах. В результате пулирования увеличивается общее количество биологического материала в пробе, что бывает особенно важно при исследовании мелких организмов. Кроме того, при пулировании увеличивается качество сопоставления пятен белков на разных гелях. Наконец, снижается уровень биологической изменчивости между отдельными пулами, и это, в свою очередь, влияет на мощность статистических тестов. В ходе предполагаемого проекта предлагается оценить как влияет число и размер пулированных проб на мощность статистических тестов при разном уровне биологической и технической изменчивости в анализе дифференциальной экспрессии.

Слайды
Черная кошка в тёмной комнате: поиск новых вирусов и плазмид в метагеномах | Центр Алгоритмической Биотехнологии, СПбГУ

студенты: Калтович Артём, Яковлева Юлия, Сказина Мария, Забелкин Алексей
руководители: Райко Михаил, Антипов Дмитрий
На сегодняшний день в базах данных лежит много собранных метагеномов, которые проанализированы довольно поверхностно. По последним работам стало ясно, что мы очень сильно недооцениваем разнообразие вирусов и плазмид - например, самый распространенный бактериофаг в кишечнике человека был открыт только в 2014 г, а в 2017 было показано, что это на самом деле целая группа родственных вирусов (причем всё это было обнаружено исключительно биоинформатическими методами). В данном проекте мы предлагаем поискать новые вирусы и плазмиды в доступных метагеномах из различных сред с помощью инструментов, разработанных в нашей лаборатории.

Слайды
Динамика разнообразия и обилия симбионтов в метагеноме | НИИ биологии Иркутского государственного университета

студент: Алексеева Лолита

руководитель: Дроздова Полина
Общее описание проекта.
Данные для анализа: около 60 образцов RNA-seq (~30 млн. парных ридов на образец, Illumina 2x100), для каждого образца использован материал
одного целого животного вида Eulimnogammarus verrucosus (Crustacea:
Amphipoda). Около половины образцов соответствуют животным,
содержавшимся в контрольных условиях, а остальные — животным,
подвергнутым влиянию различных стрессоров. Согласно предварительным данным, существенное число чтений принадлежит симбионтам или комменсалам объекта исследования, в первую очередь инфузориями.

Цели проекта: характеристика разнообразия симбионтов в транскриптоме
разных особей и изучение стабильности состава (и количественного
соотношения) симбионтов между разными особями одного вида и при
стрессовых воздействиях.

Слайды
Где в персике спрятался ретротранспозон? | ИОГен РАН

студенты: Пахалко Илья, Гончар Анастасия

руководитель: Поверенная Ирина
Ретротранспозоны - это генетические элементы, которые могут самовоспроизводиться и путешествовать по геному. Хотя они есть в большинстве эукариотических организмов, больше всего их можно найти в геномах растений. Семейство Розоцветные (Rosaceae) включает в себя много ценных плодовых деревьев (яблоко, груша, персик и т.д.), и выведение новых сортов на сегодняшний момент требует большего понимания генетического разнообразия как в отдельных видах, так и во всем семействе. Поскольку каждая миграция ретротранспозона в новое место является эволюционным событием, по их месторасположению в геномах представителей Розоцветных можно будет оценить эволюцию данного семейства.

Слайды
Обработка данных LCMS | Skoltech

студенты: Машкова Ольга, Хамитов Денис, Недильченко Ольга, Синяков Артем

руководитель: Ильин Александр
Есть данные липидомного анализа из исследования по влиянию витамина Д на мышей. Целью проекта является обработка и интерпретация данных.

Слайды
Обмен транспозонами в геномах вагинальных бактерий | ФХМ ФМБА России

студенты: Мазур Ольга, Янушкевич Сергей, Попова Аделия

руководитель: Старикова Елизавета
Вагинальная микробиота представляет собой относительно закрытое микробное сообщество, представленное, как правило, несколькими видами лактобактерий, которые поддерживают кислотную среду, необходимую для нормального функционирования женского организма. Мы предполагаем, что данная экологическая ниша также создаёт благоприятные условия для горизонтального переноса генов, в том числе между лактобактериями и условно-патогенными микроорганизмами. Один из наиболее интересных путей горизонтального переноса генов (например, генов устойчивости к антибиотикам) -- с помощью бактериальных транспозонов.
Цель проекта -- идентифицировать общие транспозоны и переносимые ими гены в геномах различных вагинальных бактерий.

Слайды
Доработка метода LSEA для анализа тканеспецифичности сложных признаков | Институт биоинформатики

студенты: Алексеев Дмитрий, Кутленков Дмитрий

руководитель: Барбитов Юрий
Ранее в Институте биоинформатики был разработан метод LSEA, позволяющий проводить бинарный анализ обогащения наборов генов в данных GWAS. В рамках этого проекта мы хотим переписать код LSEA в более удобоваримый вид и исправить несколько важных проблем, а также применить LSEA для анализа взаимосвязей ткань-фенотип и клеточный-тип-фенотип.

Слайды
Поиск ассоциаций с репродуктивной изоляцией узкочерепной полевки | ЗИН РАН

студент: Сказина Мария

руководители: Петрова Татьяна, Бондарева Ольга
Узкочерепная полевка Lasiopodomys gregalis – широкоареальный вид грызунов. Мы показали, что популяции из Юго-Восточного Забайкалья и Восточной Монголии представляют собой криптичеcкий вид Lasiopodomys raddei. При скрещивании L. raddei и L. gregalis в лаборатории потомства получить не удалось, при том, что контрольные группы внутри своего вида успешно размножались (Petrova et.al. 2016). Мы отсеквенировали транскриптомы для трех особей от каждого вида. Задача – выяснить, связана ли репродуктивная изоляция с какими-то конкретными участками транскриптома.

Слайды
Сравнение репитомов различных видов картофеля (род Solanum sect. Petota) | ФГБНУ ВНИИСБ

студент: Гурина Алёна

руководитель: Дивашук Михаил
Сопоставление повторяющейся ДНК (тандемные повторы и мобильные элементы) у различных видов картофеля. Сиквенсы получены из образцов различного географического происхождения. В задачи проекта входит: 1) изучение уровня изменчивости повторяющейся ДНК ; 2) создание цитогенетических маркеров; 3) поиск закономерностей изменения повторяющейся ДНК.

Слайды
Сравнение репитома Aegilops tauschii различного георграфического происхождения | ФГБНУ ВНИИСБ

студенты: Куреев Николай, Попова Аделия

руководитель: Дивашук Михаил
Сопоставление повторяющейся ДНК (тандемные повторы и мобильные элементы) у Aegilops tauschii предковой формы мягкой пшеницы. Сиквенсы получены из образцов различного географического происхождения. В задачи проекта входит: 1) изучение уровня изменчивости повторяющейся ДНК ; 2) создание цитогенетических маркеров; 3) определение места происхождения вероятного предка мягкой пшеницы; 4) поиск закономерностей изменения повторяющейся ДНК у злаков.

Слайды
Сравнение инструментов для анализа данных секвенирования геномов вирусов гриппа | ФГБУ «НИИ гриппа им. А.А. Смородинцева» Минздрава России

студенты: Ушаков Михаил, Цыба Дарья

руководитель: Артём Фадеев
В ходе проекта предстоит провести сравнение пайплайнов, используемых в различных научных институтах для анализа данных NGS геномов вирусов гриппа (сборка консенсусных последовательностей + поиск SNP).

Слайды
Предсказание аминокислотной последовательности NRP по геномным данным | ЦАБ СПбГУ

студент: Исаев Василий

руководитель: Гуревич Алексей
Нерибосомные пептиды (NRP) -- фармакологически важные природные соединения. Они кодируются в геноме крайне запутанным образом ("нерибосомным кодом"). Например, чтобы описать NRP из всего 10 аминокислот может потребоваться десятки тысяч нуклеотидов в ДНК. Нерибосомный код был впервые описан и частично расшифрован в 1999 году, однако до сих пор программные инструменты предсказывающие аминокислотной последовательности NRP по геномным данным работают неидеально. Результат работы таких программ -- список возможных (предсказанных) аминокислот и некие "скоры" (score), описывающие уверенность программы в своих предсказаниях.

Цель проекта -- разработать новую "скоринг-схему" для предсказаний, которая решит проблемы существующих упрощенных моделей.

Слайды
Разработка адаптивного метода оценки количества фетальной ДНК в плазме крови беременных женщин по данным NGS | ФГБНУ НИИ АГиР им.Д.О.Отта

студенты: Жукова Наталия, Толмачев Михаил

руководитель: Козюлина Полина
На базе Института акушерства, гинекологии и репродуктологии Отта был разработан и введен в клиническую практику неинвазивный пренатальный скрининг анеуплоидий плода по данным секвенирования ДНК из плазмы крови матери (НИПС). Важнейшим этапом данного скринингового теста является точная и правильная оценка уровня фетальной ДНК (то есть ДНК, пришедшей от плода) относительно количества ДНК материнского происхождения.

На точность оценки могут влиять разные факторы, в том числе пол плода и тип консерванта, в который собирали кровь беременной женщины. Для плода мужского пола уровень фетальной фракции определяется достаточно однозначно по количеству чтений, картировавшихся на Y хромосому, однако для плода женского пола существуют лишь косвенные варианты определения фетальной фракции, и точность падает.

Целью данного проекта является сравнить опубликованные методы оценки уровня фетальной ДНК, подходящих для девочек, и на этой основе разработать собственный комплексный алгоритм оценки фетальной фракции, учитывающий основные факторы, такие как пол плода, тип консерванта и тд.

Слайды
Анализ динамики состава симбионтов по данным транскриптома | Helmholtz Centre for Environmental Research - UFZ

студент: Озерова Юлия

руководители: Липаева Полина, Дроздова Полина
Озеро Байкал является уникальным примером разнообразия эндемичной фауны. Литоральная амфипода Eulimnogammarus verrucosus обитает исключительно в водах Байкала. Известно, что внешние покровы E. verrucosus являются местом обитания эпибионтных инфузорий (симбионтов, живущих на поверхности хозяина).

Осенью 2019 года мы наблюдали такое интенсивное обрастание амфипод инфузориями, которое приводило к гибели особей в лабораторных условиях. Было проведено секвенирование транскриптома E. verrucosus, выловленного осенью 2019 года. Предлагается провести анализ симбиотического сообщества E. verrucosus, сравнить полученные данные с предыдущими метатранскриптомными данными (отловы 2013 года, когда такого обрастания не наблюдали, уже обработанные в другом проекте в Институте биоинформатики) и сделать вывод о том, изменился ли состав (качественно или в соотношении) симбиотического сообщества. Также предлагается провести сборку и аннотацию метатранскриптома, полученного в результате секвенирования E. verrucosus.

Слайды
Применения метода Deep Galerkin для решения уравнения диффузии в популяционной генетике | Университет ИТМО

студенты: Панков Викентий, Харламов Владислав

руководитель: Носкова Екатерина
Демографическая история популяций - история развития этих популяций, включающая в себя такие параметры как время разделения, численность популяций, миграции между ними и коэффициенты отбора. Одним из наиболее популярных методов для вывода параметров демографических историй является диффузионное приближение (dadi, Gutenkunst et al. 2009). Этот метод симулирует генетические данные, а именно аллель-частотный спектр, численно решая несколько уравнений диффузии. Предлагается внедрить метод из статьи Deep Galerkin (Sirignano and Spiliopoulos, 2018), позволяющий получать решения PDE с помощью искусственных нейронных сетей, вместо классической численной схемы, реализацованной в пакете dadi. Оценить преимущества и недостатки такого подхода.

Если Deep Galerkin покажет себя значительно быстрее классического подхода, то это позволит значительно более качественно выводить демографические истории. Целью данного проекта является применение и оценка целесообразности метода Deep Galerkin в контексте решения уравнений диффузии в dadi.

Слайды
Анализ геномов устойчивых к антибиотикам бактерий методами машинного обучения | Jetbrains Research

студенты: Веселова Влада, Масликова Татьяна

руководитель: Лукашина Нина
В последние годы активно развивается устойчивость бактерий к воздействию антибиотиков. Это вызывает большие проблемы в лечении бактериальных инфекций и приводит к высокой смертности среди пациентов, в том числе, в г. Санкт-Петербурге.

Цель проекта: с помощью методов машинного обучения выявить генетические факторы, влияющие на развитие антибиотикорезистентности у бактерий Klebsiella pneumonie. Проект использует данные, предоставленные НИИ Детских инфекций.

Слайды
Анализ дифференциальной экспрессии генов методами машинного обучения | Jetbrains Research

студенты: Царев Александр, Чангалиди Антон

руководитель: Лукашина Нина
Глобальная цель проекта заключается в разработке нового подхода к анализу данных экспрессии генов (на примере данных по экспрессии генов в условиях загрязнения различными пластификаторами) и сравнение этого подхода с классическими методами биоинформатики.

Проект проводится в коллаборации с исследователями из университета Уппсалы (Швеция), в том числе, с учеными-биологами.

Слайды
Анализ повторяющихся элементов в геноме S. purpuratus | СПбГУ

студент: Окорокова Лариса

руководитель: Николай Панюшев
Цель проекта - выявить закономерности экспрессии мобильных элементов в эмбриогенезе морского ежа S. Purpuratus. Мы выявим и проаннотируем новые повторы в геноме морского ежа. Обнаруженные новые элементы необходимо будет проаннотировать и выяснить их происхождение. Для каждого из описанных элементов мы определим экспрессию в каждой из стадий эмбриогенеза - 2, 4, 8, 16 бластомеров. Возможно, потом построим корреляции с экспрессией генов.

Слайды
Разработка и расчет структурных дескрипторов для ядерных рецепторов | Университет ИТМО

студенты: Петросян Степан, Мамаева Мария

руководитель: Пац Карина
Данный проект направлен на формирование списка и расчет структурных дескрипторов для последующей проверки их способности предсказывать закономерности в связывании ядерных рецепторов (известных своим аллостерическим поведением) с различными лигандами.

Основная цель - составить список таких дескрипторов (около 40 штук) на основе литературных данных (а также собственных идей), и рассчитать их для структур ядерных рецепторов содержащихся в базе PDB. Дополнительная цель (при наличии времени и соответствующих навыков у студентов) - осуществить кластеризацию полученных результатов и проверить, будут ли структуры, связанные со схожими лигандами, находиться в одном кластере по результатам расчета дескрипторов.

Слайды
Discovery of allosteric binding site in G protein-coupled receptors | Skoltech

студенты: Догонашева Олеся, Мазур Ольга

руководитель: Petr Popov
- To run long-scale molecular dynamics (MD) simulation for the human GPCRs, using 3D structures recently solved by our group.

- To apply binding site detection method in order to investigate cryptic binding sites, e.g. those that open/close during MD trajectory.

- To perform post-processing and statistical analysis of the obtained results.

The projects will be suitable for students who is interested in molecular modelling & structural bioinformatics. Python programming skills are also required.

The projects imply large scale molecular modelling and computationally expensive calculations.

Слайды
Поиск регионов с различным метилированием ДНК на гомологичных хромосомах на основе ридов Oxford Nanopore | University of California, San Diego

студент: Киркилевич Анна

руководители: Проданов Тимофей; Bansal Vikas
Метилирование ДНК регулирует экспрессию генов и играет важную роль в человеческом эпигеноме. Также как и отдельные нуклеотиды, метилирование может отличаться на двух гомолочных хромосомах. В этом проекте мы предлагаем найти такие регионы при помощи длинных ридов технологии Oxford Nanopore.

Секвенаторы Oxford Nanopore различают нуклеотиды, сравнивая электрический заряд при проходе молекулы ДНК через маленькую пору в мембране. Этот же метод позволяет найти модификации нуклеотидов, в том числе метилирование цитозина.

Предлагается написать пайплайн, который принимает на вход BAM файл с выровненными ридами; разбивает их на гаплотипы с помощью вариант коллера (например, Longshot); находит метилирование (например, с помощью Nanopolish), и затем находит статистически значимые различия.

Слайды
Ускорение и рефакторинг rnaQUAST | Центр Алгоритмической Биотехнологии, СПбГУ

студенты: Сметанин Александр, Калтович Артём

руководитель: Пржибельский Андрей
Программа rnaQUAST стала относительно популярной, а опубликованная статья цитируется. Однако, в текущей реализации есть ряд недостатков. Часть функционала можно передать появившимся за это время библиотекам, а ключевые алгоритмы оптимизировать и распараллелить.

Слайды
Сборка de novo и анализ транскриптомов погонофоры Siboglinum fiordicum (Siboglinidae, Annelida) на разных стадиях развития личинок | Московский государственный университет, кафедра зоологии беспозвоночных

студенты: Охтиенко Анастасия, Уразбахтин Шамиль

руководители: Римская-Корсакова Надежда, Лаврентий Данилов, Максим Нестеренко
Аннелиды – центральная группа Lophotrochozoa, характеризующаяся существенным морфологическим разнообразием. Среди аннелид встречаются группы с гомономной сегментацией тела, гетерономной сегментацией и вовсе не сегментированные черви. Современные данные филогеномики показывают, что аннелиды, обладающие ярко выраженной гетерономной сегментацией занимают глубокое положение на древе аннелид, составляя «раннюю радиацию», а также входят в обширную кладу Sedentaria, сестринскую Errantia . Следует ли рассматривать гетерономность как исходную для всех аннелид черту строения и как она сопряжена с гетерономной сегментацией, характерной представителям других крупных групп Bilateria – у линяющих и вторичноротых? Ответы на эти вопросы являются актуальными в рамках фундаментальной проблемы биологии о реконструкции морфологического облика общего предка Bilateria и понимании путей ранней радиации группы.

В ходе проекта будут получены данные о дифференциальной экспресии генов, предположительно участвующих в регуляции сегментации, зибоглинума до и после формирования первой сегментарной септы.

Исполнители проекта будут вовлечены в обсуждение биологической интерпретации результатов анализа со специалистами в области эмбриологии и зоологии беспозвоночных. Результаты транскриптомного анализа будут сравнены с результатами морфологических исследований, анатомии, клеточной динамики в ходе формирования сегментов. Комплексный подход и сочетание современного инструментария нескольких областей биологии позволят получить новые хорошо документированные результаты, которые лягут в основу сравнительного анализа. сегментарного плана между тремя группами билатерально-симметричных животных - Lophotrochozoa, Ecdysozoa, Deuterostomia - что позволит пролить свет на вопрос морфологического облика общего предка Bilateria и пути ранней эволюции группы.

Слайды
Сравнение репитома Aegopodium podagraria различного географического происхождения | ФГБНУ ВНИИСБ

студент: Дерябина Полина

руководитель: Романов Дмитрий
Сопоставление повторяющейся ДНК (тандемные повторы и мобильные элементы) у Aegopodium podagraria. Сиквенсы получены из образцов различного географического происхождения. В задачи проекта входит: 1) изучение уровня изменчивости повторяющейся ДНК ; 2) создание цитогенетических маркеров

Слайды
Homology analysis of T-cell receptor (TCR) sequences recognizing the same and distinct antigens | Skolkovo Institute of Science and Technology

студенты: Недильченко Ольга, Овсянникова Александра

руководитель: Mikhail Shugay
The set of T-cell receptors (TCRs) carried by T-cells of an individual are one of the key determinants of an efficient immune response against foreign pathogens. TCRs also play a major role in detecting self-antigens providing tumor immunosurveillance and are involved in the development of autoimmune disorders.

Recent advances in the field of adaptive immune system studies and corresponding molecular biology/bioinformatic methods allow us to profile the repertoire of TCRs in a given individual that can be related to a certain type of immune response. Due to huge diversity of both TCRs and antigens they recognize, any response towards a foreign or self antigen is realized by a variety of T-cells carrying distinct TCRs. Currently, there is little understanding of how specific TCRs do recognize their cognate antigens and whether two distinct TCRs can target the same antigen.

The goal of current project is to develop an efficient bioinformatics framework for comparative analysis of TCR sequences, that is, a method allowing to infer sets of TCRs that target the same antigen in a given pathology context. A vast knowledgebase of TCR sequences recognizing various antigens (the VDJdb database) and a wealth of structural data on TCR:antigen:MHC (MHC is the molecule that presents antigens to T-cells) complexes available so far can be utilized to define a proper TCR similarity metric. Such metric can be utilized to infer TCR specificity motifs for infectious diseases, cancer and autoimmunity, providing a useful tool for TCR repertoire analysis in health and disease.

Слайды
Оценка разнообразия бактериофагов в метагеномах | ФНКЦ Физико-Химической Медицины

студент: Машкова Ольга

руководитель: Старикова Елизавета
Применение методов метагеномного секвенирования (в том числе секвенирования вирусных метагеномов) делает возможным и аннотацию вирусных последовательностей, многие из которых относятся к так называемой "тёмной микробной материи". Для оценки видового разнообразия бактерий в микробных сообществах обычно используют последовательности гена 16s рРНК. Однако оценка разнообразия вирусов (в т.ч. бактериофагов) затруднена ввиду отсутствия универсальных маркерных генов.

В рамках данного проекта участникам предлагается разработать пайплайн для оценки видового разнообразия бактериофагов в метагеномах с использованием скрытых марковских моделей отдельных вирусных генов.

Слайды
Сборка и аннотация генома грибов рода Microdohium | Университет ИТМО

студенты: Мураева Ольга, Потапенко Евгений

руководитель: Ткаченко Александр
Грибы рода Microdohium вызывают заболевания у ряда видов растений, а в частности "снежную плесень". В данном проекте будет необходимо собрать и проаннотировать при помощи транскриптомных данных геномы нескольких представителей рода.

Слайды
Влияние антибиотиков на суперспирализацию ДНК и экспрессию генов у бактерий | Университет ИТМО

студенты: Долгих Александра, Меженская Дарья

руководитель: Ткаченко Александр
Механизм действия некоторых антибиотиков заключается в нарушении функции гиразы, что приводит к суперспирализации ДНК. В данном проекте будет изучаться, как такие антибиотики влияют на экспрессию генов у бактерий.

Слайды
Механизмы избегания иммунного ответа у ВИЧ | ИБХ РАН

студенты: Алексеева Лолита, Хамитов Денис

руководитель: Цветков Василий
Проект нацелен на изучение свойств вируса иммунодефицита человека и его эволюцию в течение срока инфицирования организма. Было показано, что частицы вируса мутируют с высокой скоростью, изменяя молекулы в своём составе таким образом, чтобы избежать иммунного ответа со стороны организма хозяина. В связи с этим было бы интересно показать на данных глубокого и лонгитюдного секвенирования вирусных частиц у больных СПИД, как изменяются физикохимические характеристики поверхностных белков вирусных частиц. Также можно попробовать натренировать классификатор, который позволил бы предсказывать последствия конкретных мутаций вирусного генома.

Слайды
Поиск генов, ассоциированных с инвазивностью в разных генетических линиях Streptococcus pneumoniae | ФГБУ ДНКЦИБ ФМБА России

студент: Поденкова Ульяна

руководители: Цветкова Ирина, Лихолетова Дарья
Streptococcus pneumoniae является частью нормальной микробиоты верхних дыхательных путей. Пневмококк далеко не всегда вызывает инвазивные заболевания, но его высокая распространенность и хорошая способность к колонизации приводят к миллионам случаев инвазивных заболеваний (пневмония, менингит, сепсис).

Нами был проведен предварительный анализ популяции S. pneumoniae, представленной циркулирующими в России штаммами и повсеместно распространенными генетическими линиями (всего 495 штаммов). Генетические линии были подробно охарактеризованы.

Цель настоящей работы – проанализировать особенности механизмов вирулентности для конкретных генетических линий, на основании сравнения высоковирулентных и низковирулентных штаммов в нескольких датасетах, каждый из которых представлен одним сиквенс-типом по MLST.

Слайды
Сборка генома Ephydra riparia (сем. Ephydridae) и поиск генетических маркеров адаптации эфидрид к экстремальным местообитаниям | МГУ имени М.В. Ломоносова

студент: Яковлева Екатерина

руководители: Марков Александр Владимирович, Ильин Александр
Двукрылые из семейства Ephydridae адаптированы к экстремальным условиям среды, таким как засоленные водоемы, водоёмы с высоким / низким уровнем pH, горячие минерализованные водоемы (в том числе, насыщенные сероводородом), озера сырой нефти и т.д. В 1970-е - 1990-е годы наблюдался интерес к изучению адаптации эфидрид к экстремальным местообитаниям. Исследовались морфологические особенности личинок и процессы осморегуляции. Однако с применением методов молекулярной биологии и геномики вопрос адаптации до настоящего времени не изучался. Отсеквенированы геномы только двух представителей семейства Ephydridae: Ephydra gracilis (https://www.ncbi.nlm.nih.gov/assembly/GCA_00101467...), геном собран на скаффолды, муха обитает в озерах с высокой соленостью в Северной Америке, и Ephydra hians (syn. Cirrula hians) (https://www.ncbi.nlm.nih.gov/assembly/GCA_00101507...), геном собран на скаффолды, она же «щелочная муха», обитает в щелочных озерах в США, Мексике и Канаде.

На кафедре биологической эволюции биологического факультета МГУ отсеквенирован еще один вид из семейства Ephydridae - Ephydra riparia (секвенирование произведено на платформе Illumina, аналогично двум предыдущим видам). E. riparia обитает в Северной Америке и в Европы во временных водоемах, заполняемых морской водой. Отсеквенированные особи были пойманы в соленых лужах на побережье Белого моря.

Цель проекта – осуществить сборку генома Ephydra riparia и сопоставить его с геномами двух других видов эфидрид для выявления генов-кандидатов, предположительно связанных с механизмами, обеспечивающими адаптацию мух к экстремальным экосистемам и их экологическую специализацию.

Слайды
Поиск и описание параллельных инверсий в бактериальных геномах | Institute of Science and Technology (IST Austria)

студенты: Забелкин Алексей, Яковлева Юлия

руководитель: Ольга Бочкарева
Проект посвящен анализу перестроек в бактериальных геномах. В литературе был описан ряд инверсий, переключающих фенотип бактериальной клетки, распространение которых в популяции поддерживается отбором. Все они были выявлены в ходе сравнительного анализа отдельных штаммов, однако системно такие события не изучались, прежде всего из-за отсутствия необходимых биоинформатических инструментов.

Слайды
Поиск иммуносупрессорных генов при car-t терапии | Национальный Медицинский Исследовательский Центр им. В. А. Алмазова

студент: Поздняков Данила

руководитель: Петухов Алексей
В проекте будет выполняться биоинформатический анализ данных NGS после CRISPR/Cas9 SAM скрининга, с целью выявления генов, ответственных за подавление действия car-t клеток при терапии онкологических заболеваний.

Слайды
Поиск и определение характеристик положительного отбора по топологии коалесцентного дерева | ИППИ РАН

студент: Биба Дмитрий

руководители: Базыкин Георгий, Алексеева Евгения
Основная идея проекта - попробовать предсказывать по топологии генеалогического дерева точку на этом дереве, в которой на ген стал действовать положительный отбор, его продолжительность и силу. Нужно подробнее посмотреть, не было ли это уже сделано.

Слайды
Анализ транскриптомных данных нанопорового секвенирования реликтового растения Physcomitrella patens | ИБХ РАН

студент: Глушкевич Анна

руководитель: Князев Андрей
Проект направлен на анализ данных, полученных с помощью нанопорового прямого секвенирования РНК двух жизненных форм мха: протонемы и гаметофор. Планируется установить транскрибируемые участки генома и оценить дифференциальную экспрессию генов на различных стадиях развития Physcomytrella patens. Кроме того, будут выявлены характерные альтернативно-сплайсирующиеся изоформы генов. Важной задачей проекта является установление ранее неаннотированных транскрибируемых участков генома. Использование нанопорового секвенирования позволяет установить модифицированные нуклеотиды в транскриптоме, что впервые будет сделано на мхе в рамках данного проекта. Такой эпитранскриптомный анализ позволит установить закономерности в распределении метилированных участков мРНК и их возможную роль в жизненном цикле реликтового растения.

Слайды
Study spectrum of genetic variants in TTN gene | Federal Almazov Medical Research Centre

students: Olga Lebedenko
scientific adviser: Artem Kiselev

The TTN gene with 363 coding exons encodes titin, a giant muscle protein spanning from the Z-disk to the M-band within the sarcomere. Titin has roles in assembling and maintaining sarcomere structure, flexibility, stability, stretch and force transmission. Mutations in the TTN gene have been associated with various cardiomyopathies.

The main aim of this study was to investigate spectrum of genetic variants in TTN gene within group of patients with cardiomyopathy. 151 different type of cardiomyopathy samples, sequenced with Haloplex custom targeted capture, were processed with SNP Calling pipeline implemented on Snakemake and annotated by snpEff. Among 418 discovered SNP 64.44% variants were missens and 35.56% variants were silence. The PCA analysis showed absence of clustering SNP by type of cardiomyopathy. Fisher's exact tests with Bonferroni correction were used to compare allele frequencies of observed variants against all gnomAD population. Pathogenicity of 12 discovered statistically meaningful missense variants was predicted by algorithms SIFT, PolyPhen-2, Mutation Assessor, Provean and I-Mutant 3.0.

Almost all variants showed neutral effect on protein structure and stability. The most interesting SNP was the mutation rs9808377 I62T, presumably affecting on stability of the subunit Fn3-102 titin by I-Mutant 3.0. Presumably, this result may be explained by difficulties in multiple comparison connected with a high rate of spontaneous mutation owing to enormous size of TTN gene. Another reasons in analyzing accompanying TTN variants in cardiomyopathy group with confirmed well-knowing causative mutations.

Slides
A library of functions for express analysis of FASTA/FASTQ files | Bioinformatics Institute

students:
Alena Kizenko, Alisa Morshneva, Polina Pavlova
scientific adviser: Eugene Bakin

Frequently, when carrying out bioinformatics projects including FASTA/FASTQ files processing, one has to solve routine tasks, e.g. deduplication of sequences. A common approach for this is writing little scripts in Python/bash or dealing with existing programs, which may be complicated for usage. Therefore, we decided to create a flexible tool containing functions for processing files with sequencing data. We created a program called BreakFAST which is based on Python 3 and the following libraries: Biopython, argparse, pandas, numpy, matplotlib and re. The tool consists of three modules. Basic statistics module can be used for counting:

● minimum, maximum, mean, total length of reads;
● GC-content;
● quality scores;
● N bases.

Filtering module can be used for deleting:
● reads shorter than X;
● reads containing Ns;
● poor quality reads;
● duplicates;
● reads with a particular motif.

Matching module can be used for:
● joining reads from files;
● finding overlapping between files;
● subtracting sets of reads from files.

While applying commonly suggested Biopython functions we've faced performance problems while parsing a large volume of data. For mitigation of this effect while iterating over FASTA/FASTQ files, we compared SeqIO.parser and Iterator from Biopython. We have found that usage of Iterator in Filtering and Matching modules was optimal for iteration (10 times speed gain). Notably, we compared function "delete reads shorter than X" with the same Trimmomatic's function and found that BreakFAST occupies up to 7 times less RAM, which may be useful when a computer`s capacity is limited. As a result, BreakFAST is a simple and customizable tool, which can be potentially updated with new modules and functions.

Slides
Visualization of signaling pathways basing on genes differential expression profile | First Pavlov State University of St. Petersburg

students: Stanislav Legkovoy, Olga Romanova
scientific advisers: Eugene Bakin, Oksana Stanevich

In recent years, Gene Expression Omnibus (GEO) NCBI database has accumulated a significant amount of data obtained via mRNA microarrays, which are widely used for an analysis of differential expression profile. During a research of genes expressions, a proper visualization of results is an important task. One of the best ways is to use R language and related packages for statistical analysis, preprocessing and visualization of expression data through interaction with KEGG database.

An aim of this study was to visualize signaling pathways according to the gene expression data obtained from GEO NCBI database. To achieve our goal, we implemented an easy-to-use script based on pathview, gage and GEOquery packages, which allowed us to obtain gene expression data directly from the GEO NCBI database and to find the most significant signaling pathways from KEGG PATHWAY. Using the developed script, we analyzed the Affymetrix microarray data, identified and visualized the most significant signaling pathways involved in reprogramming of lymphatic endothelial cells infected by human Kaposi's sarcoma-associated herpesvirus (KSHV).

Slides
Comparative analysis of NUMT in underground and terrestrial rodents | Zoological Institute RAS

students: Ekaterina Sytnik
scientific adviser: Olga Bondareva

NUMT (nuclear mitochondrial DNA segment) is a transposition of mitochondrial DNA into nuclear genome. They are found in all eukaryotes but significantly differ in length and number among different species. Particular factors that can be associated with NUMTs are still not determined. Due to the specificity of mitochondrial genes, habitat conditions may be one of the factors.

They aim of this study was to estimate the number of NUMT for underground and terrestrial rodents. For this work we only analyzed long (>300 n.p.) NUMTs of protein- coding regions. We used Genbank database for mitochondrial and nuclear genomes (4 species for each group) and BLAST for NUMT searching. It was found that some genes like ND4L and ATP8 are not likely to be included in NUMTs, which may be caused by the small size of the genes. Some underground species are shown to have a larger amount of long NUMTs but it is yet unclear if the same is true for whole group.

Further study should include larger amount of species and dN/dS analysis for each gene to determine whether some of the NUMTs may have a functional role.

Slides
The comparative analysis of MDR Klebsiella pneumoniae genome | Children's Scientific and Clinical Center for Infectious Diseases

students: Anastasia Kapanina, Nina Lukashina, Daria Likholetova
scientific advisers: Eugene Bakin, Oksana Stanevich, Sergey S. Sidorenko
Klebsiella pneumoniae is a gram-negative bacteria that is known as opportunistic, hypervirulent, and multidrug resistant hospital pathogen. The problem of resistance to carbenemase group of antibiotics makes it one of the main threats during hospitalisation. The diversity of K. pneumoniae is studied by whole-genome sequencing (WGS) and multiple typing methods including multi-locus sequence typing (MLST), that separate strains into different lineages. In our study we assembled and analysed genomes of 22 isolates of different years and sources from the Saint-Petersburg hospitals to identify their origin and describe their pangenome.

With use of Kleborate tool, we found that our strains belong to common european and asian MLST types (ST147, ST11, ST340 and ST395). All of them carry NDM-1 and ParC resistance genes, and only one - OXA-48. According to the genes discovered in strains, we listed inefficient antibiotics for their treatment. Via PlasmidFinder we detected a presence of plasmid R27 of Salmonella typhi, that can be explained by contamination of samples or by horizontal transfer between K.pneumoniae and S. typhi.

According to an existing literature, the obtained MLST types are spread in Europe and Asia. However, for obtaining a more detailed result about an origin of the strains, a genome structure analysis is needed. In conclusion, we can say that within the period from 2012 to 2016 there were no invasions of new sequence types on a territory of mentioned hospitals. The obtained results of pangenome analysis can be used in treatment prescription.

Slides
Comparative analysis of the human pathogens genomes Neisseria meningitidis | Children`s Scientific and Clinical Center for Infectious Diseases

students: Anton Matiiv, Ilia Sheshukov
scientific advisers: Eugene Bakin, Oksana Stanevich, Sergey S. Sidorenko

Neisseria meningitidis or meningococcus often colonizes the mucous membrane of the oropharynx, causing no visible symptoms, but is also the main cause of bacterial meningitis and sepsis throughout the world. The epidemiological profile of N. meningitidis varies in different populations, and over time, the virulence of meningococcus is based on the plastic genome and the expression of certain capsular polysaccharides and non-capsular antigens. Twelve different serogroups based on the polysaccharide capsule have been identified, but only six of them (A, B, C, W, X and Y) account for 90% of the invasive meningococcal disease worldwide. Seven housekeeping genes for meningococcal strains are used for MLST (multilocus sequence typing) to determine their sequence types (ST).

The aim of our work was to compare whole genome sequencing data of 20 Neisseria meningitis samples isolated from carriers and sick people, to use phylogenetic analysis and to find a connection with antibiotic resistance, virulence and carriage.

Before the analysis of sequences, we have written a computer script for interfacing and downloading reference genomes from NCBI. We analyzed the antigen-encoding, virulence and carriage associated and antibiotic resistant gene profiles. We also searched for amino acid changes leading to penicillin resistance. To estimate the relationship between samples, phylogenetic trees were constructed on the basis of isolates assemblies by using CSI Phylogeny and REALPHY. We constructed phylogenetic trees for carriage associated genes to figure out if the samples would cluster according to their origin of isolation.

Slides
Finding of cis-regulatory elements in promoters | University of La Verne

students: Daria Balashova, Elena Polyakova
scientific adviser: Tatiana Tatarinova

We consider a genome-wide statistical approach for the detection of specific DNA sequence motifs based on similarities between the promoters of similarly expressed genes. A comprehensive landscaping of major regulatory motifs can contribute to understanding molecular mechanisms of many complex diseases.

Assuming position-specificity of the function of promoter motifs, providing gene expression data of reasonable measurements of the number of transcripts and reflecting of the activity of the promoter, we develop cisExpress software that includes the algorithm for finding statistically significant associations between words of defined length with respect to the transcription start site in the expression dataset. Subsequent optimization includes combining motifs that have small differences and clustering basic words of fixed size into larger composite motifs. The analysis of time series, conducted on the basis of Hidden Markov Models, allows us to observe the significance of the found motifs over time. The tool is complemented by interactive graphical representations.

Slides
Analysis of the Drosophila melanogaster full genome sequences | EPAM Systems, Lifesciencs department

students: Anna Namyatova
scientific adviser: Gennady Zakharov

Drosophila melanogaster is a model object for studying insect genomes. The results can be used to make prediction on the human diseases. We had the Illumina full genome sequences for two wild type lines and two mutant lines (ts3 and X1). In the ts3 line, the defects were artificially induced with the behaviour being restored to normal after the thermal shock. The defects in the line X1 were spontaneous and permanent. The aim was to compare the mutant line genomes with each other and with those of the wild type lines, and find the genes responsible for the abnormalities in the nervous system structure and function. We used the following tools for our analysis:

1. FastQC. Sequences quality check.
2. Trimmomatic Trimming the bad quality nucleotides.
3. Bwa. Genome assembly.
4. Samtools. Creating, sorting and indexing the .bam file.
5. Picard. Adding the Readgroups into .bam files.
6. Gatk. Variation calling.
7. Vcf-merge. Merging the wild type lines mutations.
8. Rtg vcfeval. Comparing the each mutant line mutations with those in the wild type
lines.

The genomes were mapped against the reference genome Drosophila_melanogaster.BDGP6.dna_sm.toplevel.fa. FastQS showed that there were around 30 million reads in each genome, the length of reads ranges between 35 and 76 bp in the raw sequences. The total number of mutations in the wild type line was 1209056. Each mutant line had around 800000 mutations. There were 195743 unique mutations in the ts3 line, and 174653 unique mutations in the X1 line. In the future we are going to perform snpeff and snpsift tools to annotate the mutations, to assign the biological meaning to them and to exclude the nonsense mutations.

Slides
Transcriptional response of pea roots to symbiosis markers | All-Russia Research Institute for Agricultural Microbiology

students: Varvara Tvorogova
scientific advisers: Polina Kozyulina, Elena Dolgikh

Root nodules in legumes are symbiotic organs hosting nitrogen-fixing bacteria. At the beginning of the formation of nodule, bacteria enter the intercellular space of the root; therefore, the host plant needs an accurate recognition system that allows it to let symbiotic bacteria pass inside its tissues and block parasitic organisms from doing the same. The main external signals that provide such recognition are chitooligosaccharides of different lengths. Thus, chitooligosaccharides consisting of five monomers (co5) are markers of symbiotic bacteria, while chitooligosaccharides consisting of eight monomers (co8) are markers of parasitic organisms (insects and fungi).

The purpose of this study was to analyze the data of MACE-sequencing of pea (Pisum sativum) RNA from roots pretreated with co5 or co8 chitoligosaccharides. Using the pea nodule transcriptome obtained previously (Zhukov et al., 2015) and the Dedupe software from BBTools package, we removed ambiguous transcripts and got the optimal reference transcriptome for our data. Then, using the DESeq2 and GSEABase packages, we analyzed differential gene expression in our samples and performed gene enrichment analysis. According to the results obtained, co5 treatment shows more prominent differential gene expression compared to co8 probably due to incomplete reference transcriptome. However, both co5 and co8 chitoligosaccharide treatments activate gene sets that are responsible for parasite-host interaction, chitin binding and cleavage, as well as numerous signaling pathways which include different phytohormones, receptor kinases and transcription factors.

Slides
Modeling of mouse chromosome banding pattern | Bioinformatics institute

students: Yury Lebeda
scientific adviser: Yury Barbitoff

Differential chromosome staining is a method of chromosome staining with special dyes to detect certain discs or regions of the chromosome (also called chromosome bands). The resulting banding pattern is an important marker of genome architecture; however, no specific molecular determinants of it are known to date. Previously, our group discovered the relationship between the pattern of differential staining of chromosomes and several genomic features (ChIP-Seq tracks of Smc1a/Smc3, CTCF, polyA and polyT repeats). However, when validation of this relationship using the genome of Mus musculus was attempted, it was found that the distribution of genomic elements within the M. musculus bands differs from that observed in humans. In this project, we took an effort to develop a model that would be able to predict the border regions between bands, on the basis of the human genome data, and apply this model to predict the banding of M. musculus chromosomes.

We built a random forest model to predict the borders of the bands based on the number of genomic elements (i.e., ChIP-Seq peaks or k-mers) lying in the intervals of a given width inside and outside of the band borders. For prediction, the M. musculus genome was cut into intervals of the same width by a sliding window; and the resulting intervals were annotated with the same features that were used to train the model. Unfortunately, all the models constructed (despite high cross-validation AUC scores) failed to provide reasonable predictions – both for the mouse and human genomes, the results of the prediction of band boundaries differed from the already existing markup. The results can be explained by a large number of false-positive results, which becomes significant even with a small false-positive rate at large numbers of trials. Hence, a new model has to be sought for to explain the nature of chromosome bands.

Slides
De novo assembly and analysis of Platynereis dumiliii (Nereididae, Annelida) transcriptome
at different stages of regeneration
| Saint-Petersburg State University

students: Natalia Zenkova, Ruslan Abasov
scientific adviser: Maxim Nesterenko

Regeneration – the regrowth or repair of cells, tissues and organs – is widely but non- uniformly represented among all animal phyla. However, the potency of its highly variable even within a single group. The object of this study is the polychaeta Platynereis dumerilii (Nereididae, Annelida), capable to recover only tail. RNA-seq data of different time points after amputation (0, 4, 12, 24 hours, 2 and 4 days) from "head" and "tail" sites of regeneration were analyzed. Libraries of corrected read pairs (Karect, Trimmomatic, BBtools) were used to the de novo assembly of reference transcriptome (Trinity).

The resulting assembly was characterized by high quality (TransRate-score = 0.2441) and completeness (BUSCO vs Metazoa-odb9 = 99.5%). The amino acid sequences predicted by TransDecoder (N = 160381) were compared to the Swiss-Prot database using the Diamond (e-value = 1e-10). More than 61% of the sequences were successfully annotated, but among the sequences without hits we assume the presence of species-specific proteins. Based on the normalized expression levels analysis results (Salmon), sets of "associated" sequences were highlighted for each of the samples. We suggest that incomplete overlap between "associated" sets both between time points and between sites indicate complex dynamics of gene activity during postamputation events. However, expression patterns of regeneration conservative genes (for instance: Piwi-, Vasa-, Wnt- and Notch-like) varies slightly between "head" and "tail" sites. Based on the results obtained, it can be assumed that cell proliferation is not over on 4 days after amputation and damaged structure recovery will be observed at later stages of generation.

Slides
Analysis of nonsense alleles of Caenorhabditis elegans genes | Lomonosov Moscow State University

students: Daria Chaplygina
scientific adviser: Nadezda Potapova

Nonsense mutation in gene is a mutation that results in a premature stop codon. Most of genes with nonsense alleles translates into a nonfunctional proteins, which makes such genes to be a pseudogenes. The purpose of this study was to analyze the distribution of nonsense mutations in Caenorhabditis elegans genes and to perform a direct measurement of the strength of negative selection acting on nonsense alleles. For the measurement we counted the average ratio of the number of nonsynonymous mutation to the number of synonymous mutations for each gene (pN/pS ratio). The obtained pN/pS ratio then was compared to the pN/pS ratio in genes without nonsense mutations. Genome sequences processing was performed by SAMtools, VarScan and SnpEff.

According to the obtained results, the most of synonymous mutations are located at the 3′-end of gene, where they are less harmful. Also it was shown that nonsense alleles, common for many species in population, are rare, which must be due to negative selection against them. The average pN/pS ratio appears to be about 1 for genes without nonsense alleles and slightly more than 1 (1.2) for genes with nonsense alleles. Such results means that negative selection does not act on any gene, which can not be true. The mistake could be explained by possibly wrong variant annotation.

Slides
Prioritization of genetic variants | Bioinformatics Institute

students: Vasiliy Isaev, Liubov Lonishin
scientific adviser: Yury Barbitoff

The identification of deleterious mutations within candidate genes is a crucial step in the elucidation of the genetic bases of human disease, consequently, there is a need to aim attention at classifying appropriate mutations. The goal of our programme, which is called MutationsPriorityPredictionTool (MPPT) is to find out these genetic variants from thousands of others in order to help clinicians and geneticists.
To calculate the coefficient we have developed an tool. Tool get on input vcf-file and set of simple configurations that contain rules on how to calculate mutation priority score depends from parameters given in the file. After calculating tool will print top of mutation by parameter specified by user. It can be top 10% of mutations or 100 mutations ot other option. We have tested our programme on whole exome sequencing data, obtained from the resource centre. First of all, the selection of the test sample was made in accordance with the ClinVar database and was compared with results of Franklin, which is based on ACMG recommendations (The American College of Medical Genetics and Genomics). The percentage number of correct calls by MPPT was calculated, and the sensitivity and specificity of the method was determined. Accuracy of our programme is 67,5%, sensitivity is about 100% (95% CI = 79.4% to 100.00) and specificity is 60,6% (95% CI =53.9% to 67.3%). Testing on the whole data, we obtained 114 mutations above the threshold from more than 22 thousand at all.

MPPT focuses on pathogenic variants without losing them, but also keeps some benign variants which should be manually checked by a specialist after running. In the future, we will add this functionality to NGB (New Genome Browser).

Slides
Assembly of yeast genome with Oxford Nanopore data | Bioinformatics Institute

students: Andrew Matveenko
scientific advisers: Yury Barbitoff, Alexander Predeus

Baker's yeast Saccharomyces cerevisiae is a widely used model organism. The Peterhof genetic collection (PGC) is a large laboratory stock unrelated to the yeast reference strain. Previously, several PGC strains were sequenced using Ion Torrent technology. However, the resulting assemblies were incomplete and required substantial improvement. We attempted to obtain a reference quality assembly of one PGC strain, 1A-D1628, using Oxford Nanopore Technology (ONT) sequencing.

Raw data was obtained from one ONT MinIon flowcell which generated 10.15 Gbp total sequence length (836x coverage). To create draft genome assembly we used three long-read assemblers: Canu, Flye and wtdbg2. Canu produced the best results, with 17 large (> 50 kbp) contigs that correspond to 16 yeast chromosomes and mitochondrial DNA. Flye was slightly worse with 18 large contigs as it failed to assemble chromosome III as a single molecule. Wtdbg2 failed to produce any sensible sequence. Comparison of the Canu assembly with the reference showed that it contained 105 misassemblies, and large amount of mismatches and short indels. We also analyzed structural variations in the strain using NGMLR-Sniffles pipeline. The results of analysis were concordant with variations described previously in 1A- D1628.

In conclusion, the data obtained from the Oxford Nanopore sequencing can be used to analyse structural variations in the 1A-D1628 strain. However, the de novo assembly requires additional correction and polishing to reach the reference quality. Several strategies can be used to achive this goal. First, an alternative basecaller can be used to improve the quality of reads. Second, exclusively for ONT, the assembly can be improved by polishing with the MinIon raw signal using Nanopolish tool. And finally, polishing the assembly with the obtained Illumina reads should improve the accuracy of the sequence producing high quality reference, which can be used for comparative genomic studies.
The work is supported the RSF grant 18-14-00050.

Slides
The study of processes of gene gain and loss within Lactobacillus species | Zoological Institute RAS

students: Anastasia Kosolapova
scientific adviser: Olga Bondareva

Lactobacillus genus includes Gram-positive non-sporulating bacteria known for their ability to produce lactic acid as a result of carbohydrate fermentation. To date more than 180 species refer to Lactobacillus genus. A hallmark of that genus is a high level of intra-group diversity. Firstly, the diversity exhibits in ecology of the group as lots of Lactobacillus species are associated with cavities of human and animals, for example gastrointestinal tract and urogenital tract, while others can be found on plants, in dairy and fermented products. Secondly, the genome size of Lactobacillus bacteria can vary between 1.2 Mb and 5 Mb.

The aim of this work was to study connection between ecological specificity and genome organization within various strains of Lactobacillus and analyze influence of ecological specificity on processes of gain and loss of genes. As a data for analysis we used protein and CDS sequences for 185 Lactobacillus species (1708 strains) from RefSeq database. Lactococcus lactis subsp. lactis Il1403 protein and CDS sequences were used as an outgroup. We classified species into 7 groups based on ecological niche. We revealed orthologous proteins within strains using Proteinortho5/POFF software. Further research should involve a phylogenetic tree reconstruction based on full orthologous genes groups followed by gain-loss analysis performed with GLOOME software.

Slides
Detection of interchromosomal rearrangements from Hi-C data | ITMO University

students: Elena Kartysheva, Dmitriy Orekhov
scientific adviser: Nikita Alexeev

Chromosomal rearrangements disturb complex 3D structure of eukaryotic genome and may lead to various disease among which is cancer, detecting them may be useful in early diagnostics. Hi-C is a relatively recent sequencing method that estimates 3D proximity between different regions of a sequenced genome, this type of data allows for detection of different chromosomal abnormalities. We have developed an algorithm that scans through Hi-C map and reports the presence of interchromosomal rearrangements with the coordinates of their breakpoints. The algorithm relies on 2D convolution and GMM for filtering out the data and detection of interchromosomal interactions, then a sliding-window approach is used for breakpoint localization. The method is tested on Hi-C maps obtained from glioblastoma cells of H.Sapiens, showing both high precision and high recall.

Slides
Plasmid host range prediction based on CRISPR arrays. Plasmids CRISPR Cas systems search. | CAB SPbU

students: Mikhail Kongoev, Iana Fedorova
scientific adviser: Mikhail Rayko

Horizontal gene transfer plays a highly important role in evolution of bacteria. Presumably, gene exchange between bacteria occurs by genetic mobile elements such as plasmids and bacteriophages. But for nowadays there is no reliable way to check if the certain plasmid can "travel" between bacteria of different origin, and how wide the plasmid host range could be. Also it is important to be able to predict plasmid host in case of metagenomic data, where we usually have dozens of novel plasmids without any information of host species.

To answer this question, we analyzed CRISPR cassettes in bacterial genomes – repetitive sequences in bacterial DNA, interspaced with unique "spacer" sequences, which were extracted from genetic mobile elements infected the bacteria or its ancestors. Spacers in CRISPR cassette can be considered as a link between the plasmid and its host.

We used CRISPR Finder spacers database and the RefSeq database of all plasmids known to date (November 2018). Blasting spacers over plasmids sequences allowed us to determine plasmid host ranges: variety of bacterial organisms where the plasmid can exist. By taxonomy analysis we found some plasmids which can live in different families of organisms, they can be useful in genetic engineering as a natural shuttle vectors. Taxonomy analysis showed that a bunch of plasmids have additional hosts except of host they were related to according to RefSeq database: 543 blast hits – additional hosts of different genus, 29 blast hits - different family, 19 - different order, 12 - different class and even 2 blast hits – additional hosts of different phylum! Thus, plasmids are actually "travelling" between bacteria species and can be important players in process of evolution.

We also found, that a lot of plasmids carry their own defense CRISPR systems (10% of RefSeq plasmids). Part of these systems (10%) seems to be active – there are Cas1 genes near CRISPR cassettes. Role of these systems in plasmid propagation, host fitness and evolutionary relationship with the known chromosomal CRISPR-Cas systems is the subjects of future research.

Slides
Automated pathway annotation for single-cell RNA-seq | Washington University in Saint Louis / ITMO University

students: Maria Firuleva
scientific adviser: Konstantin Zaitsev

Method of single-cell RNA-seq expands the opportunities to research a biological difference between cells of interest by the individual transcriptome analysis of each cell simultaneously and to study the cell's processes more deeply. Increasing pace of RNA-seq methods expects automated approaches to process a huge amount of that data. Different cell processes are mediated by a different set of genes (signal pathways), and expression of appropriate genes changes due to activation or deactivation of appropriate signal pathways. The main target of this project is to develop a method for automated annotation of pathways which are significantly upregulated in the single-cell dataset.

We developed a three-step approach to identify differentially expressed pathways, which is applied after performing the usual single-cell rna-seq pipeline using Seurat package. First, we calculate how each pathway is expressed in every cell. Second, randomly sampling gene sets we identify candidate cells that in which pathways are upregulated more than at random. Third, we identify clusters in which there are more candidate cells than at random, using hypergeometric distribution. As a result, our program returns a matrix with cell clusters as columns and pathways as rows which values are adjusted p-values. Developed approach combined with cumulative statistic approaches allows to quickly find significantly upregulated pathways in a single-cell dataset for all clusters and large gene set databases.

Slides
Automated marker descriptor for single-cell RNA-seq | Washington University in Saint Louis / ITMO University

students: Daria Gorbach
scientific adviser: Konstantin Zaitsev

Method of single-cell RNA-seq provides an opportunity to detect gene expression and specific cellular processes from lots of cells simultaneously, and each cell type has its own combination of expressed markers, which helps to discriminate one cell population from another. Increasing rate of RNA-seq technologies demands automated methods to obtain increasing amount of that data. Popular approach of cell types identification is based on "one versus all" method, which compares gene expression profiles for one cellular cluster with all the rest. It is a way to find statistically significant markers for each cluster, however, this method fails to identify "unique" cluster markers and quite often reports markers that are not unique for a certain cluster. Cell surface markers are of particular interest for that kind of research, as they are most frequently serve as markers of specific cell types.

Our approach was to make an automated descriptor, using pair-wise comparison of expressed markers. We used MGI database for mice cell surface proteins and "Seurat" package – R toolkit for single-cell data analysis. Thus, we compared expression levels of each cell surface marker between different cellular subtypes (T h -lymphocytes, macrophages, etc.) and obtained one or several unique markers expressed uniquely in each subtype. This method allows us to describe each cluster with a set of unique surface marker genes identifying any of that type.

Slides
The effect of X chromosome inactivation on the expression of autosomal genes | Bioinformatic institute

students: Daria Kilina
scientific advisers: Yury Barbitov, Rostoslav Skitchenko

X chromosome inactivation (XCI) silences the transcription of genes located on one of the X chromosomes to balance expression dosage between XX females and XY males. According to a recent work by Tukiainen et al., there is no total X chromosome inactivation in humans as up to one-third of X-chromosomal genes are expressed from both the active and inactive X chromosomes in female cells. Howeer, the effects of XCI on the expression profile of autosomal genes have not yet been assessed. In this study we compared the expression of autosomal genes in cells with different active X chromosome copies.

To answer this qestion we analyzed public experimental data of single-cell RNA-sequencing of pancreatic islets from one female individual. We aligned the reads coming from each cell to a reference genome assembly using bowtie2. We then performed variant calling with samtools/bcftools in order to group the cells by active X chromosome by visual inspection of the alignments and SNP calls in IGV. We grouped the cells by alleles at variant sites in the XIST gene that is totally expressed from only one X chromosome. We then quantified gene expression levels with RSEM and used LIMMA plugin in the Phantasus browser to compare gene expression in the two groups of cells defined above.

We identified some candidate genes, expression of which depends on the active X chromosome copy; however, the difference in the expression levels of these genes between groups was not significant (P-value < 0.05, adjusted P-value > 0.05). Furthermore, we observed lack of clear separation between the two groups of cells based on principal component analysis (PCA), which may indicate confounding effect of cell types or other factors. Hence, the effect of differential genes expression from the X chromosomes on the expression profile of autosomal genes needs further investigation.

Slides
Increasing the length of introns due to transposable elements | Vavilov Institute of General Genetics Russian RAS

students: Anastasiia Murzina
scientific adviser: Irina Poverennaya

Unlike exons - coding regions of a gene, intron sequences are known for a high degree of mutagenesis and, in accordance with this, great variability, so that even the length of an intron can differ greatly in related organisms. A significant increase in the length of introns may be due to the active accumulation in introns of a large number of transposable elements (TE) and repeats. In this project, our goal was to get depence between intron length and count of transposable elements.

The Dfam database is a collection of Repetitive DNA element sequence alignments. This database was used with RepeatMasker programm, which based on usage Hidden Markov Models, to search TE of human genome. TE and repeats take up 43 percent on the average of the length of all introns. There is a correlation between the intron length and the TE length for introns with a length of more than 300 nucleotides, however, very long introns (> 12000) correlate with the TE length better than the average length introns.

Slides
Аnalysis of factors affecting the course of chronic myeloid leukemia | Pavlov First Saint Petersburg State Medical University

students: Nadezda Pogodina, Irina Babkina
scientific advisers: Eugene Bakin, Oksana Stanevich

Chronic myeloid leukemia (CML) is a myeloproliferative disorder characterized by unregulated granulocytic proliferation. A standard treatment includes tyrosine kinase inhibitor (TKI) and hematopoietic stem cell transplantation (HSCT). In this project, our goal was to identify the factors that have an impact on survival after HSCT. The most common method of survival analysis is a Kaplan-Meier approach. These method works on censored data, when observation ended up before event of interest occurred. We plotted overall and event-free survival curves. Cumulative survival probability was 37.9%. Then, we performed analysis of single variables (conditioning regimens, phase of CML et al.) and compared survival curves in log-rank test. We identified one statistically significant factor: cyclophosphamide therapy after HSCT (p-value = 0.03). CML therapy has been improved, so we used multivariate analysis to assess the influence of new treatment methods on the survival using correlation test. Correlation matrix showed weak association, that's why we selected the following factors with the specialist`s help: conditioning regimens, phase of CML, graft compatibility, TKI therapy, cyclophosphamide therapy after HSCT. Ordination methods (PCA and MDS) showed 3 clusters of therapy factors, distributed between 3 era: 1995-2006, 2007-2012, 2013-2018. The eras' survival curves were also statistically different (p-value = 0.009).

Slides
Identification of pathway genes triggered differential expression profile changes | Pavlov First Saint Petersburg State Medical University

students: Daria Gorbach
scientific advisers: Eugene Bakin, Oksana Stanevich

Analysis of complex cellular pathways can be an issue. However, despite dozens of possible interconnections between genes in the pathway, it only requires to know the few key genes, that invokes changes in differential expression profile. In recent work we managed to find key genes that orchestrate early changes in differential expression during the Kaposi's sarcoma-associated herpesvirus (KSHV) invasion.

We used the real clinical data from cells infected with KSHV - a table of differentially expressed genes, that was previously visualized and selected in the Phantasus software. Then, we intersected these genes with pathways from the KEGG ((Kyoto Encyclopedia of Genes and Genomes) database, to choose pathways, that contain genes of interest. Selected pathways were processed using the KEGGgraph R package. We applied so called "breadth-first search", as we search for every "descendant gene" of every
single gene in the pathway and compared the number of differentially expressed ones among them. Gene, that has the biggest amount of those genes (and the lesser number of non-differentially expressed descendants) is considered to be "the key gene", that initiate following changes in that part of the pathway.

All genes from KSHV-infected cells data were intersected with KEGG database (KEGG.db) and, as a result, 143 pathways possibly related with KSHV were obtained, and 6 perspective "key genes" were identified. We also proved its connection with KSHV pathogenesis (from literature data).

Slides
Analysis of yeast genomes from the Peterhof genetic collection | Bioinformatics Institute

students: Anton Matiiv
scientific advisers: Yury Barbitoff, Alexander Predeus

The Peterhof genetic collection of Saccharomyces cerevisiae strains (PGC) is a large
laboratory fund, which has accumulated several thousand strains for more than half a century. Several PGC strains have been widely used in certain areas of yeast research, but their genomes have not yet been fully studied. The genetic distance between the precursor PGC and S288C is comparable to that between two geographically isolated populations. This project is a continuation of a project to assemble the yeast genome from Oxford Nanopore (ONT) data.

During this project it was supposed to identify compensatory mutations that allow cells to
survive with the disruption of the gene encoding the vital translation termination factor.
At the moment we have obtained 3 genome assemblies of Saccharomyces cerevisiae
1A-D1628 strain: (1) draft genome assembly from ONT reads, that was assembled previously with canu, (2) enhanced polished with Nanopolish genome assembly, and (3) even more enhanced with Racon and Nanopolish genome assembly. If compared with QUAST, the final (3) assemble had 205.12 mismatches per 100 kbp (against 212.37 for (1) and 207.85 for (2)) and 25.04 ndels per 100 kbp (against 343.76 for (1) and 73.09 for (2)). So, we can assume enhanced with Racon and Nanopolish genome assembly is our best genome assembly of Saccharomyces cerevisiae 1A-D1628 strain.

In order to make annotation of Saccharomyces cerevisiae 1A-D1628 strain we used
Exonerate, Maker, RGAAT and RAAT tools. But only with Exonerate it was possible to
create annotation with similar gene numbers compared with closely related Saccharomyces cerevisiae S288C strain. Also, this obtained annotation was used for SnpEff database building.

Slides
Systematic comparison of state-of-the-art variant callers' performance | Bioinformatics Institute

students: Ruslan Abasov, Varvara Tvorogova
scientific advisers: Anton Shikov, Yury Barbitoff

Exome sequencing is the technology of sequencing all protein-coding parts of the
genome, i.e.,sequencing of all exons. Exome sequencing is widely used in medical genetics as most of the relevant variations are concentrated in the coding loci. The processing of raw exome sequencing reads generally includes read alignment, variant calling, and filtering of the identified variants (single-nucleotide polymorphisms (SNPs) and insertion-deletion variants (indels)) using various methods. The output of such pipeline represents a VCF file containing a list of variants identified in one or several samples. When analyzing the human genomes, especially when searching for variants associated with disease, the accuracy of variant calling is extremely important. Our goal was to evaluate this accuracy for different variant calling pipelines.

The main goal of this project was to compare different pipelines for exome variant
calling. We used the following tools in our analysis: GATK3, GATK4, STRELKA v. 2.9.10,
DEEPVARIANT v. 0.7.2, and FREEBAYES v. 1.2.0. For evaluation of the accuracy of small variant discovery we used the gold standard datasets from the Genome In A Bottle (GIAB) Project, as well as the recently developed Synthetic Diploid Sequence (SynDip) benchmark dataset. We compared the average quality of the variant calls across all samples using the F1 metric that is widely used to evaluate the performance of classification algorithms. For small indels, the older version of GATK - GATK3 showed the best variant call quality, unexpectedly outperforming the newer version of the tool, GATK4. For SNPs, DEEPVARIANT showed the best results. We also found that the variant call quality is highly variable among different samples even for the same variant calling tool, supposing that factors other than variant caller, such as sequencing coverage, sample preparation, and type of experiment (exome or genome sequencing), also influence the accuracy of small variant discovery.

Slides
Implied weighting as a measure of clade support: automation of the task and comparative assessment of results | Saint Petersburg State University

students: Ekaterina Sytnik
scientific advisers: Lavrentii Danilov, Fedor Konstantinov

Implied weighting (IW) is a method in parsimonial phylogenetic analysis that allows to
assign weights to characters in data according to their appearance in homoplasies and
additional parameter k. k - parameter that describes the degree of concavity of the function, which describes the weight of signs This method is usually used for morphological data for which some characters are more important than others. This is important for parsimonial analysis and assigning weights can significantly affect the resulting trees.

The most common program for IW analysis is TNT which was developed by Goloboff. It has a default k = 3 which is considered not recommended due to eliminating of homoplasies at lower k values. At the same time there is no consensus about optimal k value, usually only one value is used.

We have used the idea of applying IW with different k values as a clade support method as more stable clades should be obtained in the wide range of k values. We have constructed TNT and Python scripts allows to set minimal and maximum for k and calculate optimal k values based on logarithmic scale. Initial tree and IW are done using command-line TNT. The output of the scripts is a majority-consensus tree with bootstrap values calculated as a percentage of k values where this clade is presented. Resulting tree can be received is user- defined format (nexus, newick, phyloxml, nexml, cdao).

Slides
Antimicrobial peptide prediction in non-model species based on transcriptome data | Institute of Biology at Irkutsk State University

students: Irina Babkina
scientific advisers: Polina Drozdova

Lake Baikal hosts a unique deep-water freshwater fauna, which includes various
representatives living in a wide range of environmental conditions, from the littoral zone to
the maximum depth. The main diet of deep-water representatives is carrion with a specific
saprotrophic microbiota. Thus, the deep-water crustaceans are assumed to have a variety of protection mechanisms against pathogens, including antimicrobial peptides (AMPs).
RNA-seq data can be used to predict the proteome, and thus they can also be used to search for AMPs. Kim et al., 2016 developed a pipeline to search for AMPs in cockroach transcripts.

However, the specifics of our data and additional interest also to the cryptic AMPS require its improvement. To search for known AMP, we performed a blastp search on the db_AMP database. In transcripts of 2 species, Ommatogammarus flavus and Eulimnogammarus verrucosus, 4 groups of proteins similar in structure to decapod crustins were found. All of them have homologous sequences within the published amphipod transcriptomes. Earlier, crustins of amphipods have never been described in detail.

For the prediction of AMPs, we used the pipeline from Kim et al., 2016 with an additional
step to search for cryptic AMP. In the Ommatogammarus flavus transcriptome, we
discovered 916 potential AMPs that need to be checked in vitro and in vivo.

Slides
Diversity of opsins in transcriptomes of Baikal endemic amphipodes | Institute of Biology at Irkutsk State University

students: Alena Kizenko, Yana Fedorova
scientific advisers: Polina Drozdova

Amphipoda are malacostracan crustaceans generally characterized with laterally compressed bodies. Amphipod species inhabit different areas and depths of seas and freshwater bodies. Orientation of amphipods in water is regulated by opsins, G protein-coupled transmembrane receptors, which form visual pigments together with retinal chromophores and play key roles in animal photoreception. Baikal endemic amphipods vary in habitat and color, so the aim of this project was to discover which opsin genes these amphipods have and how natural selection has influenced the representation of opsin types.

We analyzed quality of transcriptomes using BUSCO v3 (Benchmarking Universal Single-
Copy Orthologs). As the quality of assemblies was rather bad, we filtered out species
transcriptomes of which possessed more than 20% missing BUSCOs. Then we applied the PIA (phylogenetically-informed annotation) pipeline to the remaining transcriptome
assemblies. We slightly modified this pipeline to make it more useful for genes' search in
transcriptomes of bad quality and added the Gblocks step. Gblocks eliminates poorly aligned positions, which can occur due to the partial CDS alignment, so that alignment becomes more suitable for phylogenetic analysis.

Finally, we discovered that Baikal amphipods possessed only long-wave sensitive opsin genes and opsin-like proteins. We suppose that Baikal amphipods have lost the expression of short-wave and ultraviolet sensitive opsins due to natural selection.

Slides
Whole-genome Drosophila sequence analysis | EPAM Systems, Lifesciencs department

students: Anastasia Kosolapova, Iury Lebeda
scientific advisers: Gennady Zakharov

Drosophila fruit fly (D.melanogaster) is a widely known and popular model organism. Due to the small size of the Drosophila genome and its rapid reproduction, it is fairly easy to study various conditions and diseases. In this work, DNA sequences of two mutant D.melanogaster strains (X1 and ts3) with disturbances in the structure and functioning of the nervous system, and three wild- type strains without physiological pathologies were studied. Both of these mutant strains can potentially be used to study Williams syndrome in humans.

After the initial quality control of the Illumina NGS reads, they were aligned to the reference genome, and variations were found in each strain. After that, from the list of variants of mutant strains, variants of wild-type strains were removed. In the region of limk1 gene (potential origin of variations forming mutant phenotype according to previous studies), several variations were found that were identical for both mutant strains; however, after filtration these variants were eliminated. The final set of variations unique for mutant strains was divided into groups by significance for manual analysis.

Slides
Searching for latent viruses in human whole genome sequencing data | Genotek

students: Alisa Morshneva, Nadezda Pogodina, Iury Orlov
scientific advisers: Valery Ilinsky, Alexander Rakitko

Viral ability to stay in an asymptomatic phase of infection when a virus is not replicating is
known as latency. A virus can stay latent for decades without exposing itself, although
maintaining a capability to cause acute infections. Hence, viral presence in the human
organism can remain undetected.

Human whole-genome sequencing data contain sequences of dsDNA-viruses (or integrated RNA-viruses) apart from human sequences, because all such sequences are technically indistinguishable in the host DNA. The viral sequences aren't aligned to the reference human genome and can be identified by mapping to the viral genomes. There are six viral families which we initially expected to observe as they store their genetic material in dsDNA form: Adenoviridae, Herpesviridae, Poxviridae and Polyomaviridae (linear dsDNA), Papovaviridae and Hepadnaviridae (circular dsDNA).

In this project we estimated the viral load in WGS data (blood samples) from private Genotek database and 1000 Genomes project. For this purpose we developed a pipeline for detecting viruses in human WGS data using Kraken2. Almost in all the samples Epstein-Barr virus (EBV) was found. Mastadenoviruses were detected only in 23% of the samples. In order to determine an associations between viral load level of EBV/viral presence of Mastadenoviruses and SNPs in human genome we performed GWAS using genuine Genotek pipeline on 5 european populations from 1000 Genomes project (CEU, FIN, GBR, IBS, TSI). GWAS revealed several significant SNPs possibly connected with the viral load rate. However, their functions should be explored.

Slides
Detection of pathogenic INDELs and SNPs in whole-exome sequencing data of patients with
different types of idiopathic cardiomyopathy
| Almazov National Medical Research Centre

students: Daria Kilina
scientific advisers: Artem Kiselev

Idiopathic cardiomyopathy is a primary cardiovascular disease with high heterogeneity
caused by functional lesion in cardiomyocytes in consequence of genetic abnormalities. In
this study, we undertook a whole exome sequencing (WES) approach to identify novel
candidate single nucleotide polymorphisms (SNPs) and insertions/deletions (INDELs)
associated with different types of idiopathic cardiomyopathies.

The cohort consisted of 10 patients with idiopathic cardiomyopathy. This samples were
processed with Variant Calling pipeline (GATK) implemented on Snakemake and annotated by annovar, snpEff. The total number of SNPs - 203 827, insertions - 14 352, deletions - 19 891. Among discovered SNP 48.07% variants were missense, 51,38% variants were silent and 0,55% were nonsens. As a result of comparing the allele frequencies of observed variants against all ExAC population and taking into account the tool prediction (SIFT, Polyphen2, LRT, MutationTaster, MutationAssessor, FATHMM, Provean, CADD, MetaSVM) 6 previously unknown SNPs with damage effect were detected. New INDELs variants haven't been identified.

Mutation in SLC2A8 gene can lead to increased reliance on glucose utilization contribute to the development of cardiac dysfunction, but we cannot state it with certainty on this stage of the project. Hence, the effect of discovered mutations on the pathogenesis of idiopathic cardiomyopathy needs further investigation.

Slides
Detection of CNVs in patients with different types of idiopathic cardiomyopathies | Federal Almazov Medical Research Center

students: Olga Romanova
scientific advisers: Artem Kiselev

Array comparative genomic hybridization (aCGH) is considered the gold standard for
copy number variation (CNV) detection. However, next-generation sequencing (NGS) is
developing rapidly. To date there are a lot of NGS laboratories which are using analysis of
whole-exome sequencing in the medical diagnostic of inherited diseases. Despite of NGS
technology is widely disseminated, it is generally not used for CNV detection. We believe that using NGS to identify CNVs and SNVs could be of benefit to laboratories saving time and reducing costs while creating a more comprehensive picture of genomic variation with a single assay.

An aim of this study was to detect of CNVs in whole-exome sequencing data of
patients with different types of idiopathic cardiomyopathies. To achieve our goal, we realized two pipelines CNVkit (https://github.com/etal/cnvkit) and ClinCNV
(https://github.com/imgag/ClinCNV) using snakemake, analyzed a cohort of 10 patients'
whole-exome sequencing data using developed scripts and carried out research clinically
relevant structural variants in patients with different types of idiopathic cardiomyopathies.
With regard to findings of the study there was detect a chromosomal 15q partial
deletion (q11.2-q13.1) in one of the patients. This structural variation was verified by aCGH.

According the literature, the loss of this region associated with Prader-Willi syndrome (PWS).

Slides
SPAdes support for third-party assembly graphs | Center for Algorithmic Biotechnology

students: Natalia Zenkova
scientific advisers: Anton Korobeynikov, Andrey Prjibelski

SPAdes – St. Petersburg genome assembler – is an assembly toolkit containing various
assembly pipelines. SPAdes outputs contigs and genome assembly graph in FASTG and GFA formats, but do not have the ability to accept such graphs as input. FASTG is a format for faithfully for representation of genome assemblies in the face of allelic polymorphism and assembly assembling uncertainty. The Graphical Fragment Assembly (GFA) is a tab- delimited text format for describing a set of sequences and their overlap. The goal of this research project was implementation of support for third-party assembly graphs, in particular, graph gfa format. The implementation of this functionality significantly expands using SPAdes. It allows using repeat resolution and scaffolding based on graphs and built by other genome assemblies. For this implementation the new stage load_graph replacing stages construction and simplification was constructed. For downloading graph class LoadGraph was created. At the moment, SPAdes accepts GFA graph from load_graph stage with Load function. Coverage for edges are read from GFA file.

There is another problem: SPAdes accepts de Bruijn graph as input and do not have the
ability to input another type of sequence graph with overlap equal to zero. The simpler
algorithm was proposed for solving this problem. The goal is transforming arbitrary graph to deBruijn graph. This algorithm consists of three stages: iteration through vertices,
continuation outgoing edges and complementary edges and repeat until all vertices are
processed. But this method is not universal. It is necessary to modificate this algorithm for
some cases: e.g. for situations where there are equal edges, edges shorter than k, where k is k- mer size, in input graph or there is an vertex containing different incoming and different outgoing edges.

Slides
Bayesian optimization for demographic history inference | ITMO University / St. Petersburg State University

students: Ilya Sheshukov
scientific advisers: Ekaterina Noskova, Vyacheslav Borovitskiy

Demographic histories are studied in population genetics to infer the way populations migrate, split and change its size.. One of the most used tools in this area is moments.
The project goal was to replace a BFGS (Broyden Fletcher Goldfarb Shanno) optimization
algorithm used in the moments tool with the Gaussian process based global Bayesian
optimization and to study the effects. Bayesian optimization is a family of global optimization algorithms which can be more appropriate for a given task.

As a result, we successfully integrated optimization routine from the library GPyOpt into
moments. Then we compared the results: our non-exhaustive tests showed that our solution was converging faster than the moments library. Later more exhaustive testing needs to be done.

Slides
Adaptation of fish to the depth | Lomonosov Moscow State University

students: Anna Namyatova, Elena Polyakova
scientific advisers: Nadezhda Potapova

Previously it was shown that most species of deep water fishes possess a rod-only retina with a pigment that is usually shortwave (Hunt et al. 2001). Therefore, it can be suggested that there might be similar changes in the rhodopsin protein in different species, leading to the same adaptation.

To test this hypothesis we downloaded the rhodopsin sequences from Genbank belonging to 34 deep water fish species from seven orders with the recoded depth of living exceeding 3000 m. We also downloaded the rhodopsin sequences for 28 shallow water species. The aminoacid sequences were aligned in Geneious software. Based on this alignment, we calculated the frequencies of the aminoacid changes using the Python script. For comparison between the deep water and shallow water fishes we calculated the differences between the squared frequences of the each aminoacid change in deep water fish and shallow water fish.

We chose the changes based on the following criteria: (1) the difference of the squared
frequences should be > 0.3; (2) there should be more changes in the deep water fishes than in the shallow water fishes; (3) the identical change should occur in >2 orders. Overall, six changes fitted our criteria. We also showed that all those changes were in the domain and that the replacing aminoacids were very similar to the replaced aminoacids in two positions ( <30 based on the Grantham's score).

The further analysis requires checking the active sites of the protein to draw conclusion on
the importance of the found changes for the protein function. Running the analysis for the
larger dataset will provide more robust results.

Slides
Interactive networks of phenotypes / genes / metabolic pathways | Genotek

students: Lonishin Lubov
scientific advisers: Rakitko Alexander

For consultations on the results of a genetic test, it is convenient to have before your eyes information on a phenotype (for example, a disease) and its relationships, presented in a structured form. In this project, it is proposed to implement an R-Shiny application that will display in the form of interactive networks:
- the relationship between phenotypes (which is a risk factor for which);
- gene networks (with the patient variants marked on them);
- metabolic pathways.

Slides
Effect of smoking on human leukocyte epigenome | Institute of Cytology RAS / A.N. Belozersky Research Institute Of Physico-Chemical Biology

students: Polina Pavlova, Maria Firuleva
scientific advisers: Oleg Sergeyev, Yury Kornienko

Environmental factors, including chemicals, can cause epigenetic changes that can be traced to subsequent generations. The most studied epigenetic changes are DNA methylation, small non-coding RNA, and histone modification. Smoking remains one of the most adverse voluntary health risks. Reduced representation bisulfite sequencing (RRBS) data can be used to study the pattern of methylation changes upon exposure to smoking.

Our project is a part of the Russian Children's Study, a prospective cohort of 516 boys who were enrolled at 8–9 years of age and provided semen and blood samples at 18–19 years of age (Sergeyev et al, 2017). We analysed smoking influence on the DNA methylation level of peripheral blood leukocytes at the age of 18. To search for differentially methylated CpG islands and regions (DMR), we used two different approaches. To implement the first approach, we used data from the CpG islands presented in all samples of peripheral blood. After exclusion regions that did not meet the inclusion criteria, we used the A-clustering algorithm (Sofer et al, 2013) to combine the regions into clusters and generalized estimating equation model to search for significant DMRs. With this approach we identified 217 A-clusters, from them 77 were significant (p-value &lt; 0.05). Because for A- clustering implementation we needed to restrict our data, a lot of important information could have been lost.

DMRcate - R package for search of differentially methylated regions (DMRs) associated with exposure to a factor (Peters at al, 2015). In our project, we used smoking past half year in binary classification (smoke or not) to find DMRs associated with exposure. 145 significant CpGs and 34 significant DMRs (p-value &lt; 0.05) were found in our data. From them 19 DMRs overlap with at least one promoter (reference - GRCh 38). We found 23 genes associated with significant DMRs. These genes are associated with antisense RNAs, lincRNAs, miRNA, pseudogenes, zinc fingers, transcriptional factor, spliceosome, cell adhesion and migration, kinase, metalloprotease, electron transport chain and amino-acid transporter.

Finally, we found DMRs using two different statistical strategies for analysis of DNA RRBS
data. Further research plans include the analysis of changes in the expression of various
groups of small RNAs, as well as a comparative analysis of leukocyte and semen RRBS data.

Slides
The influence of molecular dynamics parameters on protein motion
characteristic timescale
| St. Petersburg State University / Purdue University

students: Olga Lebedenko, Stanislav Legkovoy
scientific advisers: Nikolai Skrynnikov

Molecular dynamics (MD) modeling of biomolecules is one of the most important and promising tools of structural biology. As a rule, in MD simulations of biomolecules use the so-called NPT ensemble. However, the use of NPT with a standard set of parameters for barostat and thermostat may lead to significant changes in the characteristic time scale of the simulated motions.

The main objective of this project was to find optimal parameters for correct representation of motional timescales in two structurally dissimilar proteins: globular protein ubiquitin (ubq) and intrinsically disordered N-terminal fragment of histone H4 (h4). In this work, we recorded and processed a number of MD trajectories using different water models (spce, tip3p, tip4p-d, tip4p- ew) and ensembles (NVE, NVT, NPT γ=0.01, NPT γ=2) under Amber ff14SB force field. Based on these trajectories, we calculated the characteristic times of rotational motion for globular ubq protein. Furthermore, the characteristic times of translational diffusion for ubq and h4 have also been calculated.

As a next step, we compared all MD-derived correlation times with the corresponding
experimental values. It was found that certain combinations of water models and statistical
ensembles correctly reproduce the rotational diffusion process (overall tumbling): spce / NVE, tip4p-ew / NVE, tip4p-ew / NPT (γ = 0.01), tip4p-d / NVE. However, translational diffusion requires further investigation since none of the attempted procedures produced the correct results for both ubq and h4.

We would like to thank Prof. D.A. Case for drawing our attention to this problem.

Slides
Determination of the most probable genotype and ethnicity of an individual based on the genotype of his descendants | University of La Verne

students: Isaev Vasilii
scientific advisers: Tatrinova Tatiana

In forensic practice, there is such a task: there is a rape victim, there is a child born as a result of a crime. The offender (father) is unknown. How to most accurately get a description of it based on the genotypes of the mother and child? What methods (genome-wide sequencing or chip analysis) will be most effective? Is it possible to reliably determine the ethnicity of the father? We will look for answers to these questions this semester.

Slides
Local sequence alignment using intra-processor parallelism | University of Warwick

students: Dmitry Orekhov
scientific advisers: Alexander Tiskin

Local alignment of DNA sequences is a fundamental problem of bioinformatics. Standard
solutions include fast heuristic methods such as BLAST, as well as the more time-consuming exact methods. An efficient exact local alignment technique, based on a "sliding window" approach, was developed by a University of Warwick team, resulting in a number of biologically significant results. The efficiency of that implementation was achieved, in particular, by utilising low-level intra-processor parallelism. In recent years, commodity processor architecture has been developing rapidly, culminating with Intel's AVX-512, an instruction set taking intra-processor parallelism to a new level of efficiency and sophistication, while also being surprisingly well-suited for speeding up the "seaweed
combing'' sequence alignment technique developed by the second author.

We developed a prototype software tool that is, to our knowledge, the first sequence
alignment software taking advantage of AVX-512 parallelism. Our tool allows one to produce semi-local alignments between short DNA fragments and long DNA strings, using seaweed combing and intra-processor parallelism to achieve competitive performance. In future, we plan to extend our implementation to a very fast exact local sequence aligner with "sliding window" functionality.

Slides
Association Rule Mining using fishbone diagrams | JetBrains Research

students: Nina Lukashina, Daria Likholetova
scientific advisers: Petr Tsurinov, Oleg Shpynov

Exploiting associations is central in human reasoning and decision making. There is a lot of rule extraction techniques from observational data. Association Rule Mining (ARM) is one of the most popular methods. Fishbone ARM (FARM) is a new data mining algorithm for constructing hierarchical associations, which can be visualized as Ishikawa diagrams. FARM was developed by JetBrains Research, and our tasks were to create a web service and validate the method on real biological datasets.

In this study we improved method usability and created the web application which allows to go from raw data to visualization in web browser. Several other data-mining algorithms were implemented: FP-growth ARM and Decision Tree. Comparison of FARM with existing methods showed its superior clarity in reporting results.

We applied FARM to data from the study "A Validated Regulatory Network for Th17 Cell
Specification" (Ciofani et al., 2012). Authors used genome-wide TF occupancy, expression
profiling of TF mutants, and expression time series to delineate the Th17 global
transcriptional regulatory network, identifying multiple new Th17 regulators. FARM was able to reconstruct main complexes of TFs acting in the Th0-Th17 differentiation process.
After FARM validation on genome data we focused on biochemistry assays of blood and
urine datasets to construct fishbone diagrams for old and young patients, and found
associations of creatinine clearance and TNF-alpha receptor I, previously reported to be
connected with age (Ogna et al., 2015, Schaap et al., 2009).

Slides
Noisy peak calling | JetBrains Research

students: Daria Chaplygina
scientific advisers: Oleg Shpynov

Chromatin immunoprecipitation followed by high-throughput sequencing (ChIP-seq) is a
method used to analyze protein interactions with DNA. The goal of peak calling algorithm is to identify enriched areas (peaks) in a genome.

In the paper "Impact of sequencing depth in ChIP-seq experiments" (Jung et al., 2014)
authors evaluated the impact of sequencing depth on peaks identification. However, signal-to-noise characteristics and its influence on peak calling algorithms were not covered. In this work we tried to estimate the impact of noise level in ChIP-seq data on enriched regions identification for core histone marks (H3K27ac, H3K27me3, H3K36me3, H3K4me1 and H3K4me3). We focused on MACS2 (Zhang, et al., 2008), SICER (Xu et al., 2009) and SPAN (novel semi-supervised peak calling algorithm by JetBrains Research) algorithms. The noise was introduced by mixing ChIP-seq and control reads with different proportions of control ranging from 0% to 90%. SICER and SPAN were used with default parameters and MACS2 with parameter --broad. False Discovery Rate (FDR) was set to 0.05 and 1E-6 to evaluate its influence on peak calling capabilities with noisy data.

The analysis of peaks dynamics demonstrated that both number of peaks and average length are decreasing with the increase of noise level. Then we compared algorithms by its stability and identified sets of peaks. We found that SPAN with FDR 0.05 is the most stable of three algorithms and higher noise level leads to lower peaks sets similarity. Investigation of FDR influence showed that more strong FDR values result in decreasing in both peak callers stability and peaks sets similarity.

Slides
Denoising of ULI-NChIP-seq data with neural networks | JetBrains Research

students: Daria Balashova
scientific advisers: Oleg Shpynov

Chromatin immunoprecipitation followed by sequencing of the next generation
(ChIP-Seq) is a powerful method for identifying the entire genome&#39;s DNA binding
sites for transcription factors and other proteins. The limitations of ChIP-seq include
a large number of cells needed to create high-quality data sets. The ultra-low-input
micrococcal nuclease-based native ChIP (ULI-NChIP) protocol, that was presented
in the paper "An ultra-low-input native ChIP-seq protocol for genome-wide profiling of
rare cell populations" (Brind&#39;Amour J et al., 2015), requires significantly less material
and usually provides a reliable peak calling, but is much more variable than the
traditional ChIP-seq approach.

In the paper "Denoising genome-wide histone ChIP-seq with convolutional neural
networks" (Pang Wei Koh et al., 2017) authors introduce a convolutional denoising
algorithm, Coda, that uses convolutional neural networks to learn a mapping from
suboptimal to high-quality histone ChIP-seq data. We analyzed the ULI-NChIP-seq
data quality of histone modifications H3K27ac, H3K27me3, H3K36me3, H3K4me1
and H3K4me3 and focused on the signal-to-noise ratio (SNR) metric. We present
DCNN algorithm – denoising convolutional neural network – the purpose of which is
to improve the quality of the data with respect to the SNR. The essence of the
method lies in the matching of high and low quality data of some histone
modification, as well as, optionally, using data of other histone modifications to
improve accuracy. This approach allows to transfer information from low-input noisy
processes in a flexible model that can be used for noise reduction of new ULI-
NChIP-seq data.

Slides
Improving peak calling in SPAN | JetBrains Research

students: Elena Kartysheva
scientific advisers: Alexey Dievskii

ChIP-seq (chromatin immunoprecipitation sequencing) is one of the main methods to analyse DNA-protein interactions. It can be really helpful but it produces a lot of noisy data so the output has to be carefully preprocessed before being used. SPAN (Semi-supervised Peak ANalyzer) is a multipurpose peak caller capable processing both conventional and ULI- Chip-seq tracks.

The main goal of this study was to improve the peak caller model by adding new covariates to HMM (hidden markov model) using GLM (generalised linear model). We used ZINBA (Zero-Inflated Negative Binomial Algorithm) as a reference.

In this semester several classes were implemented for bioinf-commons such as weighted
regression, emission regression scheme, poisson regression scheme and zero-poisson mixture to extend the library with methods necessary for future integration of new covariates. One of the aforementioned classes (namely weighted regression) was proposed as a pull request to Apache Commons Statistics developer branch.

In future we plan to add zero-poisson mixture to SPAN model, test it on real data and replace poisson regression with negative binomial if necessary.

Slides
Towards detection of differential RNA editing events in transcriptomics datasets. | St.Petersburg State University

students: Andrey Matveenko,
scientific advisers: Anastasia Samsonova, Alexander Kanapin

Single-nucleotide modifications of RNA, or RNA editing, is an important regulatory
mechanism in the cell. However, understanding of its regulation is far from complete,
as transcriptome-wide quantitation of the RNA editing is complicated and requires
developement of new computational approaches. Most tools for RNA editing analysis
are limited to the search of potential editing sites and do not support the analysis of
differential editing (DEd). On the other hand, great number of approaches exists for
analysis of differential methylation (DM), specifically, bisulfite sequencing, which is
similar in data modality to the RNA editing. In this project we aimed to evaluate
applicability of existing tools and statistical approaches for analyses of bisulfite
sequencing data, for discovery of DEd events.

We attempted to identify DEd sites and genes in the RNASeq data of BT20 cell line.
The samples were prepared either under hypoxia or in normoxia, three replicates per
condition. Previously, in a work by Irina Shchukina, a tool for discovery of A to I
RNA editing events in RNASeq data was developed. The output of this tool listing
editing sites determined in the cell line was used as the data for the subsequent
analysis. edgeR pipeline for analysis of DM was modified here to apply for the DEd
analysis both at single-nucleotide and at gene level. As the result we obtained lists of
DEd sites and genes in the sample, and found that RNA editing of approximately 100
genes is enhanced under hypoxia. GO-enrichement analysis of the gene list revealed
that RNA editing is enhanced during hypoxia in genes acting in ribosome biogenesis,
mitochondrial translation, and transcriptional regulation associated with hypoxia.
Thus, edgeR DM pipeline can be used for differential RNA editing analysis.

Slides
Обнаружение и разделение сигналов вариации в данных секвенирования РНК одиночных клеток | Университет ИТМО

студент: Фирулева Мария
руководитель: Зайцев Константин

Разработка методов разделения вариации в данных scRNA-seq.

Слайды
Association rule mining using fishbone diagrams | JetBrains research

студенты: Лихолетова Дарья, Лукашина Нина
руководитель: Цуринов Пётр

Продолжение проекта "Association rule mining using fishbone diagrams" с весеннего семестра
Поиск маркеров потенциальных осложнений при беременности по данным секвенирования внеклеточной ДНК из плазмы крови матери | НИИ АГиР им.Д.О.Оттa

студент: Моршнева Алиса
руководители: Глотов Андрей Сергеевич, Козюлина Полина Юрьевна

На данным момент мы имеем базу (около 400 образцов) секвенированной внеклеточной ДНК из плазмы крови беременных женщин с высоким риском развития патологий. На основе этих данных был разработан НИПТ-тест для определения анеуплоидий плода, который теперь проводится у нас в клинике. Однако потенциально данные полногеномного секвенирования могут быть использованы для диагностики не только патологий плода, но и материнских заболеваний и осложнений. К примеру, известно, что по данным секвенирования внеклеточной ДНК (cfDNA) из плазмы крови разработаны методы диагностики онкологических заболеваний, а также есть возможность определения вирусной нагрузки, в том числе ВИЧ. Мы хотим провести первичное исследование наших данных на возможность применения в диагностике материнских патологий с дальнейшим потенциальным применением в клинике.

Слайды
Поиск ключевых генов, инициирующих смену профиля экспрессии в клетке | ПСПбГМУ им. акад. И.П. Павлова

студент: Горбач Дарья
руководитель: Станевич Оксана Владимировна

В настоящее время реализована предварительная версия алгоритма на графах, касающегося поиска ключевых генов, инициирующих смену профиля экспрессии генов в клетке (на датасете - культура эндотелиальных клеток лимфатических сосудов, зараженных вирусом саркомы Капоши). В ходе тестирования текущей версии выяснились как технические особенности, требующие доработки алгоритма (ускорение, оптимизация кода), так и идейные - необходимо опробовать новые стратегии поиска ключевых генов, инициирующих смену экспрессии, а также опробовать алгоритм на разных датасетах.

Слайды
Опсины амфипод: уникальны ли байкальские эндемики? | НИИ биологии Иркутского государственного университета

студент: Кизенко Алена
руководитель: Дроздова Полина

Зрение -- это важно, в том числе в воде. В озере Байкал обитает 350 видов амфипод, они очень ярко окрашены (в том числе есть внутривидовое разнообразие) и обитают на всех глубинах. Тут надо отметить, что свет с разной длиной волны с разной эффективностью проникает на разные глубины, и для байкальских коттоидных рыб (кстати, хищников, которые питаются в том числе амфиподами) известен сдвиг максимальной чувствительности опсинов в синюю область с увеличением глубины обитания.

Цель: изучить разнообразие генов, кодирующих белки зрительной системы у байкальских амфипод, и поискать связь с их филогенией, глубиной обитания, яркостью окраски или другими особенностями вида.

Слайды
Improving Span | JetBrains Research

студент: Картышева Елена
руководитель: Диевский Алексей

Продолжение весеннего проекта "Improving Span".

Слайды
Определение корректных параметров МД моделирования для исследования белковой динамики | СПбГУ / Purdue University

студент: Лебеденко Ольга
руководитель: Николай Скрынников

Определение корректных параметров МД моделирования для исследования белковой динамики (в сотрудничестве с проф. Дэвидом Кейсом, создателем силового поля Амбер)

Моделирование биомолекул методом Молекулярной Динамики (МД) является одним из самых важных и перспективных инструментов структурной биологии. Как правило, в такого рода исследованиях используется так называемый ансамбль NPT. Однако использование NPT со стандартным набором параметров баростата/термостата ведёт к существенному замедлению динамики. Мы выявили этот эффект путём сопоставления экспериментальных данных, полученных методом спектроскопии ЯМР, с предсказаниями, полученными из траекторий МД. В частности, нам удалось показать, что стандартный метод моделирования ведёт к существенной (более 2 раз) переоценке характерного времени вращения глобулярного белка в растворе. В настоящее время мы ставим перед собой следующие цели.
(1) Нам предстоит выяснить насколько существенно этот эффект проявляется по отношению к движениям боковых цепей белка.
(2) Нам также предстоит установить в какой мере данный эффект сказывается на динамике нативно разупорядоченных белков.
(3) Помимо этого нас интересует его влияние на трансляционное движение белка - в особенности, в приложении к разупорядоченным белкам.
(4) Мы намерены предложить альтернативные методы моделирования, позволяющие с высокой точностью воспроизводить временной масштаб различных форм белковой динамики (например, применение ансамбля NPT с пониженным коэффициентом трения, применение ансамбля NVE).
Для записи траекторий МД наша лаборатория оснащена компьютерами на графических процессорах последнего поколения. Работа над проектом ведётся в сотрудничестве с проф. Дэвидом Кейсом (Rutgers University), создателем и ведущим разработчиком одного из двух самых совершенных силовых полей (Amber).

Слайды
Байесовская оптимизация для вывода демографических историй | Университет ИТМО /
ПОМИ РАН

студент: Шешуков Илья
руководитель: Носкова Екатерина

Демографическая история популяций это последовательность таких событий как миграция, разделение/слияние популяций, изменение их численностей. Современные методы позволяют строить правдоподобные гипотезы о демографической истории популяций по набору геномов, взятых у их "современных" представителей. Одним из ключевых этапов автоматизированных методов вывода демографической истории является оптимизация некоторой сложно-вычислимой функции без доступа к ее градиенту.

Недавно вышедший тул GADMA (https://github.com/ctlab/GADMA) решает эту задачу с помощью генетических алгоритмов. В проекте предлагается реализовать возможность использования методов Байесовской оптимизации для тула GADMA, сравнить два подхода.

Отметим, что байесовская оптимизация - не просто очередной алгоритм оптимизации, который можно за пять минут изучить в википедии, это весьма обширная и современная тема с множеством неожиданных возможностей, например оптимизации функции, используя приближения разной степени точности к ней, распараллеливание оптимизации и т.д. (вместо википедии см., например, https://arxiv.org/abs/1807.02811).

Слайды
Научные проекты 2017/2018
Осень 2017
Весна 2018
Phylogenetic networks comparison | ITMO University

students: Anton Eliseev, Natalia Klimenko, Elena Pazhenkova
scientific adviser: Nikita Alekseev

Phylogenetic networks are used to visualize evolutionary relationships that reflect any reticulations (such as hybridization). The amount of reticulation edges is a widely used criterion of networks, however, this measure is often identical in different topologies. We propose to use the number of possible convex colorings as metrics to distinguish networks with equal number of hybridizations. The number of convex colorings shows how many homoplasy-free characters are possible within this phylogeny.

Six species of Heliconius butterflies was chosen as model group to test our algorithm. A peculiar trait of genus Heliconius is the prevalence of interspecific hybridization, which reflects on phylogenetic networks as reticulation events. As suggested earlier, H. heurippa and H. elevatus have resulted from hybrid speciation [1, 2]. We analyze 20 nuclear genes, obtain NJ trees for each gene, compare these trees using pairwise Branch Score Distances, concatenate genes providing the most similar trees (distances up to 0.015), calculate hybridization networks and estimate numbers of convex colorings for each network. The network with the largest count of convex colorings is congruent with the hypothesis of hybrid origin of heurippa and elevatus species.

Another part of the study concerned the phylogeny of potatoes. 420 potato plants classified earlier as 29 species (7 cultivated and 22 wild) were analyzed by 15 plastid SSR-markers. As genomes were plastid, no hybridization was observed. We concentrated on building the most accurate phylogenetic tree for this data. Dendrograms were based on the Manhattan distance matrix. Cultivated and wild species of potato are clearly distinguishable. The idea of dividing Solanum tuberosum into Andigenum group and Chilotanum groups (according to [3]) is correct. Results of molecular analysis don't correspond to classification based on morphological features.

References:
1.Kronforst M.R., Papa R. The Functional Basis of Wing Patterning in Heliconius Butterflies: The Molecules Behind Mimicry. GENETICS. 2015. 200(1): 1-19
2.Salazar C., Baxter S.W., Pardo-Diaz C., Wu G., Surridge A., Linares M., Bermingham E., Jiggins C.D. Genetic Evidence for Hybrid Trait Speciation in Heliconius Butterflies. PLoS Genet. 2010. 6(4): e1000930.
3.Spooner D.M., Ghislain M., Simon R., Jansky S.H., Gavrilenko T. Systematics, Diversity, Genetics, and Evolution of Wild and Cultivated Potatoes. Bot. Rev. 2014. 80: 283–383

Slides
Optimization of spectral network parameters | EPAM Lifescience

students: Evgenia Fedotova , Rostislav Skitchenko , Ksenia Cherenkova
scientific adviser: Gennadiy Zacharov
A pipeline for exome and target-sequencing analyses was developed. It's results could be used by physicians for diagnosis refinement. Such problems as pipeline deployment, it's utilities versions and dependencies control was solved by using Docker software. Pipeline quality control was obtained for NA12848 GIAB sample: Precision 0.95 and Sensitivity 0.78.

We've analyzed sequence results of cardyo-panel for families, whose members had diagnosis cardiomyopathy. Dependencies between variations and clinical diagnosis cardiomyopathy was found.

Slides
Construction of RNA fragment database | University of North Carolina at Chapel Hill

student: Alexandr Ilin
scientific advisers: J. Wang, N. Dokholyan
RNA plays significant role in regulation of gene expression at transcriptional and translational levels. This is achieved because of appropriate spatial structure of RNA molecule (i.e. motif), which is obtained after folding. Ability to predict 3-dimensional structure given sequence of RNA oligonucleotide is very important due to possibility to make use of this information in construction molecules with predefined structure – thus with known properties and targets to interact. Therefore, it supports design of new RNAs, which can be used as medications against wide spectrum of diseases caused by consequences of problems with gene product abundance.

In this work we developed RNA secondary structure decomposition algorithm to decompose an integrated RNA into many motifs. According to the RNA secondary structure decomposition algorithm, an RNA 3D motifs database was built by decomposing all the RNA 3D structures downloaded from PDB. We devised an algorithm to analyze and compare the base interactions networks between different RNA 3D motifs. We classified and clustered all the RNA 3D motifs in the database by using the network comparison algorithm. We utilized the supervised machine learning method to learn the relationship between sequences and base interactions networks of clustered RNA 3D motifs.

Slides
Assembly of mammalian genomes using GemCode data | Center for Algorithmic Biotechnology, St. Petersburg State University

student: Angira Kekteeva
scientific advisers: Ivan Tolstoganov, Anton Bankevich
GemCode technology that was developed by 10X Genomics Company is actively used for assembly of mammalian genomes. CloudSPAdes is a genome assembly algorithm which was designed for metagenome assembly. However, algorithms in this tool, that were developed for resolving repetitions in the assembly graph, can be successfully used for assembly of mammalian genomes.

In this work we've examined exisiting metagenome assembly algorithms and analysed the disadvatages of using them for large genomes. Our analysis has shown that the average number of close edges in a human genome graph is more, than in metagenomes assembly graph, so it requires additional methods for sequencing long edges in the genomes of mammals.

Slides
Searching for molecular markers of chromosome bands | Bioinformatics Institute

student: Alexandra Klimina
scientific advisers: Yury Barbitoff

Giemsa staining produces specific bands on metaphase chromosomes that have coloring of different intensity (G-bands). There are known correlations between the intensity of coloring and the degree of chromatin condensation, GC-content, and replication time. However, little is known about molecular markers of such banding pattern.

Main purpose of this project was to develop a tool for analysis of genome-wide correlation between different genomic features. We implemented the tool in Java with possibility to work on Spark-cluster for distributed computitions.

We chose previously described Projection test and Jaccard test to analyze the dependence between the reference (e.g., chromosome bands) and query feature of interest. We estimated the significance of correlation by sampling 1000 sets of randomly distributed intervals of the same length as the query feature followed by Kolmogorov-Smirnov normality test and one-sample t-test to obtain the p-value of association.

We tested our tool by analyzing correlation between chromosome banding pattern and such features as CpG-islands, microsatellite repeats and DNAse hypersensitivity regions. Expectedly, we showed that G-positive bands are positively correlated with microsattelite repeats, and negatively - with CpG-islands and open chromatin, DNAse hypersensitive regions. Thus, our tool can be used to further analyze genome-wide correlations between banding pattern and diverse molecular features.

Slides
Association of methylation level CpG-islands and IQ-level | University of Houston

student: Daria Krytskaya
scientific adviser: Olga Naumova

Methylation is an epigenomics modification of DNA. It change the activity of a DNA segment without changing the sequence. The most methylated region is region riched guanine and cytosine called CpG-islands.

In this work, we evaluate the methylation level of all known 26640 CpG-islands as average value of this region. Than we made a correlation test with using the Benjamini-Hochberg procedure for decreases the false discovery rate.

Analysis of biological role of this region was make with UCSC Genome Browser on Human Feb. 2009 (GRCh37/hg19) Assembly and GeneCards.
Among our results are predicted transcription and translation region and known protein. For example, on 1 chromosome the most significant region is (38059428, 38063740) contained: prediction region are ENST00000373062, ENST00000463351, ENST00000488496 and gene of known proteins GLN2 – Homo sapiens guanine nucleotide binding protein-like 2 (nucleolar). For region (54951893, 54957287) of 1 chromosome are not predictions. For 2 chromosome the most significant region is (65213598, 65219212) contained gene of known proteins SLC1A4 Gene – Solute Carrier Family 1 Member 4. It is a transporter of alanine, serine, cysteine, threonine. Predicts a transport of a glucose by this protein. Disorders associated with this protein are spastic tetraplegia, thin corpus callosum, progressive microcephaly, microcephaly.

Slides
Genome structure of Mycobacterium tuberculosis strains in different world regions |
Theodosius Dobzhansky Center for Genome Bioinformatics, St. Petersburg State University

students: Vladimir Klimov, Vladimir Molchanov
scientific adviser: Ekaterina Chernyaeva

Due to the high epidemiological rate of Mycobacterium tuberculosis and its constantly updated genomic data the problem of genome data analysis and systematization becomes extremely significant. For this reason our project was devoted to extend Genome-based Mycobacterium tuberculosis Variation (GMTV) Database which was developed by the researchers of Theodosius Dobzhansky Center for Genome Bioinformatics (Chernayeva et al., 2014).

In this study we performed an analysis of 999 M. tuberculosis strains which was isolated from patients in Malawi Republic. To achieve this results we designed a pipeline aimed at single nucleotide polymorphisms (SNPs) and insertions/deletions (InDels) identification from M. tuberculosis whole genome sequencing data.

This pipeline based on BWA-mem and GATK programs which are widely used in such kind of investigations. Considering big amount of NGS data we suggested simple and rapid method to visualize or estimate quality control results performed by FastQC program using python3 regular expression and plotting in R. All variant calls (.vcf files) was uploaded on database, in future this data could be used for clade-specific annotation, which gives a possibility to identify strains without NGS methods.

Slides
Comparative analysis of natural selection effects across human populations |
Bioinformatics Institute

student: Julia Kornienko
scientific adviser: Yury Barbitoff

In this project we aimed to estimate the natural selection effects across human populations based on the Genome Aggregation Database (gnomAD) dataset which contains information about sequence variants in 123136 human exomes and 15,496 genomes. To this end we calculated the amount of protein truncating variants (PTV) both (i) per individual genes (based on GENCODE v.19); and (ii) per gene sets (hallmarks and canonical pathways obtained from the MSigDB Collections) for six different populations (European, South Asian, Latino American, East Asian, African and Finnish).

We estimated the selective coefficients of heterozygous PTVs for different human populations from the constructed dataset in the same way as it was done by Cassa et al. (2017) and found that distribution of selective coefficients both per individual genes and gene sets is dependent on the population size. Taking this into account, we evaluated the difference in distribution of PTV allele counts among the populations and found that for 2040 of 12367 analyzed genes and for 746 of 1379 of analyzed gene sets selective effects were significantly population-dependent. Thus it is possible to conclude that selective effects for some genes do vary across the populations.

Interestingly, we discovered significant enrichment of PTV alleles in the immune system-related pathways (IL-10, IL-13 and IFNG signaling) in the individuals of South Asian ancestry (SAS), with more than half of all PTVs discovered in the corresponding genes belonging to the SAS population. These results are concordant with some previous findings and emphasize the natural heterogeneity of selective effects.

Slides
De novo cdr3 annotation in VDJ rna sequences | Center for Algorithmic Biotechnology, St. Petersburg State University

student: Kristina Krivonosova
scientific advisers: Andrey Slabodkin, Maria Chernigovskaya
The project relates to the construction and analysis of the repertoire of antibodies. In order to build a repertoire, we look for mutations in antibodies with the help of a germline by aligning the variable part of the immunoglobulin gene with a special base of V-, D-, and J-genes (germline). With this alignment, we can annotate the sequence: we mark the boundaries of the V-gene and the J-gene, as well as the boundaries of the three regions that determine the specificity of the antibody to the antigen (CDRs). In practice the third region (CDR3) is the most variable part of the immunoglobulin gene so its borders are of the greatest interest. Unfortunately, on some data (for instance, in case of lymphoma) the level of mutations goes off the scale and we can not build an alignment on the germline for that data.

In this work we develop a heuristic for VDJ sequence annotation that does not use alignments. This new heuristic is based on searching conserved regions in the source sequence to identify CDR3 regions. In practice this approach produces satisfying results with accuracy rate of 95% when applied to verified data sets.

Slides
Forming a panel of markers for the molecular-genetic diagnosis of congenital
metabolic disorders
| Parseq Lab

student: Ekaterina Nebozhatko
scientific advisers: Tamara Simakova, Anton Bragin

Predicting the deleterious effects of mutation on protein function is one of the main tasks of genetics. Often researchers use predictive tools for this. The main problem with the use of predictive tools is not enough high sensitivity and specificity of classifiers. On average, the sensitivity is 80%, which means that 20% of the possible pathogenic mutations may go unnoticed. This can adversely affect the success of treatment. Another approach is to use open databases in which information on pathogenic mutations for certain genes is collected and verified.

The company Parseq Lab is working on a large project to create a panel of markers. It included 37 genes associated with 35 different diseases and 36 external sources. In this paper, a part of the project with single database PNDdb and three genes GCH1, QDPR and PTS is presented. In the course of the work, a tool was implemented that exports the necessary data from the site and presents them in the VCF format. The sensitivity of predictive tools of SIFT and PolyPhen was also assessed.

Slides
Khazars heritage in the world genomes | University of La Verne

student: Yury Orlov
scientific adviser: Tatiana Tatarinova

Khazars are a semi-nomadic ethnic group that lived in the second part of the 1 st millennium, occupying a large area north of Caucasus between Black and
Caspian seas. At the end of the 10 th century their state was destroyed and the Khazar Khanate disappeared as suddenly as it rose, without leaving any legacy
except their own funerary mounds. At all times there were pretty much theories and guesses about the Khazars origin and their descendants but it was impossible to make solid conclusions about them. The aim of this project is to find the answers on the questions of Khazars origin and genetic legacy by
analysing ancient DNA (aDNA) extracted from remains of three Khazar representatives.

In course of the project, aDNA sequencing data was processed according to its specific library preparation and degraded nature of aDNA. Reads were
mapped to the HG38 reference genome. It was found that bacterial contamination was more than 75% (typical to aDNA), and by detecting significant amount of C-T transitions on the read ends it was shown that studied DNA is indeed of ancient origin. Using the GATK package we performed the SNP-calling procedure on obtained data and with Admixture tool figured out that the Khazars are a mix of North East Asians, Northern European, Mediterranean and South West Asian populations, as it is expected of a well-mixed group of semi-nomadic people.

As continuation of the work we are collecting different ancient and modern genomes to compare obtained data to them and finally draw a conclusion about the Khazars origin and their descendants in the modern world.

Slides
Russian Exomes. Part 1. |Bioinformatics Institute

students: Olga Poleshchuk, Ekaterina Izmailova
scientific adviser: Yury Barbitoff

Mutations in protein-coding part of the genome are a cause of numerous different pathologies. Thus, whole exome sequencing (WES) is a commonly used alternative to whole-genome sequencing in medical genetics and health-related studies. Some environmental adaptations also likely arose from changes in protein-coding regions, making exome sequencing a valuable tool for population genetics studies. Several large sequencing consortia (e.g., Exome Aggregation Consostium (ExAC)) have collected data from hundreds of thousands samples of western population, and a lot of research was done using this data. The goal of our project was to develop a pipeline for variant analysis in Russian population, and apply it to ~570 WES samples.

Firstly we created pipeline using Snakemake as one of possible tools for creating workflows. The pipeline receives raw FASTQ files as input and outputs a combined annotated VCF for all samples in a batch. We successfully tested our pipeline, and performed preliminary analysis of variants in a dataset of 570 samples of Russian and CIS ancestry. We observed many novel variants common to samples included in the study, with most of such variants classified as missense mutations, intronic variants, and synonimous substitutions. Thus, we made a very first and preliminary steps in assessing the exome-wide genetic structure of Russian population. Further data aggregation and analysis will help to completely fill the biggest gap on the genetic map of the world.

Slides
Speed-efficient data structures for cloudSPAdes |Center for Algorithmic Biotechnology, St. Petersburg State University

student: Evgen Polevikov
scientific advisers: Anton Bankevich, Ivan Tolstoganov

GemCode technology that was recently introduced by 10X Genomics company is rapidly becoming essential for variant calling, diploid genome assembly and read alignment. The cloudSPAdes algorithm was recently developed in the Center for Algorithmic Biotechnology. The algorithm uses GemCode data to improve metagenome assembly quality. Currently, cloudSPAdes consumes a large amount of computational resources for assembly of complex metagenomes. CloudSPAdes' assembly procedure consists of several stages: on the first stage it constructs assembly graph using procedures which were implemented in already existing metaSPAdes pipeline. Then barcoded reads are aligned to the edges of the graph such that for every edge we get a particular set of barcodes. Every set is represented as a sorted array. Intersection of these sets is computed in order to estimate genome distance between long edges and determine their true ordering.

In this work we adapted probabilistic data structure called containment min hash that allows to improve current procedure of computing of edge intersection. In order to estimate intersection of two sets of barcodes A and B (assume that size of A less than size of B) we first create a bloom filter from the set of a larger size B. Then we take a random sample S from the set of a smaller size A and test every element of S for membership in B using a bloom filter. By that we estimate an intersection of A and B.

In order to benchmark containment min hash against the original sorted array data structure we constructed assembly graph from GemCode library which was sequenced from a mixture of 5 known bacterial species. We selected a set of 1492 edges longer than 5,000 bp from the assembly graph and found an intersection for every ordered pair of these edges using containment min hash and compared it with initial edge intersecting procedure. Our analysis have shown that new algorithm works approximately 6 times faster. Also we have managed to decrease memory consumption: now it is enough to store about 60% of data that initial procedure uses.

Slides
Protein digestion patterns|University of North Carolina at Chapel Hill

student: Natalia Rodina
scientific advisers: Popov Konstantin, Dokholyan Nikolay

Digestion of the proteins by proteasomes and proteases in cells results in producing a specific repertoire of peptides that can potentially bind to MHC 1 complex 1 and used for triggering immune response against specific cancer cells. Thus, creating a tool for prediction the "peptide profiles" produced by protease cleavage in different types of tissues in normal cells and primary tumor became the aim of the present project.
In the first step, microarray expression data in 19 types of tissues types for normal cells (726 arrays) and primary tumor (1.460 arrays) was collected from the MERAV database. PCA analyzes of the preprocessed expression data showed differences in normal tissue and primary tumor for every tissue type were shown. For every tissue type, expressed genes were selected (values higher then median of quintile normalized data) and only genes expressed in the primary tumor and not presented in the normal tissues were taken into account. For selected genes, the amino acid sequences were parsed from the NCBI protein database.
Information about cleavage sites of human cell proteases was downloaded from the Merops database and for every type of tissue only expressed proteases were selected.
In the next step, a tool for prediction of the peptide profiles was created. As input, the tool takes a selected type of the tissue. Then, from inbuilt database, amino acid sequences of all genes and information about cleavage sites of all proteases expressed in the selected tissue are taken. The tool finds all possible cleavage sites in every protein for every protease and provides information about all peptides created by the cleavage of all proteins in the tissue.
The created tool will provide the possibility to predict peptide profiles for all tissue types and identify peptides that are specific for the cancer cells and can be used for targeted immune therapy.


Slides
Ti plasmid evolution and horizontal gene transfer | St. Petersburg State University

students: Shikov Anton , Zorin Evgeniy
scientific advisers: Alexandr Tkachenko, Mikhail Rayko

Agrobacterium species contain special sequence named T-DNA in Ti- and Ri-plasmids which can be inserted into plant genome. This feature is widely used in plant biotechnology. However, this insertion can become a stable part of plant genome, thus, Agrobacterium species are able to implement horizontal gene transfer to plant organism that happens quite rare in plant realm.

The aim of our work was to detect of new examples of horizontal gene transfer in plants and reconstructing phylogeny and evolution of Ti- and Ri-plasmids. To achieve this goal, we used hmmer tools and analyzed available plant genomes and proteomes. In total, 66 proteomes and 45 genomes were scanned. Extracted hits were further utilized for making multiple alignments and building approximately 700 trees.

Unfortunately, we didn't detect any explicit clusterization of plant and bacterial sequences. Nevertheless, during analysis we successfully revealed a brand-new example of horizontal gene transfer in Nicotiana tabacum that has not been described in literature before. Bacterial protein riORF20 from Agrobacterium rhizogenes has two plant homologs. Interestingly, this two proteins are homologous to C- and N-ends of riORF20 respectively. For this reason, we propose DNA recombination in N. tabacum after T-DNA insertion.

Slides
Enhancement of Export Option for a Genome Mappability Score Estimator | Bioinformatics Institute

student: Skalon Elizaveta
scientific adviser: Bakin Evgeniy
Mappability is a genome-wide function that indicates whether it is possible for any read to be unambiguously mapped to a given position. Mappability information can be crucial for an interpretation of such experiments as ChIPSeq, SNP-calling etc., where quantitative estimates or confident identification of variations are performed. There is a special metric called Genome Mappability Score (GMS), which quantifies the mappability. GMS measures a weighted probability of mapping certainty in a given place. If the GMS is zero in a given position, many identical reads from different loci may be equally mapped to this region. Otherwise, if the GMS is 100, a read mapped to this position is unique.

In this work, we extended the functionality of fast and sufficiently accurate instrument for the GMS calculation, developed by in Bionformatics Institute in 2016. Firstly, a possibility to get output records in many various formats was provided. It allowed not only Wig and BigWig, but also BED, BigBed and TDF output formats to be supported. Secondly, the runtime of data export was reduced by an implementation of a multiprocessing mode, geometric expansion of arrays and export of GMS track directly to BigWig without wigToBigWig converter.
These improvements made the GMS computation even more convenient and friendly for its users.

Slides
Retention time for identification of natural products | Carnegie Mellon University

student: Vladimir Sukhov
scientific adviser: Alexey Gurevich, Husein Mohimani

Natural Products (NPs) play an important role in pharmacology: many antibiotics, antiviral and antitumor agents are NPs. Thus, it is crucial to have methods for accurate discovery of new NP. In the process of searching for new NP, false positive identifications may occur. To reduce their number, we use retention time (RT) as an additional correctness check for discovered NP.

In this work, we applied machine learning methods for determining possible RT range for peptides. The multiple regression method was chosen as the primary technique. As a model for machine learning, we considered the amino acid composition of a peptide, where each amino acid adds its own weight to the final RT value.

As the result, the model was trained and tested. Model benchmarking demonstrated high accuracy of RT prediction and its potential for a significant reduction of false positive identifications.

Slides
Analysis of VH-replacement statistical properties based on public datasets | Center for Algorithmic Biotechnology, St. Petersburg State University and Pavlov First St. Petersburg State Medical University

students: Adel Gazizova, Anastasia Vinogradova
scientific adviser: Andrey Slabodkin, Maria Chernigovskaya, Oksana Stanevich

During a construction, immunoglobulin H locus (IgH) undergo a process named VDJ-recombination, during which is random gene segments from IgH germline are set into resulting gene sequence. It provides a primary specificity to antigens. However, infrequently, the existing V-gene can be partly replaced by a new one, and this process is called VH-replacement. There are various hypotheses regarding the contribution that VH-replacement makes to antibody functionality.

In our work, we created a pipeline, which allows to identify VH-replacement in human antibody sequences. First we downloaded the data from Genbank, parsed files and extracted titles, that contained all the information about each sequence. Before starting the search, we divided antibody sequences into clonal families, because our data must contain only clonal-independent sequences in order to exclude a false-positive result. Then by means of developed script we made an exact and inexact (with one possible mismatch) search of VH-replacement's footprints in sequences of people with different phenotypes. We analyzed results and found, that VH-replacement frequency significantly increases for subjects infected with HIV-1, as well as for ones vaccinated against pneumococcus.

Slides
Web bot development for automation of requests to IMGT / V-quest | Bioinformatics Institute

students: Andrey Zolotarev, Alexandr Cheblokov
scientific adviser: Evgeniy Bakin

There are a lot of different web-services that give the user an opportunity to work with integrated databases and research tools, which are necessary for a number of scientific areas.

One of them is IMGT® (the international ImMunoGeneTics information system®) – high-quality knowledge resource in immunogenetics and
immunoinformatics that specifically provides data about immunoglobulin or antibodies, T-cell receptors, major histocompatibility (MH) of human and other vertebrate species, immunoglobulin superfamily, MH superfamily and related proteins of the immune system of vertebrates and invertebrates. Unfortunately, this service is difficult to use for implementation statistical analysis due to limitation of loadable
sequences. IMGT allows the user to load only 50 sequences by one request, and the task become further complicated by the need to configure multiple query parameters.

The problem for statistical research is obvious, the scientist must spend a huge amount of time to process even one thousand sequence dataset.

The solution we developed is web-bot that allows the researcher to automate the processing of large amounts of data subject to the limitation given above. We came to the conclusion that a suitable basis for our objective is Selenium Web-Driver.
Selenium is a software library with the open source code, which is widely represented for a number of the most popular web browsers and compatible with such popular programming languages as C#, Python, JavaScript and others. This module emulates user behavior on the site, what allows to set parameters once and then implement the repetition of their setting by Selenium API.
As a result of our work we present the program that automates requests to IMGT for huge datasets and includes an interface for configuring the search parameters that are specific to a particular task. Result of program execution is a table in CSV-format that contains data required for the researcher.

Slides
Using approximate calculations to speed up the peak calling procedure |Bioinformatics institute

student: Viacheslav Borovitskiy
scientific adviser: Evgeniy Bakin
Peak calling is a computational procedure used to identify areas in a genome that have been enriched with aligned reads primarily as a consequence of performing a ChIP-sequencing experiment. There are several popular pieces of software which perform this procedure (most of them require substantial computational resources and time). Each one has its own set of parameters requiring adjustment to the particular experiment.

In this work, we try to address the issue of time costs of the process of parameters adjustment for the peak calling procedure. We present a prototype of a tool that uses some fast machine learning / digital signal processing methods to approximately obtain the result of a peak calling procedure for a given caller with a given set of parameters in a matter of no time.

At first, we use given caller with a given set of parameters on a small piece of data. We then use the results of the previous step to train a linear
classifier (some fast time-series optimized version of logistic regression).

Finally, we apply our trained classifier (followed by some threshold transformation) to the rest of the data to obtain an approximation of the result.

We test our tool against some data sets from the Encyclopedia of DNA Elements (ENCODE). On "good" data we have precision/recall scores at about 0.85/0.85. On "bad" data we have precision/recall scores at about 0.20/0.20. Tests give impression that we never overfit, meaning that precision/recall scores on the train set determine those on the test set.

Slides
Regulatory network modeling based on analysis of ATAC-seq data from cancer cells | Institut Cochin, Laboratory "Computational Epigenetics of Cancer"

student: Anastasia Danchurova
scientific adviser: Valentina Boeva

The tumor cell state is governed by complicated interplay between transcription factors that regulate gene expression and thus define cell fate. The concept of core, or master, transcription factors comprising Oct4, Sox2, Nanog (also known as Yamanaka's factor family) postulates that small number of transcription factors control the more numerous auxiliary transcription factors and play an essential role in determining of cell fate. Recent data showed that these core transcription factors play a regulative role in different types of cancer.

Because cancer is a disease associated with aberrant gene expression patterns, transcription factors, which serve as the convergence points of oncogenic signaling and are functionally altered in many cancers, hold great therapeutic promise. The more personal this therapy will be the more efficient result it will achieve.

That is why in this project exactly ATAC-seq data is used. Related to DNAse-seq and MNAse-seq methods, ATAC-seq compares favorably in library preparation simplicity, speed and amount of required cells (500-50 000 cells), what in total makes it the appropriate for clinical usage.

In this project, we create a tool, which combines ATAC-seq data with human genome annotation and several databases, determines interactions between transcription factors and active promoters and enhancers. As a result, we are expecting to construct a graph that will represent all detected interactions. Analysis of such graph is intended to help to determine the main transcription factors that may become effective potential targets for anti-cancer therapy.

Slides
Regulatory network modeling based on analysis of ATAC-seq data from cancer cells |
All-Russia Institute for Agricultural Microbiology

student: Yury Malovichko
scientific adviser: Evgeniy Andronov

Sinorhizobium meliloti is one of the so-called Rhizobia, a group of α- and β-proteobacteria known for their capability of interacting with legume plants that results in stable mutualistic symbiosis where bacteria provide plants with atmosphere nitrogen reduced to ammonium in exchange for organic carbon. The genome of Rhizobia differs from that of Escherichia coli and other model prokaryotes and comprises of one major chromosome and one or more symbiotic plasmids that determine bacterium's host range and symbiosis efficacy. However, Rhizobia genome is also known for its flexibility, with symbiotic genes rearranged with plasmids, between them or even between plasmids and chromosome.

In this study, we aimed to prove a suggestion based on RFLP and other molecular marker analyses that two distinct genetic lines exist with S. meliloti species discriminated by linkage of particular alleles of leu and betCB genes. We used MLST approach with 10 loci suggested previously for genomic clustering of this species (see Reference) ad Bayesian Inference algorithm to build a tree that would show actual phylogeny of 12 isolates with 6 isolates for both supposed genomic lines, respectively. However, we gained ambiguous results showing that suggested loci are evidently not universal in their use for MLST of S. meliloti. For now, we seek for more informative loci that will shed the light on true phylogeny of
these isolates and existence of these two genomic lines.

1. Berkum P. Van, Elia P., Eardly B.D. Multilocus sequence typing as an approach for population analysis
of Medicago-nodulating rhizobia // J. Bacteriol. 2006. Т. 188. № 15. С. 5570–5577.

Slides
NGS-based metagenomic pathogen viruses and bacteria identification system |
Saint-Petersburg Pasteur Institute

student: Alexandr Bebyakov
scientific adviser: Alexandr Semenov

Большинство методов микробиологической диагностики занимают продолжительное время и неприменимы для обнаружения некультивируемых форм патогенных агентов. Предполагается возможным на основе данных секвенирования нуклеотидных последовательностей смешанного образца определять наличие возбудителей особо опасных инфекций и свойственных им факторов патогенности и, таким образом, ускорять процесс принятия решений о мерах противодействия возможным эпидемиям.

GitHub
Slides
Applying state-of-the-art neural network architectures for predicting protein-binding sites |
ITMO University

student: Viacheslav Borovitskiy
scientific adviser: Tatiana Malygina

This is a project aiming to improve an approach proposed in the paper by using some of the modern neural network architectures.

GitHub
Slides
Study and development of a macrophage metabolic model|ITMO University

student: Natalia Rodina, Alexandr Cheblokov
scientific adviser: Gainullina Anastasia, Sergushichev Alexey

Macrophages are cells of the first line of immune protection: destroy pathogens (M1), maintain tissue homeostasis (M2). Using the metabolic FBA model allows you to see the coordination between metabolic pathways at the level of the whole cell. However, the existing FBA model of macrophage metabolism has a number of inaccuracies, and therefore it does not reflect the latest ideas about their M1 activation, formulated during molecular biological experiments. The purpose of this project is to detect and correct inaccuracies of the macrophage FBA model of metabolism.

GitHub
Slides
Biogeography of arabidopsis|University of La Verne

student: Anton Eliseev, Kristina Krivonosova
scientific adviser: Tatiana Tatarinova

Цель проекта - с помощью геномов медикаго и арабидопсиса определить корреляции между генетикой, климатом, почвой и прочей географией. Построить модель связывающую окружающую среду и геном.

GitHub
Slides
Statistical analysis of annotated genomes|University of La Verne

student: Poleshchuk Olga, Danchurova Anastasia
scientific adviser: Tatiana Tatarinova

Find correlation between sequence features and functional regions in different genomes

  1. Plot sequence features such as TFBS, SNPs, methylation, RNA-seq coverage
  2. Map it on promoter regions
  3. Find correlation
  4. Consider outcomes for promoter prediction for complex and not annotated genomes

GitHub
Slides
Finding novel variations of germline Immunoglobulin genes using WGS data|University of California San Diego

student: Alexandr Ilin
scientific adviser: Yana Safonova

Variety of immunoglobulin germline genes (V, D, and J) is a key component of the antibody repertoire diversity. Highly repetitive structure of Ig loci and a lack of natural selection result in elevated polymorphism rate of immunoglobulin germline genes. In this project, we want to analyze variations of Ig loci in several human populations and describe differences between them.

GitHub
Slides
Long read mapping improvements for Flye assembler|University of California San Diego

student: Evgeny Polevikov
scientific adviser: Mikhail Kolmogorov

minimap2 is a versatile pairwise aligner for genomic and spliced nucleotide sequences written in C. The goal of this project is to write C++ wrapper for this tool in order to incorporate it into Flye.

In src/example.cpp you can find an usage example of minimap2 API with C++ interface. The example shows how to build an index and how to use this index to find overlaps for pacbio reads.

We have recently released Flye assembler for long and noisy reads (PacBio, Oxford Nanopores). The assembly results seems to be very promising in comparison with the current state-of-the-art approaches.

As a successor of the ABruijn assembler, Flye uses solid k-mer based approach to find overlaps between noisy reads, which is (relatively) fast, but might be not optimal in terms of memory usage and the parameter choice flexibility. On the other hand, minimap2 seems to be very memory efficient, while showing the best sensitivity/specificity among the other long read aligners. As minimap2 also has C++ API, we want to explore the possibility of replacing our solid k-mer approach with minimap2. We expect that this change will significantly reduce the memory usage bottleneck, while also improving the assembly accuracy.

GitHub
Slides
Mediation of effects of persistent chemicals on the human sperm epigenome|A.N. Belozersky Research Institute of Physico-Chemical Biology, Moscow State University, Institute of Bioengineering, Research Center of Biotechnology RAS

student: Julia Kornienko
scientific adviser: Oleg Sergeev, Yulia Medvedeva

Процессы сперматогенеза и созревания сперматозоидов включают в себя каскад эпигенетических изменений (Wu et al., 2015). Изучение эпигенома сперматозоидов представляет очень перспективное направление по нескольким причинам. Во-первых, явно недостаточно изучено специфическое воздействие разнообразных факторов среды, включая химические факторы, на эпигенетические маркеры. Во-вторых, выявляемые эпигенетические изменения связаны с качеством и количеством сперматозоидов. И, в-третьих, что может быть особенно важно - репрограммирование эпигенома половых клеток может быть передано следующему поколению, что может привести к нарушению развития потомства, как на этапе развития эмбриона, так и в последующей жизни.

- Объект заявляемого молекулярно-эпидемиологического исследования – данные метилирования ДНК сперматозоидов (WGBS и RRBS) и данные факторов окружающей среды, полового развития и образа жизни, полученные в ходе родительского проспективного когортного исследования «Russian Children's Health. Male Reproductive SubStudy», начавшегося в 2003 году.

- Что известно из родительского исследования?
Воздействие таких стойких токсикантов, как диоксины, в течение полового развития (пубертата) влияет как на метилирование ДНК сперматозоидов (Pilsner et al., 2018), так и на снижение качества семени (Minguez-Alarcon et al., 2017) в возрасте 18 лет.

- Что неизвестно?
Какой вклад вносят другие факторы окружающий среды, потенциально негативно влияющие в процессе сперматогенеза на эпигеном сперматозоидов и качество семени, в частности курение.
Какой вклад в изменение эпигенома и качества сперматозоидов вносят различные варианты полового развития (ускоренное, нормальное, замедленное)?

- Цель исследования:
Изучить роль курения и темпов полового созревания в качестве медиаторов влияния диоксинов на метилирование ДНК сперматозоидов.

GitHub
Slides
Role of protein dimerization|Department of Biochemistry and Biophysics, University of North Carolina at Chapel Hill

student: Orlov Iurii
scientific adviser: Nikolay Dokholyan

We would like to understand why nature evolves proteins to function as dimers. To understand whether the oligomeric structure of protein is more evolutionary preferable than monomeric.

General plan:
  1. detect core residues (CR) responsible for structure formation
  2. determine how number of CR grows with protein length
  3. compare obtained results with dimeric proteins
  4. go further for larger oligomers (n-mers) to find the most preferable n

GitHub
Slides
Model of the N1 zone formation in human antibodies dimerization|Bioinformatics institute

student: Elena Pazhenkova
scientific adviser: Evgeniy Bakin, Oksana Stanevich

The N1-zone is a variable region of human antibodies DNA, formed as a result of VDJ-recombination and providing diversity of antigen binding regions. N1-zone generation is a complicated process including formation of palindroms on 5' and 3' ends and addind up to 20 random nucleotides to 5' and 3' ends with following non-homologous end joining. Thus, length of N1-zone depends of several random events. However, the N1-zone sometimes contains so-called footprints, appeared as a result of VH-replacement and recent studies showed that the length of CDR3 (including V3', N1, D, N2 and J5') is correlated with number of footprints (Meng et al., 2014). In this project we want to figure out whether VH-replacement is a random event by fitting of statistical model of N1-zone formation and estimating its parameters using Maximum Likelihood method.

GitHub
Slides
Search for multiple associations in GWAS data|Bioinformatics institute

student: Shikov Anton
scientific adviser: Yury Barbitoff

В 2017 году Биобанк Великобритании сделал крупнейший релиз генетических данных в истории (500,000 человек). Группа Бенджамина Нила произвела быстрый массовый анализ ассоциаций (GWAS) с более чем 2,000 фенотипов, результаты данного анализа были выложены в открытый доступ. С тех пор, огромное количество препринтов, посвященных поиску интересного сигнала в этих данных, появились на сервере bioRxiv. Данный проект посвящен поиску маркеров, обладающих множественными ассоциированными фенотипами, и изучению механизмов, опосредствующих данные эффекты.

GitHub
Slides
Identifying differentially expressed transposons across four life-cycle stages of Fasciola hepatica|Institute of Cytology RAS

student: Elisaveta Scalon
scientific adviser: Anna Soloveva, Nikolay Panyushev

Проект предполагает поиск мобильных элементов, чей уровень экспрессии варьирует в зависимости от стадии жизненного цикла Fasciola hepatica.
У F.hepatica секвенированы транскриптомы всех стадий жизненного цикла, данные доступны в Sequence read archive. Планируется собрать транскриптомы по референсу, выявить последовательности мобильных элементов
и определить их уровни транскрипции. На выходе будут получены данные о наличии или отсутствии мажорных транскриптов мобильных элементов, специфичных к отдельным стадиям жизненного цикла F.hepatica.

GitHub
Slides
Evolution analysis of genes associated with apomixis in Brassicaceae family|CAB SPbU

student: Rostislav Skitchenko
scientific adviser: Mike Raiko

Goals:
  • Perform a comparative phylogenetic assay of the genomes of seven plants.
  • Find the patterns between specific genes and apomixis plant-forms.
  • Find orthologous genes in other representatives of the Brassicaceae family.
  • Build the trees of genes of interest.

GitHub
Slides