Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

élements cis-régulateurs,apprentissage automatique,biostatistiques,détection d'anomalies,minage d'itemsets,autoencodeurs

Keywords

Cis-Regulatory Elements,machine learning,biostatistics,anomaly detection,itemset mining,autoencoders

Titre de thèse

Tirer parti des combinaisons d'éléments cis-régulateurs
Leveraging combinations of cis-regulatory elements

Date

Mardi 23 Mars 2021 à 8:00

Adresse

Laboratoire TAGC/INSERM U1090 Parc Scientifique de Luminy, avenue de Luminy Marseille, France TBD

Jury

Directeur de these M. Jacques VAN HELDEN TAGC
Rapporteur M. Stein AERTS University of Leuven
CoDirecteur de these Mme Cécile CAPPONI LIS
Rapporteur M. Carl HERRMANN BioQuant
Examinateur Mme Delphine POTIER CIML
Examinateur Mme Nelle VAROQUAUX TIMC-IMAG

Résumé de la thèse

La régulation cis-génomique chez l'homme est effectuée par des régulateurs de la chromatine, tels que les marques d'histones et les régulateurs de transcription (TR), qui se lient à des éléments cis-régulateurs (CRE). Ils fonctionnent rarement seuls, mais plutôt en complexes. Par exemple, les facteurs de transcription (TFs) se lient à l'ADN et sont eux-mêmes liés par des cofacteurs. Leur objectif est de réguler l'activité de l'ARN Pol II. Le développement du séquençage de nouvelle génération (NGS) fournit des méthodes pour étudier cette régulation, incluant le ChIP-seq, afin de quantifier l'accessibilité de la chromatine et la liaison des protéines. Mais ces méthodes présentent des sources de bruit (résultats différents de la réalité), et des problèmes de reproductibilité, ce qui complique la comparaison des résultats. De plus, la récente explosion de la variété et du volume de données disponibles, dans des bases de données telles que ENCODE ou ReMap, permet l'intégration de différentes vues de données. Les combinaisons de régulateurs biologiques sont importantes mais sont rarement exploitées. Les approches existantes manquent de précision ou de clarté. Le but de cette thèse est de tirer parti de ces combinaisons en utilisant des méthodes d'apprentissage automatique, qui sont efficaces pour apprendre les régularités dans les données : donc, les combinaisons. Nous représentons les régions d’intérêt sous forme de listes d'intervalles, converties en représentations matricielles et tensorielles. De fait, nos approches sont généralisables à toute liste d'intervalles. Les premiers travaux présentés dans cette thèse portent sur la prédiction du statut des CRE et la détection robuste de promoteurs alternatifs dans la leucémie T-ALL en fonction de leur expression, éliminant le bruit de faible niveau. Ensuite, nous abordons la détection d’anomalies non supervisée. Le ChIP-seq (et autres) peut souffrir d'erreurs et de faux positifs, d'un contrôle de qualité médiocre et de plusieurs autres biais. Ceux-ci sont difficiles à corriger, car les données annotées et supervisées sont rarement disponibles, et cela demanderait malgré tout une approche erreur-par-erreur fastidieuse. En outre, les grands volumes de données augmentent la probabilité d'erreurs. Au lieu de cela, nous supposons que le bruit ne respectera pas les combinaisons usuelles entre les sources (TR et/ou jeux de données). Nous proposons atyPeak, qui exploite les combinaisons de TR et d’expériences redondantes de ReMap. Nous utilisons un auto-encodeur convolutionnel multi-vues pour une compression "de juste milieu", en apprenant et reconstruisant les sources comme parties d'un groupe de sources corrélées et non pas seules, éliminant les motifs rares (bruit). Nous marquons les pics qui ont moins de collaborateurs à proximité que la moyenne de leur source. Nous proposons aussi des approches pour évaluer les auto-encodeurs selon de leur respect des corrélations de données, et une méthode de normalisation basée sur la cardinalité des groupes. Elles peuvent être appliquées à l'interprétation d’autres modèles. Nos données nettoyées améliorent la détection des CRE. Enfin, l'enrichissement de combinaisons d'éléments (fréquence par rapport à ce qui est attendu au hasard) doit être quantifié avec précision. Nous proposons OLOGRAM-MODL, une méthode Monte Carlo ajustant un modèle binomial négatif sur le nombre de paires de bases où une combinaison est observée. Cela renvoie des p-valeurs plus précises par rapport aux approches existantes. Nous l'étendons aux combinaisons de >2 éléments et proposons un algorithme d'extraction d'itemsets pour identifier les combinaisons intéressantes de régulateurs, qui reconstruisent le mieux les données d'origine. Nous utilisons l'apprentissage par dictionnaire pour sa robustesse au bruit. Nous montrons que le problème est sous-modulaire et qu'un algorithme glouton peut trouver ces ensembles intéressants. Il a été implémenté dans le jeu d'outils gtftk.

Thesis resume

Genetic cis-regulation in humans is effected by chromatin regulators, such as histone marks and Transcriptional Regulators (TRs), binding on regions called Cis-Regulatory Elements (CREs). They seldom function alone, forming complexes instead. For example, Transcription Factors bind directly to DNA, and are themselves bound by co-factors. The goal of these interacting systems is to regulate the activity of the RNA Pol II. The development of Next Generation Sequencing provides experimental methods to study this regulation, inclusing ChIP-seq and other assays, to quantify both chromatin accessibility and protein binding. However, these methods present challenges and sources of noise (ie. result differing from the biological reality). They also suffer from reproducibility problems, complicating comparison between results. These biases are difficult to correct. Besides combinations of regulators themselves, the recent explosion of available data volume and variety of sources, collated in databases such as ENCODE or ReMap gives opportunities for integrating different data views. While combinations of biological regulators are important to regulation, they are seldom operated on. Existing approaches suffer from either the precision of the data integration, or clarity of usage. The goal of this thesis is to leverage such combinations using machine learning methods, which are effective at learning regularities in the data: in other words, combinations. We represent the regions where regulators bind as lists of intervals, converted into matrix and tensor representations. As a result, our approaches are generalizable to any lists of intervals. Early work presented in this thesis discusses prediction of CRE status and detection of alternative promoters in T-ALL leukemia. We propose a method based to robustly identify meaningful alternative promoters based on their expression, discarding low-level noise. Then, we focus on anomaly detection. ChIP-seq and other assays can suffer from errors and false positives, poor quality control, and several other biases. Those are difficult to correct, as annotated supervised data is rarely available, and even so would require a tedious error-by-error approach. Furthermore, the use of larger volumes of data increases the probability of wrong observations. Instead, we perform unsupervised anomaly detection under the assumption that noise will not respect the usual combinations between sources (TRs and/or datasets). We propose the atyPeak method which exploits combinations of TRs and redundant experiments from the ReMap database. We use a multi-view convolutional autoencoder to perform a “Goldilocks” compression, learning and rebuilding sources as part of a groups of correlating ones and not alone, discarding rare noisy patterns. We mark peaks which have fewer known collaborators present in their vicinity than their source’s average. We also propose approaches to evaluate autoencoders based on their respect of data correlations, and a new normalization method based on the cardinality of the correlation groups. They can be applied to the interpretation of any black box model. Our cleaned data improves Cis-Regulatory Element detection. Finally, the enrichment of given combinations of elements (how often they are found vs. expected by chance) must be precisely quantified. We propose the OLOGRAM-MODL approach, demonstrating a Monte Carlo method to fit a Negative Binomial model on the number of base pairs on which a combination is observed. This returns more precise p-values compared to existing approaches. We extend this to combinations of k > 2 elements and propose an itemset mining algorithm to identify interesting combinations of regulators, based on which ones best rebuild the original data. We leverage Dictionary Learning for its robustness to noise. We also demonstrate that the problem is submodular and that a greedy algorithm can find itemsets of interest. It was implemented in the gtftk toolset.