Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

Régulation,ChIP-seq,sites de fixation aux facteur de transcription,éléments transposables,AML,ALDH,

Keywords

Regulation,ChIP-seq,Transcription factor binding site,Transposable elemnts,AML,ALDH,

Titre de thèse

Étude des éléments cis-régulateurs à différentes échelles: Approches fondamentales à appliquées
Study of cis-regulatory elements at different scales: From fundamental to applied approaches

Date

Mercredi 10 Mai 2023 à 14:00

Adresse

Amphithéâtre de l'Hexagone, Facultés des sciences de Luminy, 172 Av. de Luminy, 13009 Marseille Amphithéâtre de l'Hexagone

Jury

Directeur de these M. Benoit BALLESTER Inserm U1090, TAGC
Examinateur Mme Anaïs BARDET IGBMC - CNRS UMR7104
Examinateur M. Pascal RIHET Inserm U1090, TAGC
Président M. Denis PUTHIER Inserm U1090, TAGC
Rapporteur Mme Camille BERTHELOT Institut Pasteur, INSERM
Rapporteur M. Gaël CRISTOFARI Inserm, CNRS, Université Cote d’Azur

Résumé de la thèse

L'ADN non-codant a longtemps été considéré comme inutile. Cependant, grâce aux avancées technologiques dans le domaine de la génomique, les chercheurs ont réalisé l'importance de ces régions dans la régulation des gènes. Les acteurs de la régulation sont les éléments cis-régulateurs (CRE) tels que les promoteurs et enhancers. Ces éléments sont fixés par des protéines appelées facteurs de la transcription (TF), qui se fixent à des sites de fixation spécifique. Les TF agissent seuls ou sous forme de complexes pour recruter l'ARN polymérase II et initier la transcription. Avec l'avénement des techniques de séquençage à haut débit, une technique permettant de détecter la fixation des protéines à l'ADN a vu le jour, le ChIP-seq. Les données résultantes sont stockées dans des entrepôts de données tels que GEO. Cependant, il existe une grande diversité dans la manière dont les expériences ChIP-seq sont conçues. Le projet ReMap, lancé en 2012, vise à identifier les régions régulatrices en annotant et intégrant ces données uniformormément. En 2022, j’ai ajouté deux nouvelles espèces au catalogue: Mus musculus et Drosophila melanogaster et la mise à jour pour l’Homme et Arabidopsis thaliana. Le catalogue chez l'Homme comprend 1210 TF et 182 millions de pics ChIP-seq. L'augmentation continue des données intégrées a nécessité de nouveaux filtres qualités. Ces données sont visualisables sur le navigateur de génomes de UCSC et peuvent être filtrés en fonction des TF et biotypes. Enfin, nous avons tenté de déterminer une spécificité tissulaire des modules de régulations ReMap à l'aide de la méthode ChromHMM. Les résultats préliminaires permettent de distinguer 11 tissus avec un modèle à 25 états. La deuxième partie de ma thèse se concentre sur l'impact des éléments transposables (TE) sur l'insertion de site de fixation au TF dans les génomes au cours de l'évolution. Il y a plus de 50 ans, Barbara McClintock a découvert pour la première fois les éléments transposables dans le maïs (Zea mays) et les a appelés "éléments de contrôle". Depuis, les chercheurs s’éfforcent de classer et caractériser ces TE. Des travaux en génomiques décrivent les TE comme une source abondante de matériaux pour l'assemblage et la modification des systèmes régulateurs des gènes eucaryotes au cours de l'évolution. Nous avons donc réalisé une analyse à grande échelle afin de déterminer l'étendue de ce phénomène. Pour ce faire, nous avons réalisé une analyse d'enrichissement des 1210 pics TF de ReMap sur les TE avec l’outil LOLA. On identifie donc 15,441 paires de TE/TF significativement associés. A l’aide de l’outil FIMO nous avons détecté la présence des motifs de fixation des TF dans la séquence des TE associés pour 7,757 paires. Nous avons observé une spécificité de l'association TE/TF aux groupes de TF et aux familles de TE. Après avoir visualisé l’alignement des séquences de TE nous observons que les motifs sont alignés, témoignant de leur conservation au cours de l’évolution. Nous avons également observé que l'âge d'insertion des TE associés est différent pour chaque groupe de TF. Enfin, nous avons réalisé un projet en collaboration avec Advanced BioDesign (ABD) qui porte sur la régulation des ALDH. En effet, la surexpression des ALDH est associée à un mauvais pronostic chez les patients atteints d’AML. ABD a donc développé un traitement inhibiteur des ALDH, le DIMMATE. Dans ce contexte, nous cherchons à mieux comprendre les mécanismes de la régulation de l'ALDH1A1. J’ai donc cartographié les éléments régulateurs autour de ce gène à l'aide de données multi-omiques. Au cours de notre analyse, nous avons identifié 14 régions régulatrices autour du gène ALDH1A1. Nos résultats ont ensuite été communiqués à nos collaborateurs afin de procéder aux validation expérimentales qui sont encore en cours. Ces travaux se sont portés à trois niveaux de recherche 1) à très grande échelle, 2) à l'échelle génomique "évolutive" et 3) focalisés sur un locus précis.

Thesis resume

Non-coding DNA has long been considered as junk. However, thanks to technological advances in genomics, researchers have realized the importance of these regions in gene regulation. The regulation is mediated by cis-regulatory elements (CRE) such as promoters and enhancers. These elements are bound by proteins called transcription factors (TF), which bind to specific binding sites. TF act alone or as complexes to recruit RNA polymerase II and initiate transcription. With the advent of high-throughput sequencing techniques, a technique for detecting protein binding to DNA has emerged, ChIP-seq. The resulting data is stored in data repositories such as GEO. However, there is a great diversity in metadata and processing of ChIP-seq experiments. It is in this context that the ReMap project was launched in 2012. This project aims to identify CRE by annotating and integrating these data in a uniform manner. In the first part of my thesis, I added two new species to the catalog, mouse (Mus musculus) and fly (Drosophila melanogaster), and also updated it for humans and Arabidopsis thaliana. The human catalog includes 1210 TF and 182 million ChIP-seq peaks. The continuous increase in integrated ChIP-seq data required new filters to ensure data quality. These data are visualizable on the UCSC genome browser and can be filtered by TF and biotypes. Finally, we attempted to determine tissue specificity of the regulatory modules of ReMap using the ChromHMM method. Preliminary results distinguish 11 tissues with a 25-state model. The second part of my thesis focuses on the impact of transposable elements (TE) on the insertion of TF binding site in genomes during evolution. More than 50 years ago, Barbara McClintock first discovered transposable elements in maize (Zea mays) and called them "controlling elements". Since then, researchers have been working to classify and characterize these TE. Many genomic studies describes TE as an abundant source of materials for the assembly and modification of eukaryotic gene regulatory systems during evolution. We therefore decided to carry out a large-scale analysis to determine the extent of this phenomenon on the human genome. To do so, we performed an enrichment analysis of the 1210 ReMap TF peaks on TE using the LOLA tool. We identified 15,441 significantly associated TE/TF pairs. Using the FIMO tool, we detected the presence of TF binding motifs in the TE sequence associated with 5,691 pairs. We observed a specificity of TE/TF association to TF groups and TE families. After visualizing the TE sequence alignment, we observed that the motifs were aligned, indicating their conservation during evolution. We also observed that the insertion age of associated TE is different for each TF group. Finally, we conducted a project in collaboration with Advanced BioDesign (ABD) on the regulation of ALDH. Indeed, ALDH overexpression is associated with poor prognosis in patients with AML. ABD has developed an ALDH inhibitor treatment, DIMMATE. In this context, we aim to better understand the mechanisms of ALDH regulation. I mapped the regulatory elements around this gene using multi-omics data. During our analysis, we identified 14 regulatory regions around the ALDH1A1 gene. Our results were then communicated to our collaborators for experimental validation that are still ongoing. These works were conducted at three levels of research: i) at a very large scale, ii) evolutionary/fundamental genomics, and iii) focused on a specific locus.