Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
Etablissement
Aix-Marseille Université
Mots Clés
Régulation de la transcription,Bioinformatiquets régulateur de la transcription,Facteurs de transcription,Big Data,
Keywords
Transcription regulation,bioinformatic,Transcription factors,Big Data,
Titre de thèse
Etude des éléments cis-régulateurs : identification et caractérisation
Study of Cis-regulatory Elements : identification and characterization
Date
Jeudi 19 Décembre 2019
Adresse
Hexagone, Bibliothèque Universitaire de Sciences de Luminy
163 Avenue de Luminy
13009 Marseille
France Amphithéâtre Hexagone
Jury
CoDirecteur de these |
Mme Christine BRUN |
Laboratoire TAGC/INSERM U1090 |
Rapporteur |
M. Philipp BUCHER |
L'Ecole Polytechnique Fédérale de Lausanne |
Rapporteur |
Mme Morgane THOMAS-CHOLLIER |
Ecole normale supérieure (Paris, France) |
CoDirecteur de these |
M. Benoît BALLESTER |
Laboratoire TAGC/INSERM U1090 |
Examinateur |
M. François PARCY |
Laboratoire Physiologie Cellulaire & Végétale CEA-Grenoble |
Résumé de la thèse
Le processus de régulation de la transcription des gènes repose très largement sur lexistence de séquences dADN non codantes dans le génome. Ces séquences dADN, appelées éléments cis-régulateurs, ont la particularité de recruter de nombreuses protéines capables de réguler le niveau de transcription des gènes. Parmi ces protéines, les facteurs de transcription sont capables de se fixer directement sur lADN. Les facteurs de transcription coopèrent avec dautres protéines régulatrices, les cofacteurs, afin de réguler la transcription. Les protéines régulatrices de la transcription permettent la fixation et la régulation de lenzyme dARN polymérase II qui transcrit les gènes en ARN messager. Leurs fixations sur les éléments cis-régulateurs permettent une régulation des gènes dans lespace et dans le temps. Pour mieux comprendre la régulation de lexpression des gènes, il est nécessaire didentifier les éléments cis-régulateurs dans le génome afin de caractériser et didentifier les mécanismes daction des éléments régulateurs et des protéines qui leur sont liés. Le développement rapide des méthodes de séquençage à haut débit a permis lidentification des interactions ADN/protéines à grande échelle. L'accumulation massive des données de séquençage dans les banques de données publiques permet l'intégration de nombreuses expériences capturant les interactions entre les facteurs de transcription et lADN par des moyens bioinformatiques. Le but de mon doctorat a été dannoter et traiter de façon uniforme les données brutes issues dexpériences de séquençage dont lobjectif est didentifier les régions de fixation des protéines régulatrices pour lHomme puis chez Arabidopsis Thaliana. Nous avons traité des données de ChIP-seq, ChIP-exo et DAP-seq afin d'élaborer plusieurs catalogues de régions régulatrices chez lhomme et Arabidopsis Thaliana. Toutes ces données sont disponibles au sein du projet ReMap. Nous les avons complétées par une analyse de toutes les marques dhistones pour Arabidopsis Thaliana. Pour effectuer ces analyses nous avons développé des workflows reproductibles, scalables et portables sur des architectures différentes. Cette analyse intégrative à haut débit nous a permis didentifier de nombreux nouveaux éléments cis-régulateurs. Ces données ont aussi été utilisées pour identifier les sites de fixations reconnus par les facteurs de transcription et pour consolider la base de données JASPAR pour lHomme et Arabidopsis Thaliana. Enfin, ce catalogue a été utilisé dans le développement dune nouvelle méthode appliquant un algorithme basé sur lentropie permettant de différencier les événements de fixations directes et indirectes par les protéines dans les résultats de ChIP-seq.
Thesis resume
The regulation of gene transcription is largely based on the existence of non-coding DNA sequences in the genome. These DNA sequences, called "cis-regulatory elements", have the particularity of recruiting many proteins capable of regulating the level of gene transcription. Among these proteins, transcription factors are capable of directly binding to DNA. Transcription factors cooperate with other regulatory proteins, called cofactors, to regulate transcription. Transcription regulatory proteins allow the binding and regulation of the RNA polymerase II enzyme that transcribes genes into messenger RNA. The fixation of transcription factors on the cis-regulatory elements allows the regulation of genes in space and time. To better understand the regulation of gene expression, it is necessary to identify cis-regulatory elements in the genome in order to characterize and identify the mechanisms of action of regulatory elements and the proteins that are linked to them. The rapid development of high throughput sequencing methods has made it possible to identify DNA/protein interactions on a large scale. The massive accumulation of sequencing data in public databases allows the integration of many experiments that capture the interactions between transcription factors and DNA through bioinformatics. The purpose of my PhD was to annotate and process in a uniform way the raw data from sequencing experiments whose objective is to identify the binding regions of regulatory proteins for humans and then for Arabidopsis Thaliana. We processed data from ChIP-seq, ChIP-exo and DAP-seq to develop several catalogues of regulatory regions in humans and Arabidopsis Thaliana. All this data is available within the ReMap project. We completed them with an analysis of all histone brands for Arabidopsis Thaliana. To carry out these analyses we have developed reproducible, scalable and portable workflows working on different architectures. This high throughput integrative analysis has allowed us to identify many new cis-regulatory elements. These data were also used to identify the attachment sites recognized by the transcription factors and to consolidate the JASPAR database for humans and Arabidopsis Thaliana. Finally, this catalogue was used in the development of a new method applying an entropy-based algorithm to differentiate between direct and indirect protein binding events in ChIP-seq results.