Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

Régulation de la transcription,Bioinformatiquets régulateur de la transcription,Facteurs de transcription,Big Data,

Keywords

Transcription regulation,bioinformatic,Transcription factors,Big Data,

Titre de thèse

Etude des éléments cis-régulateurs : identification et caractérisation
Study of Cis-regulatory Elements : identification and characterization

Date

Jeudi 19 Décembre 2019

Adresse

Hexagone, Bibliothèque Universitaire de Sciences de Luminy 163 Avenue de Luminy 13009 Marseille France Amphithéâtre Hexagone

Jury

CoDirecteur de these Mme Christine BRUN Laboratoire TAGC/INSERM U1090
Rapporteur M. Philipp BUCHER L'Ecole Polytechnique Fédérale de Lausanne
Rapporteur Mme Morgane THOMAS-CHOLLIER Ecole normale supérieure (Paris, France)
CoDirecteur de these M. Benoît BALLESTER Laboratoire TAGC/INSERM U1090
Examinateur M. François PARCY Laboratoire Physiologie Cellulaire & Végétale CEA-Grenoble

Résumé de la thèse

Le processus de régulation de la transcription des gènes repose très largement sur l’existence de séquences d’ADN non codantes dans le génome. Ces séquences d’ADN, appelées “éléments cis-régulateurs”, ont la particularité de recruter de nombreuses protéines capables de réguler le niveau de transcription des gènes. Parmi ces protéines, les facteurs de transcription sont capables de se fixer directement sur l’ADN. Les facteurs de transcription coopèrent avec d’autres protéines régulatrices, les cofacteurs, afin de réguler la transcription. Les protéines régulatrices de la transcription permettent la fixation et la régulation de l’enzyme d’ARN polymérase II qui transcrit les gènes en ARN messager. Leurs fixations sur les éléments cis-régulateurs permettent une régulation des gènes dans l’espace et dans le temps. Pour mieux comprendre la régulation de l’expression des gènes, il est nécessaire d’identifier les éléments cis-régulateurs dans le génome afin de caractériser et d’identifier les mécanismes d’action des éléments régulateurs et des protéines qui leur sont liés. Le développement rapide des méthodes de séquençage à haut débit a permis l’identification des interactions ADN/protéines à grande échelle. L'accumulation massive des données de séquençage dans les banques de données publiques permet l'intégration de nombreuses expériences capturant les interactions entre les facteurs de transcription et l’ADN par des moyens bioinformatiques. Le but de mon doctorat a été d’annoter et traiter de façon uniforme les données brutes issues d’expériences de séquençage dont l’objectif est d’identifier les régions de fixation des protéines régulatrices pour l’Homme puis chez Arabidopsis Thaliana. Nous avons traité des données de ChIP-seq, ChIP-exo et DAP-seq afin d'élaborer plusieurs catalogues de régions régulatrices chez l’homme et Arabidopsis Thaliana. Toutes ces données sont disponibles au sein du projet ReMap. Nous les avons complétées par une analyse de toutes les marques d’histones pour Arabidopsis Thaliana. Pour effectuer ces analyses nous avons développé des workflows reproductibles, scalables et portables sur des architectures différentes. Cette analyse intégrative à haut débit nous a permis d’identifier de nombreux nouveaux éléments cis-régulateurs. Ces données ont aussi été utilisées pour identifier les sites de fixations reconnus par les facteurs de transcription et pour consolider la base de données JASPAR pour l’Homme et Arabidopsis Thaliana. Enfin, ce catalogue a été utilisé dans le développement d’une nouvelle méthode appliquant un algorithme basé sur l’entropie permettant de différencier les événements de fixations directes et indirectes par les protéines dans les résultats de ChIP-seq.

Thesis resume

The regulation of gene transcription is largely based on the existence of non-coding DNA sequences in the genome. These DNA sequences, called "cis-regulatory elements", have the particularity of recruiting many proteins capable of regulating the level of gene transcription. Among these proteins, transcription factors are capable of directly binding to DNA. Transcription factors cooperate with other regulatory proteins, called cofactors, to regulate transcription. Transcription regulatory proteins allow the binding and regulation of the RNA polymerase II enzyme that transcribes genes into messenger RNA. The fixation of transcription factors on the cis-regulatory elements allows the regulation of genes in space and time. To better understand the regulation of gene expression, it is necessary to identify cis-regulatory elements in the genome in order to characterize and identify the mechanisms of action of regulatory elements and the proteins that are linked to them. The rapid development of high throughput sequencing methods has made it possible to identify DNA/protein interactions on a large scale. The massive accumulation of sequencing data in public databases allows the integration of many experiments that capture the interactions between transcription factors and DNA through bioinformatics. The purpose of my PhD was to annotate and process in a uniform way the raw data from sequencing experiments whose objective is to identify the binding regions of regulatory proteins for humans and then for Arabidopsis Thaliana. We processed data from ChIP-seq, ChIP-exo and DAP-seq to develop several catalogues of regulatory regions in humans and Arabidopsis Thaliana. All this data is available within the ReMap project. We completed them with an analysis of all histone brands for Arabidopsis Thaliana. To carry out these analyses we have developed reproducible, scalable and portable workflows working on different architectures. This high throughput integrative analysis has allowed us to identify many new cis-regulatory elements. These data were also used to identify the attachment sites recognized by the transcription factors and to consolidate the JASPAR database for humans and Arabidopsis Thaliana. Finally, this catalogue was used in the development of a new method applying an entropy-based algorithm to differentiate between direct and indirect protein binding events in ChIP-seq results.