Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
Etablissement
Aix-Marseille Université
Mots Clés
ARN Polymérase II,génomique,Bio-informatique,Régulation génomique,enhancer,ChIP-seq,
Keywords
RNA Polymerase II,genomics,Bioinformatics,Genomic Regulation,regulatory elements,enhancer,
Titre de thèse
Cartographie et signification biologique des régions intergéniques transcrites du génome humain
Atlas and biological significance of transcribed intergenic regions of the human genome
Date
Lundi 18 Mars 2024 à 9:00
Adresse
Auditorium - Hexagone 172 Av. de Luminy, 13009 Marseille Auditorium - Hexagone
Jury
Directeur de these |
M. BENOIT BALLESTER |
TAGC |
Rapporteur |
Mme Sarah DJEBALI |
IRSD |
Rapporteur |
M. Charles LECELLIER |
IGMM & LIRMM |
Examinateur |
Mme Andrée DELAHAYE-DURIEZ |
Université Sorbonne Paris Nord & AP-HP |
Président |
M. Salvatore SPICUGLIA |
TAGC |
Résumé de la thèse
Selon le dogme central de la biologie, l'ADN est transcrit en ARN puis traduit
en protéines. Cependant, seulement un à deux pourcents du génome semblent coder
pour des protéines, alors qu'une majorité du génome semble pouvoir être
transcrite en ARN. Il a été montré que certains de ces ARNs non-codants, étant
en général moins abondants et plus instables, étant nécessaires pour certaines
identités cellulaires, notamment l'identité pluripotente. Dans les cancers, une
expression aberrante de ces transcrits non-codants a été observée. Une majorité
des variants génétiques associés à des maladies ou traits humains sont situés
dans ces régions non-codantes.
Dans mon travail de thèse, nous avons réanalysé plus de 900 expériences ciblant
l'ARN Polymérase II, l'enzyme responsable de la génération de ces transcrits.
J'ai pu identifier, dans le génome intergénique, plus de 180 000 régions fixées
par l'ARN polymerase II, donc probablement transcrites, et identifier dans quels
tissus celles ci étaient actives. Nous avons également analysé le signal
transcriptionnel au niveau de ces régions dans près de 29 000 expériences
RNA-seq provenant d'ENCODE, GTEx et TCGA. Dans les données de cancers issues de
TCGA, cela a permis de mettre en évidence de nouvelles régions génomiques
pouvant servir de marqueur dont l'expression est associée avec l'état tumoral du
tissu ou à la survie du patient. Ce travail a également permis le développement
de méthodes d'analyses de données génomiques fonctionnant avec un signal bas et
des régions non-codantes, qui ont été implémentées dans un package python,
Muffin.
Thesis resume
According to the central dogma of biology, DNA is transcribed into RNA and then translated into proteins. However, only one to two percent of the genome appears to code for proteins, while a majority of the genome seems capable of being transcribed into RNA. It has been shown that some of these non-coding RNAs, generally being less abundant and more unstable, are necessary for certain cellular identities, notably the pluripotent identity. In cancers, aberrant expression of these non-coding transcripts has been observed. A majority of the genetic variants associated with diseases or human traits are located in these non-coding regions.
In my thesis work, we reanalyzed over 900 experiments targeting RNA Polymerase II, the enzyme responsible for generating these transcripts. I was able to identify more than 180,000 regions bound by RNA polymerase II in the intergenic genome, thus likely transcribed, and identify in which tissues they were active. We also analyzed the transcriptional signal at these regions in nearly 29,000 RNA-seq experiments from ENCODE, GTEx, and TCGA. In cancer data from TCGA, this allowed for the identification of new genomic regions that could serve as markers whose expression is associated with the tumor state of the tissue or the patient's survival. This work also enabled the development of methods for analyzing genomic data that work with a low signal and non-coding regions, which have been implemented in a Python package, Muffin.