Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

ARN Polymérase II,génomique,Bio-informatique,Régulation génomique,enhancer,ChIP-seq,

Keywords

RNA Polymerase II,genomics,Bioinformatics,Genomic Regulation,regulatory elements,enhancer,

Titre de thèse

Cartographie et signification biologique des régions intergéniques transcrites du génome humain
Atlas and biological significance of transcribed intergenic regions of the human genome

Date

Lundi 18 Mars 2024 à 9:00

Adresse

Auditorium - Hexagone 172 Av. de Luminy, 13009 Marseille Auditorium - Hexagone

Jury

Directeur de these M. BENOIT BALLESTER TAGC
Rapporteur Mme Sarah DJEBALI IRSD
Rapporteur M. Charles LECELLIER IGMM & LIRMM
Examinateur Mme Andrée DELAHAYE-DURIEZ Université Sorbonne Paris Nord & AP-HP
Président M. Salvatore SPICUGLIA TAGC

Résumé de la thèse

Selon le dogme central de la biologie, l'ADN est transcrit en ARN puis traduit en protéines. Cependant, seulement un à deux pourcents du génome semblent coder pour des protéines, alors qu'une majorité du génome semble pouvoir être transcrite en ARN. Il a été montré que certains de ces ARNs non-codants, étant en général moins abondants et plus instables, étant nécessaires pour certaines identités cellulaires, notamment l'identité pluripotente. Dans les cancers, une expression aberrante de ces transcrits non-codants a été observée. Une majorité des variants génétiques associés à des maladies ou traits humains sont situés dans ces régions non-codantes. Dans mon travail de thèse, nous avons réanalysé plus de 900 expériences ciblant l'ARN Polymérase II, l'enzyme responsable de la génération de ces transcrits. J'ai pu identifier, dans le génome intergénique, plus de 180 000 régions fixées par l'ARN polymerase II, donc probablement transcrites, et identifier dans quels tissus celles ci étaient actives. Nous avons également analysé le signal transcriptionnel au niveau de ces régions dans près de 29 000 expériences RNA-seq provenant d'ENCODE, GTEx et TCGA. Dans les données de cancers issues de TCGA, cela a permis de mettre en évidence de nouvelles régions génomiques pouvant servir de marqueur dont l'expression est associée avec l'état tumoral du tissu ou à la survie du patient. Ce travail a également permis le développement de méthodes d'analyses de données génomiques fonctionnant avec un signal bas et des régions non-codantes, qui ont été implémentées dans un package python, Muffin.

Thesis resume

According to the central dogma of biology, DNA is transcribed into RNA and then translated into proteins. However, only one to two percent of the genome appears to code for proteins, while a majority of the genome seems capable of being transcribed into RNA. It has been shown that some of these non-coding RNAs, generally being less abundant and more unstable, are necessary for certain cellular identities, notably the pluripotent identity. In cancers, aberrant expression of these non-coding transcripts has been observed. A majority of the genetic variants associated with diseases or human traits are located in these non-coding regions. In my thesis work, we reanalyzed over 900 experiments targeting RNA Polymerase II, the enzyme responsible for generating these transcripts. I was able to identify more than 180,000 regions bound by RNA polymerase II in the intergenic genome, thus likely transcribed, and identify in which tissues they were active. We also analyzed the transcriptional signal at these regions in nearly 29,000 RNA-seq experiments from ENCODE, GTEx, and TCGA. In cancer data from TCGA, this allowed for the identification of new genomic regions that could serve as markers whose expression is associated with the tumor state of the tissue or the patient's survival. This work also enabled the development of methods for analyzing genomic data that work with a low signal and non-coding regions, which have been implemented in a Python package, Muffin.