Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

Petit cadre ouvert de lecture (sORF),Peptide encodé par un sORF (sPEP),Interactions protéine-protéine (PPI),Traduction,Modèle agent,

Keywords

Short open reading frame (sORF),sORF-encoded peptide (sPEP),Protein-protein interactions (PPI),Translation,Agent-based modeling,

Titre de thèse

Exploration des fonctions des petits cadres ouverts de lecture (sORFs) dans les monocytes
Exploration of the functions of short open reading frames (sORFs) in monocytes

Date

Vendredi 9 Décembre 2022

Adresse

163 Avenue de Luminy, 13009 MARSEILLE Hexagone - case 901 Auditorium de l'Hexagone

Jury

Directeur de these Mme CHRISTINE BRUN Aix-Marseille Université
CoDirecteur de these Mme PHILIPPE PIERRE Aix-Marseille Université
Rapporteur Mme SYLVIE RICARD-BLUM Université Claude Bernard Lyon 1
Rapporteur M. YVES VANDENBROUCK CEA – Direction de la Recherche Fondamentale
Examinateur M. SERGE PLAZA Université Paul Sabatier Toulouse III
Examinateur M. BENOIT BALLESTER Aix-Marseille Université

Résumé de la thèse

Le développement récent des technologies haut-débit et des méthodes computationnelles a révélé l'existance de nombreux petits cadres ouverts de lecture (sORFs) non canoniques sur la majorité des ARNs procaryotes et eucaryotes, y compris ceux supposés non codants. Du fait de leur petite taille (< 100 codons) et de l'usage de codons d'initiation et de cadres de lecture alternatifs, ces éléments ubiquitaires ont été négligés pendant longtemps. Il a été démontré que des peptides encodés par les sORFs (sPEPs) sont fonctionnels et impliqués dans une large gamme de processus biologiques. Ces sPEPs prennent notamment part à des activités dans la physiologie des cellules, de prolifération, signalisation, organogenèse, croissance, mort cellulaire, transport, régulation enzymatique, métabolisme, développement, organisation du cytosquelette et présentation antigénique (complexe majeur d'histocompatibilité) de classe I (MHC-I). Certains d'entre eux participent même à l'étiologie de maladies (e.g. cancer). Cependant, cette nouvelle classe de peptides demeure mal caractérisée et la majorité des sPEPs ne sont pas encore annotés. De plus, les sORFs localisés en amont des ORFs canoniques des mRNAs (appelés upstream ORFs, uORFs) ont été précocément décrits comme étant des éléments cis régulateurs de la traduction. En modifiant l'efficacité d'initiation de la traduction de l'ORF canonique, les uORFs participent à la régulation traductionnelle. En effet, certains uORFs sont capables de réduire une répression globale de la synthèse protéine des ORFs canoniques en condition de stress. Néanmoins, les modèles existants de régulation de la traduction par les uORFs sont limités à un nombre restreint de gènes et ces mécanismes demeurent cryptiques pour la majorité des ARNs. Mon projet vise à élucider les fonctions des sORFs en (i) identifiant tous les sORFs du génome humain, (ii) explorant les fonctions des sPEPs dans les monocytes, et (iii) explorant les mécanismes de régulation de la traduction par les uORFs. Les monocytes humains constituent un modèle d'intérêt car ils sont capables d'exprimer les molécules du MHC, tandis que de nombreux sPEPs sont présentés comme antigènes du soi. Les monocytes jouent un rôle fondamental dans l'initiation de la réponse immunitaire et dérivent de progéniteurs de la moëlle osseuse communs aux cellules dendritiques. Ces dernières ont des besoins spécifiques quant à leur régulation traductionnelle et constituent donc un modèle intéressant d'étude des fonctions cis-régulatrices des sORFs. Afin de répondre à ces questions, (i) des données publiées ont été recueillies dans une base de données de sORFs uniques identifiés par des méthodes complémentaires, (ii) les interactions des sPEPs avec les protéines canoniques des monocytes ont été prédites afin d'identifier les processus ciblés par les sPEPs, et (iii) le comportement des ribosomes a été reproduit par l'implémentation d'un modèle agent afin d'identifier les paramètres les plus importants à la régulation traductionnelle par les uORFs. (i) En recueillant les données disponibles sur les sORFs, en les normalisant, et en supprimant les entrées redondantes, un total de 664,771 sORFs uniques a été identifié chez l'humain. Ce répertoire permet de nouvelles analyses au niveau des locus, gènes, transcripts et ORFs. (ii) Nos résultats suggèrent que les sPEPs sont impliqués dans des fonctions régulatrices fondamentales, à la fois ubiquitaires (métabolisme des protéines, ADNs, ARNs, expression génique ...) et spécialisées (réponses immunitaires ...). Nous avons également démontré que la majorité des sPEPs intéragissent préférentiellement avec les protéines annotées du même processus que la protéine canonique codée par leur propre transcrit. Enfin, si le modèle agent implémenté ne permet pas d'expliquer les mécanismes de régulation traductionnelle par les uORFs à l'heure actuelle, il fournit à la communauté scientifique un outil facilement adaptable pour approfondir leur étude.

Thesis resume

The recent development of high-throughput technologies and computational methods revealed the existence of many non-canonical short open reading frames (sORFs) on most prokaryotes and eukaryotes RNAs, including presumptive non-coding RNAs. Because of their short size (< 100 codons) and the use of alternative start codons and reading frames, these ubiquitous elements have been missed for long. Functional sORF-encoded peptides (sPEPs) have been demonstrated to be involved in a wide range of biological processes, including cell physiology and proliferation, signaling, organogenesis, cell growth and death, transport, enzymatic regulation, metabolism, development, cytoskeleton organization and major histocompatibility complex class-I (MHC-I) presentation. Some of them are even taking part in disease onset (e.g. cancer). Nonetheless, this novel class of peptides remains poorly characterized and annotation of most sPEPs is still missing. In addition, sORFs located upstream of the canonical ORFs of mRNAs (upstream ORFs, uORFs), have been early described as cis regulators of the translation. By changing the efficiency of the translation initiation at the canonical ORF, uORFs participate to the translational regulatory mechanism. Indeed, some uORFs have been shown to alleviate the repression of the protein synthesis of canonical ORFs under stress. However, existing models of regulation of the translation by uORFs are still limited to a few set of genes, and the mechanisms remain cryptic for most RNAs. This project aims to investigate the sORFs functions by (i) identifying all sORFs in human genome, (ii) discovering sPEP functions in monocytes and (iii) exploring the mechanisms of regulation of the translation by the uORFs. Human monocytes constitute a good model as they are able to express MHC molecules, whilst numerous sPEPs have been determined to be presented as self-antigens. Monocytes are playing a major role in the initiation of immune responses and derived from a bone marrow progenitor common to dendritic cells. These last have special needs regarding their translational regulation and could thus constitute an interesting model to study sORFs cis-regulatory functions. To address these questions, (i) publicly available data were gathered in a repository of unique sORFs identified by complementary methods, (ii) interactions of sPEPs with canonical proteins in monocytes were predicted to identify the processes targeted by sPEPs and (iii) ribosomes' behaviours were mimicked by implementing an agent-based model to identify the most important parameters for translational regulation by uORFs. (i) By gathering publicly available sORF data, normalizing them and summarizing redundant information, a total of 664,771 unique sORFs were identified in human. This repository allows new analyses at locus, gene, transcript and ORF levels. (ii) Our findings suggest that sPEPs are involved in fundamental regulatory functions, both fundamental to the cell (protein, DNA and RNA metabolism, gene expression...) and related to specialized functions (immunological responses...). We also demonstrated that most sPEPs are preferentially interacting with annotated proteins of the same process as their cognate canonical protein. (iii) Finally, the agent-based model developed does not success yet to explain the mechanisms of translational regulation by the uORFs, but provides an adaptable tool to the scientific community for their investigation.