Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Génétique

Etablissement

Aix-Marseille Université

Mots Clés

Variations,Pathogenicité,Domaines structuraux,Bioinformatique,conservation,recommendations ACMG-AMP

Keywords

Variations,Pathogenicity,Structural domains,Bioinformatics,conservation,ACMG-AMP guidelines

Titre de thèse

Nouvelles approches de prédiction de la pathogénicité des mutations
New mutation pathogenicity prediction approaches

Date

Vendredi 20 Mai 2022 à 14:00

Adresse

27 Boulevard Jean Moulin, 13005, Marseille Visioconférence

Jury

Directeur de these M. Christophe BEROUD Marseille Medical Genetics U 1251 - Université de Marseille
Rapporteur Mme Odile BOESPFLUG-TANGUY CHU Paris - Hôpital Robert Debré
Rapporteur Mme Caroline KANNENGIESSER-DECUYPER CHU Paris Nord-Val de Seine - Hôpital Xavier Bichat-Claude Bernard
Examinateur M. Alain CALENDER CHU de Lyon HCL - GH Est
Examinateur M. François VALLETTE UMR 1307 Inserm - Nantes Université
CoDirecteur de these M. David SALGADO Marseille Medical Genetics U 1251 - Université de Marseille

Résumé de la thèse

Les maladies rares sont définies par une prévalence inférieure à un cas sur 2000 personnes et affecteraient 6 à 8 % de la population mondiale. La grande majorité de ces maladies (∼80 %) sont d’origine génétique. Souvent, le séquençage, puis l’analyse rigoureuse des variants rares détectés, reste le meilleur moyen de valider un diagnostic. Pour cela, les généticiens collectent des éléments de preuve de la pathogénicité des variants identifiés, puis s’appuient sur des règles de classification strictes pour rendre leurs résultats. Si les nouvelles technologies génomiques permettent d’espérer diminuer l’errance diagnostic et faciliter la découverte de traitements, elles génèrent un volume conséquent de données biologiques à traiter souvent illustré par le terme "data deluge". La bioinformatique est une discipline récente, dont une composante travaille à l’élaboration d’outils permettant de faciliter l'identification des variants les plus susceptibles d’engendrer une pathologie. Dans ce cadre nous avons développé l’outil DOLPHIN (https://dolphin.mmg-gbit.eu) qui utilise l’information contenue dans les domaines protéiques eucaryotes. Il permet de mettre en lumière les résidus clés et les substitutions les plus susceptibles d’impacter la fonction protéique. Ces nouvelles informations peuvent être intégrées dans les recommandations ACMG-AMP afin d'en réduire les limites notamment pour le critère PM1 (présence dans un "hot spot" mutationnel ou un domaine fonctionnel sans variation bénigne). Aujourd’hui, le critère PM1 est utilisé par les outils comme InterVar ou VarSome avec une grande divergence par rapport aux recommandations ACMG : lorsqu'il y a absence de variant bénin dans le domaine pour l'un, ou moins de 50 % dans une fenêtre de 25 pb pour l'autre. DOLPHIN propose une approche plus subtile et rigoureuse focalisée sur la position de l’acide aminé et son type au sein du domaine. Les paramètres "wt" et "∆" permettent ainsi d'annoter comme PM1 environ 30 % des résidus des domaines protéiques et comme "BP8" (nouveau critère indiquant que la variation ne touche pas de résidu clé du domaine) 33,4 %. Parallèlement, en combinant les données de fréquences des différents variants affectant la même position d'un domaine, quelle que soit la protéine, nous avons affiné le concept de fréquence dans une population contrôle. Les critères PM2/BS1 (absence ou présence d'un variant à une certaine fréquence dans une population contrôle) bénéficient également de notre approche puisque 32,6 % des variations localisées dans les domaines ont une fréquence "DOLPHIN" versus seulement 7,8 % pour gnomAD.¬ Enfin, nous avons démontré que ces nouvelles informations pouvaient être combinées à des outils de prédiction de pathogénicité afin d’en affiner les résultats. En effet, la conservation au sein des domaines diffère de la conservation entre protéines homologues souvent utilisée par ces outils. Ceci est illustré par l'intégration des données de DOLPHIN dans UMD-Predictor. Bien que cet outil soit l'un des plus performants actuellement, cet ajout se traduit par une augmentation significative de son efficacité sur un jeu de données de référence issu de ClinVar comportant 8990 variants (91,4 % vs 83 %). Ces différents éléments démontrent que les informations contenues dans les domaines protéiques peuvent contribuer à affiner la classification des variations à de multiples niveaux.

Thesis resume

Rare diseases are defined by a prevalence of less than one in 2000 people and are thought to affect 6-8% of the world's population. The vast majority of these diseases (∼80%) are genetic in origin. Often, sequencing and then rigorous analysis of detected rare variants remains the best way to validate a diagnosis. To do this, geneticists collect evidence of the pathogenicity of the identified variants and then rely on strict classification rules to deliver their results. While new genomic technologies can hopefully reduce diagnostic errancy and facilitate the discovery of treatments, they generate a significant volume of biological data to be processed, often illustrated by the term "data deluge". Bioinformatics is a recent discipline, one component of which is working on the development of tools to facilitate the identification of variants most likely to cause a pathology. In this context, we have developed the DOLPHIN tool (https://dolphin.mmg-gbit.eu) which uses the information contained in eukaryotic protein domains. It highlights key residues and substitutions that are most likely to impact protein function. This new information can be integrated into the ACMG-AMP recommendations in order to reduce their limits, especially for the PM1 criterion (presence in a mutational "hot spot" or a functional domain without benign variation). Today, the PM1 criterion is used by tools such as InterVar or VarSome with a certain divergence from the ACMG-AMP guidelines: when there is no benign variant in the domain for the first one, or less than 50% in 25 bp window for the second. DOLPHIN proposes a more subtle and rigorous approach focusing on the position of the amino acid and its type within the domain. The "wt" and "∆" parameters thus allow annotating as PM1 about 30% of the protein domain residues and as "BP8" (a new criterion indicating that the variation does not affect a key residue of the domain) 33.4%. At the same time, by combining the frequency data of the different variants affecting the same position of a domain, regardless of the protein, we have refined the concept of frequency in a control population. The PM2/BS1 criteria (absence or presence of a variant at a certain frequency in a control population) also benefit from our approach since 32.6% of the variations localized in the domains have a "DOLPHIN" frequency versus only 7.8% for gnomAD. Finally, we demonstrated that this new information could be combined with pathogenicity prediction tools to refine their results. Indeed, conservation within domains differs from the conservation between homologous proteins often used by these tools. This is illustrated by the integration of DOLPHIN data into UMD-Predictor. Although this tool is one of the most efficient tools currently available, this addition results in a significant increase in its efficiency on a reference dataset from ClinVar with 8990 variants (91.4% vs 83%). These different elements demonstrate that the information contained in protein domains can help refine the variations' classification at multiple levels.