Ecole Doctorale

Sciences de l'Environnement

Spécialité

Sciences de l'environnement : Anthropologie biologique

Etablissement

Aix-Marseille Université

Mots Clés

Prédiction du phénotype,Génétiques des populations,Génétique des caractères complexes,,

Keywords

Phenotype prediction,Population genetics,Complex traits genetics,,

Titre de thèse

Prédiction de phénotypes à partir de données génétiques: applications aux caractères de pigmentation en science forensique, anthropologie et cartographie génétique
Phenotypic prediction from genotype data: applications to pigmentation in forensics, anthropology and genetic mapping

Date

Tuesday 28 February 2023 à 9:00

Adresse

Aix-Marseille Université 27 Bd Jean Moulin, Campus Timone Marseille 13005, France salle de visioconférence

Jury

Directeur de these M. Andrés RUIZ-LINARES Aix Marseille Université
CoDirecteur de these M. Pierre FAUX UMR ADES 7268, Aix-Marseille Université (durant la période de thèse), UMR GenPhySE 1388, INRAe (depuis le 1/3/2022)
Examinateur M. Kaustubh ADHIKARI The Open University
Rapporteur M. Sijia WANG Chinese Academy of Sciences
Rapporteur M. Pedro MORAL CASTRILLO Universitat de Barcelona
Examinateur Mme Anaïs BAUDOT CNRS / Marseille Medical Genetics (UMR 1251 INSERM/AMU)

Résumé de la thèse

La pigmentation humaine est une composante majeure de l'apparence physique, très importante pour les études médico-légales, anthropologiques et médicales. Il existe plusieurs ensembles de SNP pour la prédiction médico-légale de la pigmentation. Cependant, les études se sont principalement basées sur des cohortes d’origine européenne, limitant ainsi leur applicabilité à d’autres populations. Outre les phénotypes, les méthodes de prédiction basées sur les génotypes sont également appliquées à l'expression de gènes en utilisant des bases de données transcriptomiques. Ces approches ont gagné en popularité et se sont révélées prometteuses pour améliorer la cartographie de phénotypes complexes. Dans cette thèse, j'ai étudié l'utilisation de la prédiction basée sur le génotype pour deux cas, les phénotypes de pigmentation et les niveaux d'expression des gènes, afin d'améliorer les connaissances actuelles sur la biologie de la pigmentation humaine. Mes principaux objectifs étaient (1) d'établir des modèles de prédiction de la pigmentation applicables à diverses populations, (2) de les étendre à des échantillons d'ADN anciens, et (3) de prédire les niveaux d'expression des gènes et de tester leur association aux phénotypes de pigmentation. J'ai utilisé les données du projet CANDELA, lequel inclut les génotypes de >7 000 individus d'Amérique latine avec un degré variable de métissage et des phénotypes quantitatifs de pigmentation. J'ai abordé l’objectif (1) en développant une méthode pour construire des ensembles de SNP prédictifs associés à la pigmentation avec une grande précision de prédiction. Les nouveaux ensembles de SNP ainsi développés ont donné de meilleurs résultats que ceux existants pour la couleur de la peau sur la population métissée (caractère quantitatif) et à égalité pour la couleur des yeux et des cheveux (caractère catégorique). Cela souligne l'importance de la concordance entre l’origine des échantillons d'entraînement et des échantillons cibles. J'ai exploré plusieurs modèles statistiques et d'apprentissage automatique et trouvé que la régression linéaire était plus performante pour les traits polygéniques comme la couleur de la peau. Pour répondre à l’objectif (2), j'ai adapté les ensembles de SNP pour la couleur de la peau et des yeux afin de couvrir des origines peu représentées dans la cohorte CANDELA. J'ai également amélioré les modèles de prédiction pour tenir compte de deux spécificités de l'ADN ancien : la rareté et la pseudo-haploïdie. Ces modèles ont d'abord été validés sur 2 803 échantillons contemporains (1000 Genomes Phase 3 et HGDP), puis appliqués à ~3 600 individus anciens disponibles publiquement (base de données AADR) datant de 50 000 av. JC à 1 500 apr. JC. De par la nature quantitative des phénotypes prédits, j'ai obtenu des tendances graduelles commençant il y a ~15 000 ans pour l'indice de mélanine et la couleur des yeux. J’ai remarqué une augmentation récente de l'indice de mélanine dans le nord-est de l'Eurasie qui est en phase avec les prédictions contemporaines. J'ai prédit un indice de mélanine plus élevé que prévu pour les résidents de la région polaire, ce qui pourrait être lié à un régime enrichi en vitamine D. Pour répondre à l’objectif (3), j'ai exploré les modèles statistiques PrediXcan. Ceux-ci fournissent une prédiction de l'expression des gènes basée sur les SNP en exploitant les données GTEx et les associations phénotype-transcriptome. La prédiction inter-tissus basée sur les résumés statistiques de GWAS a identifié une nouvelle association entre le gène CACNA2D2 et l'indice de mélanine. L’étude de ce gène chez la souris a également donné des résultats prometteurs. En conclusion, les modèles de prédiction basés sur le génotype nous ont aidés à mieux comprendre l'architecture des facteurs génomiques ayant un impact sur les traits de pigmentation, ainsi que les tendances évolutives et les forces de sélection qui agissent sur eux.

Thesis resume

Human pigmentation is a major component of physical appearance, of great importance to forensic, anthropological and disease studies. There exists several SNP sets for forensic, genotype-based prediction of pigmentation phenotypes. However, studies have mostly focused on European ancestry cohorts, limiting therefore their applicability to genetically distant groups. Beside phenotypes, genotype-based prediction methods are also applied to gene expression using transcriptomic databases. These approaches have been gaining popularity and has shown promises for enhancing the mapping of complex phenotypes. In this thesis, I investigated the use of genotype-based prediction for two cases, pigmentation phenotypes and gene expression levels, to further enhance the current knowledge of the biology of human pigmentation. My main objectives were (1) to establish pigmentation prediction models applicable to genetically diverse populations, (2) to extent them to ancient DNA samples, and (3) to predict gene expression levels and test their association to pigmentation phenotypes. I used the data from the CANDELA project, with genotypes of >7,000 Latin American individuals with varying degree of continental admixture, and quantitative pigmentation phenotypes. I addressed the first objective by developing a method to construct predictive SNP sets of pigmentation-associated genetic variants with high prediction accuracy. The novel SNP sets developed in that frame performed better than existing ones for quantitative skin colour on the admixed population and at par for categorical eye and hair colour, highlighting the importance of concordance between ancestries of the training and target samples. I explored several statistical and machine learning models and found linear regression to perform better than machine learning models for polygenic traits like skin colour. To address the second objective, I adapted the SNP sets for skin and eye colour to encounter ancestries scarcely represented in the CANDELA set. Also, I improved the prediction models to account for two specificities of ancient DNA: sparsity and pseudo-haploidy. These models were first validated on 2,803 contemporary samples (1000 Genomes Phase 3 and HGDP), then applied to ~3,600 publicly-available ancient individuals (AADR database) dating from 50,000 BCE to 1,500 CE. Thanks to the quantitative nature of the predicted phenotypes, I obtained gradual trends starting ~15,000 years ago for melanin index and eye colour. Interestingly, I predicted a recent increase of melanin index in North-Eastern Eurasia that aligns with the prediction on contemporary populations. I predicted higher than expected Melanin Index for residents in the polar region that may relate to a vitamin D-enriched diet. To address the third objective, I explored the class of PrediXcan statistical models, which provide SNP-based prediction of gene expression, leveraging the GTEx dataset and phenotype-transcriptome association testing. The cross-tissue prediction based on GWAS summary statistics identified a novel association between CACNA2D2 in 3p21 and melanin index. Silencing this gene in mice has further shown promising results. In conclusion, genotype-based prediction models helped us to better understand the architecture of the genomic factors impacting the pigmentation traits, as well as the evolutionary trends and selection forces working on them.