Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

bioinformatique,génétique,apprentissage machine,biocuration,fouille de textes,bases de données

Keywords

bioinformatics,genetics,machine learning,biocuration,text mining,databases

Titre de thèse

Application des approches d'intelligence artificielle à la biocuration dans le cadre des maladies génétiques
Application of artificial intelligence methods for biocuration for genetics diseases

Date

Monday 23 May 2022 à 14:00

Adresse

Faculté des Sciences Médicales et Paramédicales Aix-Marseille Université 27 bd Jean Moulin - 13005 Marseille Salle de visio

Jury

Directeur de these Mme Gwenaelle COLLOD-BEROUD Aix Marseille Université - U1251 MMG
Rapporteur M. Gérald LE GAC Université de Bretagne Occidentale - U1078
Rapporteur Mme Sylvie ODENT Institut de Génétique et Développement de Rennes (IGRD) - UMR 6290
Examinateur Mme Christel THAUVIN GAD Génétique des Anomalies du Développement, Université de Bourgogne. - UMR 1231
Examinateur M. Pascal RIHET Theories and Approaches of Genomic Complexity (TAGC) - U1090
CoDirecteur de these M. Christophe BEROUD Université Aix Marseille - U1251 MMG

Résumé de la thèse

La littérature médicale est de plus en plus riche avec aujourd'hui plus de 30 millions d'articles par an référencés dans Medline auxquels il convient d'ajouter les données présentées dans des colloques et celles disponibles dans d'autres bases de données. Il est donc virtuellement impossible d'accéder à ces informations sans l'aide de systèmes experts ou de l'informatique au sens large. Actuellement, les bases de données Locus Spécifique (LSDBs) sont renseignées manuellement par des experts. Elles sont une ressource essentielle pour les chercheurs, les laboratoires de diagnostic et les cliniciens car elles jouent un rôle crucial dans l’interprétation des variants. Si le nombre de LSDBs était peu élevé au moment du séquençage Sanger, le passage au séquençage de nouvelle génération (NGS) et l’analyse d’exomes et de génomes entiers (plusieurs dizaines de milliers de gènes) nécessite la création de milliers de LSDBs (une pour chaque gène), ce qui est difficilement réalisable manuellement. Ainsi, l’exploration de textes et l’automatisation de l’extraction d’informations deviennent des éléments clés du processus de biocuration. Dans ce travail, j’ai développé BioKnExt (Biological Knowledge Extractor), un outil d’extraction de connaissances biologiques. Celui-ci combine différentes approches (d’apprentissage machine et de fouille de textes) pour identifier les articles d'intérêt et en extraire automatiquement des informations pertinentes. Ceci comprend, d'une part, la sélection d'articles se rapportant à un sujet d’intérêt (pathologie, gène, variation, etc.) et, d’autre part, le recueil d'informations spécifiques pouvant être incluses dans les LSDBs ou tout type de base de données générique (variations, nomenclature, maladies associées, etc.). L’objectif de ce travail de thèse a été à la fois de développer un outil permettant une visualisation annotée de la littérature et, de faciliter le processus de biocuration en génétique en fournissant notamment la liste des variations d'un groupe de gènes donné et des publications associées. L'application de BioKnExt aux gènes impliqués dans le syndrome de Marfan et des pathologies associées a permis de démontrer sa grande efficacité pour extraire automatiquement les mentions de gènes et de variations à partir de publications et de résumés. Ces résultats montrent le gain de temps apporté par cet outil et son intérêt dans la biocuration. BioKnExt est ainsi un extracteur automatisé d'informations génétiques de la littérature pouvant être utilisé pour de nombreuses applications liées aux gènes et aux variations comme l'extraction de jeux de données ou l'ajout d'informations lors du processus d'annotation des données de NGS.

Thesis resume

The medical literature is increasingly rich, with more than 30 million articles per year referenced in Medline, to which must be added data presented at conferences and available in other databases. It is therefore virtually impossible to access this information without the help of expert systems or computer science in the broad sense. Currently, Locus Specific Databases (LSDBs) are manually populated and curated by experts. They are an essential resource for researchers, diagnostic laboratories, and clinicians as they play a crucial role in the interpretation of variants. While the number of LSDBs was low at the time of Sanger sequencing, the transition to next-generation sequencing (NGS) and the analysis of exomes and whole genomes (several tens of thousands of genes) requires the creation of thousands of LSDBs (one for each gene), which is difficult to do manually. Thus, text mining and automation of information extraction become key elements of the biocuration process. In this work, I have developed BioKnExt (Biological Knowledge Extractor), a biological knowledge extraction tool. It combines different approaches (machine learning and text mining) to identify articles of interest and automatically extract relevant information. This includes, on the one hand, the selection of articles related to a topic of interest (disease, gene, variation, etc.) and, on the other hand, the collection of specific information that can be included in LSDBs or any type of generic database (variations, nomenclature, associated diseases, etc.). The aim of this thesis was both to develop a tool allowing an annotated visualization of the literature and to facilitate the process of biocuration in genetics by providing the list of variations of a given genes and the associated publications. The application of BioKnExt to genes involved in Marfan syndrome and associated diseases has demonstrated its high efficiency in automatically extracting genes and variations mentions from publications and abstracts. These results show the time saving provided by this tool and its interest in biocuration. BioKnExt is thus an automated extractor of genetic information from the literature that can be used for many applications related to genes and variations such as the extraction of datasets or the addition of information during the annotation process of NGS data.