Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
Etablissement
Aix-Marseille Université
Mots Clés
bioinformatique,génétique,apprentissage machine,biocuration,fouille de textes,bases de données
Keywords
bioinformatics,genetics,machine learning,biocuration,text mining,databases
Titre de thèse
Application des approches d'intelligence artificielle à la biocuration dans le cadre des maladies génétiques
Application of artificial intelligence methods for biocuration for genetics diseases
Date
Monday 23 May 2022 à 14:00
Adresse
Faculté des Sciences Médicales et Paramédicales
Aix-Marseille Université
27 bd Jean Moulin - 13005 Marseille Salle de visio
Jury
Directeur de these |
Mme Gwenaelle COLLOD-BEROUD |
Aix Marseille Université - U1251 MMG |
Rapporteur |
M. Gérald LE GAC |
Université de Bretagne Occidentale - U1078 |
Rapporteur |
Mme Sylvie ODENT |
Institut de Génétique et Développement de Rennes (IGRD) - UMR 6290 |
Examinateur |
Mme Christel THAUVIN |
GAD Génétique des Anomalies du Développement, Université de Bourgogne. - UMR 1231 |
Examinateur |
M. Pascal RIHET |
Theories and Approaches of Genomic Complexity (TAGC) - U1090 |
CoDirecteur de these |
M. Christophe BEROUD |
Université Aix Marseille - U1251 MMG |
Résumé de la thèse
La littérature médicale est de plus en plus riche avec aujourd'hui plus de 30 millions d'articles par an référencés dans Medline auxquels il convient d'ajouter les données présentées dans des colloques et celles disponibles dans d'autres bases de données. Il est donc virtuellement impossible d'accéder à ces informations sans l'aide de systèmes experts ou de l'informatique au sens large.
Actuellement, les bases de données Locus Spécifique (LSDBs) sont renseignées manuellement par des experts. Elles sont une ressource essentielle pour les chercheurs, les laboratoires de diagnostic et les cliniciens car elles jouent un rôle crucial dans linterprétation des variants. Si le nombre de LSDBs était peu élevé au moment du séquençage Sanger, le passage au séquençage de nouvelle génération (NGS) et lanalyse dexomes et de génomes entiers (plusieurs dizaines de milliers de gènes) nécessite la création de milliers de LSDBs (une pour chaque gène), ce qui est difficilement réalisable manuellement.
Ainsi, lexploration de textes et lautomatisation de lextraction dinformations deviennent des éléments clés du processus de biocuration.
Dans ce travail, jai développé BioKnExt (Biological Knowledge Extractor), un outil dextraction de connaissances biologiques. Celui-ci combine différentes approches (dapprentissage machine et de fouille de textes) pour identifier les articles d'intérêt et en extraire automatiquement des informations pertinentes. Ceci comprend, d'une part, la sélection d'articles se rapportant à un sujet dintérêt (pathologie, gène, variation, etc.) et, dautre part, le recueil d'informations spécifiques pouvant être incluses dans les LSDBs ou tout type de base de données générique (variations, nomenclature, maladies associées, etc.). Lobjectif de ce travail de thèse a été à la fois de développer un outil permettant une visualisation annotée de la littérature et, de faciliter le processus de biocuration en génétique en fournissant notamment la liste des variations d'un groupe de gènes donné et des publications associées.
L'application de BioKnExt aux gènes impliqués dans le syndrome de Marfan et des pathologies associées a permis de démontrer sa grande efficacité pour extraire automatiquement les mentions de gènes et de variations à partir de publications et de résumés. Ces résultats montrent le gain de temps apporté par cet outil et son intérêt dans la biocuration.
BioKnExt est ainsi un extracteur automatisé d'informations génétiques de la littérature pouvant être utilisé pour de nombreuses applications liées aux gènes et aux variations comme l'extraction de jeux de données ou l'ajout d'informations lors du processus d'annotation des données de NGS.
Thesis resume
The medical literature is increasingly rich, with more than 30 million articles per year referenced in Medline, to which must be added data presented at conferences and available in other databases. It is therefore virtually impossible to access this information without the help of expert systems or computer science in the broad sense.
Currently, Locus Specific Databases (LSDBs) are manually populated and curated by experts. They are an essential resource for researchers, diagnostic laboratories, and clinicians as they play a crucial role in the interpretation of variants. While the number of LSDBs was low at the time of Sanger sequencing, the transition to next-generation sequencing (NGS) and the analysis of exomes and whole genomes (several tens of thousands of genes) requires the creation of thousands of LSDBs (one for each gene), which is difficult to do manually.
Thus, text mining and automation of information extraction become key elements of the biocuration process.
In this work, I have developed BioKnExt (Biological Knowledge Extractor), a biological knowledge extraction tool. It combines different approaches (machine learning and text mining) to identify articles of interest and automatically extract relevant information. This includes, on the one hand, the selection of articles related to a topic of interest (disease, gene, variation, etc.) and, on the other hand, the collection of specific information that can be included in LSDBs or any type of generic database (variations, nomenclature, associated diseases, etc.). The aim of this thesis was both to develop a tool allowing an annotated visualization of the literature and to facilitate the process of biocuration in genetics by providing the list of variations of a given genes and the associated publications.
The application of BioKnExt to genes involved in Marfan syndrome and associated diseases has demonstrated its high efficiency in automatically extracting genes and variations mentions from publications and abstracts. These results show the time saving provided by this tool and its interest in biocuration.
BioKnExt is thus an automated extractor of genetic information from the literature that can be used for many applications related to genes and variations such as the extraction of datasets or the addition of information during the annotation process of NGS data.