Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
Etablissement
Aix-Marseille Université
Mots Clés
Apprentissage statistique,Apprentissage profond,Bio-informatic,Classification hiérarchique,scRNA-seq,
Keywords
Machine Learning,Deep Learning,Bio-informatic,Hierarchical classification,scRNA-seq,
Titre de thèse
Méthodes de classification pour les données de séquençage de lARN à léchelle de la cellule unique
Classification methods for single cell RNA sequencing data
Date
Mardi 2 Juillet 2024 à 9:00
Adresse
4ème étage - Bâtiment MMG
Faculté de Médecine
27 Bd Jean Moulin
13385 Marseille Cedex 05
FRANCE salle de seminaire du MMG
Jury
Directeur de these |
M. Thierry ARTIERES |
Centrale Méditerranée - LIS |
Rapporteur |
M. Olivier GANDRILLON |
CNRS |
Rapporteur |
Mme Guillemette MAROT |
Université de Lille - INRIA |
Président |
Mme Nathalie VIALANEIX |
INRAE |
Examinateur |
Mme Alice CLEYNEN |
CNRS & Université de Montpellier |
CoDirecteur de these |
M. Paul VILLOUTREIX |
INSERM |
Résumé de la thèse
La biologie du développement a pour objet d'étude la façon dont l'expression des gènes est regulée dans l'espace et le temps au sein d'un embryon pour produire un organisme fonctionnel. Le séquençage de l'ARN à l'échelle de la cellule unique est une technologie récente d'acquisition de données. Cette technologie permet de mesurer l'expression de chaque gène pour chaque cellule, ce qui donne des vecteurs transcriptomiques dans un espace de plus de 20 000 dimensions. Un défi majeur est de classifier ces vecteurs transcriptomiques en différents groupes de cellules et d'identifier les relations de lignage entre les cellules. Ces relations sont typiquement encodées par un arbre qui résume toutes les divisions cellulaires qui ont lieu au cours du développement.
Ce travail se concentre sur la question de la classification des vecteurs transcriptomiques au sein d'un arbre de lignage. Plusieurs types d'annotation sont disponibles dans les ensembles de données expérimentales : supervision complète, supervision partielle où chaque exemple a un ensemble d'étiquettes candidates, et aucune supervision. Nous proposons de nouvelles méthodes et des extensions pour plusieurs méthodes de classification multi-classes de l'état de l'art afin de traiter ces différentes situations de supervision.
Thesis resume
Developmental biology is concerned with the study of how gene expression is regulated in space and time within an embryo to produce a functional organism. Single-cell RNA sequencing is a recent data acquisition technique. This technology makes it possible to measure the expression of each gene for each cell, resulting in transcriptomic vectors in a space of more than 20,000 dimensions. A major challenge is to classify these transcriptomic vectors into different cell groups and to identify the lineage relationships between cells. These relationships are tipically encoded by a tree that summarizes all the cell divisions that occur during embryogenesis.
This work focuses on the classification of transcriptomic vectors in a lineage tree. Several types of annotation are available in the experimental datasets: full supervision, partial supervision where each example has a set of candidate labels, and no supervision. We propose new methods and extensions for several state-of-the-art multi-class classification methods to address these different supervision situations.