Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

Etablissement

Aix-Marseille Université

Mots Clés

Apprentissage statistique,Apprentissage profond,Bio-informatic,Classification hiérarchique,scRNA-seq,

Keywords

Machine Learning,Deep Learning,Bio-informatic,Hierarchical classification,scRNA-seq,

Titre de thèse

Méthodes de classification pour les données de séquençage de l’ARN à l’échelle de la cellule unique
Classification methods for single cell RNA sequencing data

Date

Mardi 2 Juillet 2024 à 9:00

Adresse

4ème étage - Bâtiment MMG Faculté de Médecine 27 Bd Jean Moulin 13385 Marseille Cedex 05 FRANCE salle de seminaire du MMG

Jury

Directeur de these M. Thierry ARTIERES Centrale Méditerranée - LIS
Rapporteur M. Olivier GANDRILLON CNRS
Rapporteur Mme Guillemette MAROT Université de Lille - INRIA
Président Mme Nathalie VIALANEIX INRAE
Examinateur Mme Alice CLEYNEN CNRS & Université de Montpellier
CoDirecteur de these M. Paul VILLOUTREIX INSERM

Résumé de la thèse

La biologie du développement a pour objet d'étude la façon dont l'expression des gènes est regulée dans l'espace et le temps au sein d'un embryon pour produire un organisme fonctionnel. Le séquençage de l'ARN à l'échelle de la cellule unique est une technologie récente d'acquisition de données. Cette technologie permet de mesurer l'expression de chaque gène pour chaque cellule, ce qui donne des vecteurs transcriptomiques dans un espace de plus de 20 000 dimensions. Un défi majeur est de classifier ces vecteurs transcriptomiques en différents groupes de cellules et d'identifier les relations de lignage entre les cellules. Ces relations sont typiquement encodées par un arbre qui résume toutes les divisions cellulaires qui ont lieu au cours du développement. Ce travail se concentre sur la question de la classification des vecteurs transcriptomiques au sein d'un arbre de lignage. Plusieurs types d'annotation sont disponibles dans les ensembles de données expérimentales : supervision complète, supervision partielle où chaque exemple a un ensemble d'étiquettes candidates, et aucune supervision. Nous proposons de nouvelles méthodes et des extensions pour plusieurs méthodes de classification multi-classes de l'état de l'art afin de traiter ces différentes situations de supervision.

Thesis resume

Developmental biology is concerned with the study of how gene expression is regulated in space and time within an embryo to produce a functional organism. Single-cell RNA sequencing is a recent data acquisition technique. This technology makes it possible to measure the expression of each gene for each cell, resulting in transcriptomic vectors in a space of more than 20,000 dimensions. A major challenge is to classify these transcriptomic vectors into different cell groups and to identify the lineage relationships between cells. These relationships are tipically encoded by a tree that summarizes all the cell divisions that occur during embryogenesis. This work focuses on the classification of transcriptomic vectors in a lineage tree. Several types of annotation are available in the experimental datasets: full supervision, partial supervision where each example has a set of candidate labels, and no supervision. We propose new methods and extensions for several state-of-the-art multi-class classification methods to address these different supervision situations.