Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

Bioinformatics,statistics,Next generation sequencing,analyse multidimensionnelle,RNA-seq,classification supervisée

Keywords

Bioinformatics,Statistics,Next Generation Sequencing,Multivariate analysis,RNA-seq,supervised classification

Titre de thèse

Développement, évaluation et application de méthodes statistiques pour l'analyse de données multidimensionnelles de comptage produites par les technologies de séquençage à haut débit ("Next Generation Sequencing").
Development, assessment and application of statistical methods for the analysis of count-based multivariate datasets produced by next-generation sequencing technologies.

Date

Jeudi 20 Décembre 2018 à 14:00

Adresse

Aix-Marseille Université, Campus de Luminy. 13288 Marseille Bâtiment B, Amphi 12

Jury

Directeur de these M. Jacques VAN HELDEN Aix-Marseille Université
Examinateur Mme Christine BRUN Inserm
Rapporteur Mme Gaëlle LELANDAIS Université Paris-Sud
Rapporteur Mme Marie-Agnès DILLIES Institut Pasteur
Examinateur Denis PUTHIER Aix-Marseille Université
Examinateur M. Pascal BARBRY Université Nice Sophia Antipolis

Résumé de la thèse

Depuis une décennie, l’avènement des technologies de séquençage massivement parallèle (Next Generation Sequencing, NGS) a révolutionné la façon de mener les études génomiques. Une application particulièrement importante et largement répandue du NGS est l’étude du transcriptome par séquençage de l’ADNc obtenu à partir de l’ARN d’un échantillon (RNA-seq). La technologie RNA-seq présente un grand nombre d’avantages par rapport aux précédentes (notamment les biopuces) : élargissement de la plage dynamique de mesure, accroissement de la précision, débit élevé, découverte de nouvelles formes d’épissage, etc. Conséquemment, le RNA-seq a progressivement remplacé les approches de biopuces pour devenir la principale technologie d’analyse du transcriptome. Les études NGS produisent d’énormes quantités de données, qui appellent au développement de méthodes d’analyse multidimensionnelle efficients, qui prennent en compte la nature particulière des données (comptages discrets, étendue dynamique énorme, présence de valeurs aberrantes, …). Dans cette thèse, nous nous focalisons sur l’utilisation de méthodes d’apprentissage automatique pour assigner des échantillons à des classes sur base de leurs profils d’expression RNA-seq. Tout d’abord, nous dressons une revue de l’état de l’art pour la génomique, et des méthodes statistiques qui ont été appliquées aux méthodes NGS, afin de tirer les leçons des derniers développements méthodologiques et d’évaluer l’apport de notre recherche par rapport aux derniers développements en analyse multidimensionnelle des données NGS. Nous effectuons ensuite une évaluation comparative des méthodes de classification supervisées sur base de données téléchargées de la base de données recount2, qui contient à peu près 2000 expériences de RNA-seq. Dans cette base de données, nous avons sélectionné 7 cas d’étude représentatifs d’études RNA-seq typiques, avec différents types de catégories (classes) : maladies (types de cancers, leucémies, psoriasis), ou types cellulaires (cellules nerveuses). Nous avons évalue l’impact du pré-traitement des données sur les méthodes de classification supervisée: procédures de filtrage (mise à l’écart de gènes et/ou échantillons non fiables), normalisation, transformation en composantes principales (ACP). Nous avons également étudié l’impact de la sélection de variables afin de réduire la sur-dimensionnalité de l’espace des variables, et d’identifier le sous-ensemble de gènes ou composantes qui optimisent la précision des classifications. Cette sélection repose sur un tri préalable des variables basé soit sur l’analyse différentielle d’expression, soit sur l’importance des variables calculée lors d’un premier cycle de classification avec Random Forest. Durant toute cette étude, nous avons prêté une attention particulière aux métadonnées, et nous avons exploré la structure des jeux de données, afin d’interpréter le comportement de chaque méthode (Support Vector Machines, Random Forest, K Nearest Neighbouts) à la lumière des spécificités de chaque cas d’étude : nombre d’échantillons, de classes, distribution des comptages bruts, RNA-seq sur échantillons entiers (« bulk ») ou cellules isolées (« single-cell »).

Thesis resume

In recent years, the advent of next-generation sequencing (NGS) technology has been revolutionizing how genomic studies are processed. An important and widely used application of NGS technology is the study of transcriptome through sequencing of cDNA obtained from RNA (RNA-seq). Compared with previous technologies like microarrays, RNA-seq data have many advantages, such as dynamic and wider ranges of measurements, increased precision, higher throughput, discovery of novel RNA species and splice forms, etc. Thence, RNA-seq has been became suitable alternative for the microarray approach as the main platform to transcriptome studies. NGS technologies produce huge amounts of data, which urges the development of effective multivariate analysis methods adapted to the particular nature of the data (discrete counts, huge dynamic range, outliers, …). In this dissertation, we focus on the use of machine learning methods to perform supervised classification to assign samples to groups based on their RNA-seq gene expression profiles. First, we briefly revise the state-of-art for the genomics and the statistical methods to treat NGS data, in order to draw lessons from the latest developments in analysis the NGS data and to evaluate what our research will provide to the latest scientific developments in the scope of multivariate analysis for the NGS data. We perform a comparative assessment of supervised classification methods, based on published data downloaded from the recount2 warehouse, which contains around 2000 RNA-seq experiments. We selected seven datasets that are representative for typical of RNA-seq studies with different type of categories (classes): disease states (cancer types, leukemia, psoriasis), or cell types (nervous cells). We assessed the impact of pre-processing on classifiers: filtering procedures (discarding unsuited genes and/or samples), normalization, PCA transformation. We also studied the impact of the feature selection, to circumvent the problem of over-dimensionality of the feature space, and find out the subset of genes or components that optimizes the accuracy of classifiers. The feature selection relied on variable ordering based on either differential expression analysis, or on variable importance returned by a Random Forest classifier. We pay a particular attention to the metadata and we explore the structure of the datasets, in order to interpret the behavior of each tested classifier (SVM, RF, and KNN), based on the specificities of each study case (number of samples, number of classes, distribution of the count values, bulk or single-cell RNA-seq, …).