Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
Etablissement
Aix-Marseille Université
Mots Clés
Bioinformatique,Epigénomique,Reproductibilité,Séquençage à haut débit,Thymopoïèse,Spermatogenesis
Keywords
Bioinformatics,Epigenomics,Reproducibility,Next Generation Sequencing,Thymopoiesis,Spermatogenesis
Titre de thèse
Décryptage de dynamiques épigénomiques au cours de la thymopoïèse et de la spermatogénèse en appliquant une méthodologie de recherche reproductible à des données de séquençage à haut débit.
Shedding light to epigenomics dynamics occuring in thymopoiesis and spermatogenesis using reproducible research methodology applied to high throughput sequencing data.
Methodological developments for a reproducible research in bioinformatics and app
Date
Friday 4 October 2019 à 14:00
Adresse
Parc Scientifique de Luminy
163, avenue de Luminy
13288 MARSEILLE cedex 09
FRANCE Amphi 12 Luminy
Jury
Directeur de these |
M. Salvatore SPICUGLIA |
Inserm U1090 TAGC |
Rapporteur |
M. Mendoza MARCO ANTONIO |
CNRS UMR 8030 - Genoscope - Centre National de Séquençage · Laboratory of Synthetic and Systems Biology LISSB - Team Leader SysFate |
CoDirecteur de these |
M. Denis PUTHIER |
Inserm U1090 TAGC |
Rapporteur |
M. Carl HERRMANN |
Biomedical Genomics in the Health Data Science Unit Medical Faculty Heidelberg |
Examinateur |
Mme Sophie ROUSSEAUX |
Inserm U1209 / CNRS UMR 5309 |
Examinateur |
Mme Catherine NGUYEN |
Inserm U1090 TAGC |
Examinateur |
M. Vahid ASNAFI |
Institut Necker |
Résumé de la thèse
Cette dernière décennie, le développement de nombreuses méthodes expérimentales basées sur les technologies de séquençage à haut débit ont élargi les possibilités d'exploration du fonctionnement du génome des organismes. Le niveau d'expression de l'ensemble des gènes, l'accessibilité et les modifications locales de la chromatine, ainsi que les sites de fixations de protéines sur l'ADN sont des informations accessibles par des approches largement démocratisées. Les données produites par ces approches sont caractérisées par leur taille importante, leur complexité et leur réemployabilité pour des applications scientifiques au delà de celle pour laquelle elles ont été initialement générées. Ces caractéristiques ont favorisé la création de projets internationaux fructueux pour la génération et le partage de ces données à la communauté scientifique.
Les traitements informatiques qu'il est possible de leur appliquer sont d'une grande diversité en termes de principes, outils, algorithmes, paramètres et tests statististiques. Des choix différents peuvent parfois mener à des résultats divergents débattus par des scientifiques. Il est alors primordial de disposer d'une méthodologie pour le traitement de ces données qui permette d'assurer une reproductibilité complète des résultats tout en accordant une flexibilité de développement permettant l'application de différents traitements en parallèle.
Une implémentation d'une telle méthodologie est présentée dans cette thèse, complémentée de trois outils utiles pour le traitement de certains types de données issues du séquençage. Cette implémentation a été réalisée grâce à, mais aussi pour des projets d'études de mécanismes épigénétiques, principalement centrés autour de la thymopoïèse humaine et de la spermatogénèse murine. Pour autant, les principes à suivre dans la méthodologie sont pensés pour être les plus généraux possibles et peuvent être appliqués pour produire tous types d'analyses basées sur un enchaînement d'outils en ligne de commande.
Thesis resume
Over the last decade, the development of numerous experimental methods based on high throughput sequencing technologies has broadened the possibilities for exploring the functioning of the genome of organisms. The level of expression of all genes, accessibility and local modifications of chromatin, as well as protein binding sites on DNA are information accessible by widely democratized approaches. The data produced by these approaches are characterized by their large size, complexity and reusability for scientific applications beyond the one they were initially generated. These characteristics have favored the creation of successful international projects for the generation and sharing of these data to the scientific community.
The computer treatments that can be applied to them are of a great diversity in terms of principles, tools, algorithms, parameters and statistic tests. Different choices can sometimes lead to divergent results debated by scientists. It is then essential to have a methodology for the processing of these data which allows to ensure a complete reproducibility of the results while granting flexibility of development allowing the application of different treatments in parallel.
An implementation of such a methodology is presented in this thesis, complemented by three useful tools for the treatment of certain types of data from sequencing. This implementation was realized thanks to, but also for projects of studies of epigenetic mechanisms, mainly centered around the human thymopoiesis and the murine spermatogenesis. However, the principles to be followed in the methodology are designed to be as general as possible and can be applied to produce all types of analysis based on a sequence of command line tools.