Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

Bioinformatique,Epigénomique,Reproductibilité,Séquençage à haut débit,Thymopoïèse,Spermatogenesis

Keywords

Bioinformatics,Epigenomics,Reproducibility,Next Generation Sequencing,Thymopoiesis,Spermatogenesis

Titre de thèse

Décryptage de dynamiques épigénomiques au cours de la thymopoïèse et de la spermatogénèse en appliquant une méthodologie de recherche reproductible à des données de séquençage à haut débit.
Shedding light to epigenomics dynamics occuring in thymopoiesis and spermatogenesis using reproducible research methodology applied to high throughput sequencing data. Methodological developments for a reproducible research in bioinformatics and app

Date

Friday 4 October 2019 à 14:00

Adresse

Parc Scientifique de Luminy 163, avenue de Luminy 13288 MARSEILLE cedex 09 FRANCE Amphi 12 Luminy

Jury

Directeur de these M. Salvatore SPICUGLIA Inserm U1090 TAGC
Rapporteur M. Mendoza MARCO ANTONIO CNRS UMR 8030 - Genoscope - Centre National de Séquençage · Laboratory of Synthetic and Systems Biology LISSB - Team Leader SysFate
CoDirecteur de these M. Denis PUTHIER Inserm U1090 TAGC
Rapporteur M. Carl HERRMANN Biomedical Genomics in the Health Data Science Unit – Medical Faculty Heidelberg
Examinateur Mme Sophie ROUSSEAUX Inserm U1209 / CNRS UMR 5309
Examinateur Mme Catherine NGUYEN Inserm U1090 TAGC
Examinateur M. Vahid ASNAFI Institut Necker

Résumé de la thèse

Cette dernière décennie, le développement de nombreuses méthodes expérimentales basées sur les technologies de séquençage à haut débit ont élargi les possibilités d'exploration du fonctionnement du génome des organismes. Le niveau d'expression de l'ensemble des gènes, l'accessibilité et les modifications locales de la chromatine, ainsi que les sites de fixations de protéines sur l'ADN sont des informations accessibles par des approches largement démocratisées. Les données produites par ces approches sont caractérisées par leur taille importante, leur complexité et leur réemployabilité pour des applications scientifiques au delà de celle pour laquelle elles ont été initialement générées. Ces caractéristiques ont favorisé la création de projets internationaux fructueux pour la génération et le partage de ces données à la communauté scientifique. Les traitements informatiques qu'il est possible de leur appliquer sont d'une grande diversité en termes de principes, outils, algorithmes, paramètres et tests statististiques. Des choix différents peuvent parfois mener à des résultats divergents débattus par des scientifiques. Il est alors primordial de disposer d'une méthodologie pour le traitement de ces données qui permette d'assurer une reproductibilité complète des résultats tout en accordant une flexibilité de développement permettant l'application de différents traitements en parallèle. Une implémentation d'une telle méthodologie est présentée dans cette thèse, complémentée de trois outils utiles pour le traitement de certains types de données issues du séquençage. Cette implémentation a été réalisée grâce à, mais aussi pour des projets d'études de mécanismes épigénétiques, principalement centrés autour de la thymopoïèse humaine et de la spermatogénèse murine. Pour autant, les principes à suivre dans la méthodologie sont pensés pour être les plus généraux possibles et peuvent être appliqués pour produire tous types d'analyses basées sur un enchaînement d'outils en ligne de commande.

Thesis resume

Over the last decade, the development of numerous experimental methods based on high throughput sequencing technologies has broadened the possibilities for exploring the functioning of the genome of organisms. The level of expression of all genes, accessibility and local modifications of chromatin, as well as protein binding sites on DNA are information accessible by widely democratized approaches. The data produced by these approaches are characterized by their large size, complexity and reusability for scientific applications beyond the one they were initially generated. These characteristics have favored the creation of successful international projects for the generation and sharing of these data to the scientific community. The computer treatments that can be applied to them are of a great diversity in terms of principles, tools, algorithms, parameters and statistic tests. Different choices can sometimes lead to divergent results debated by scientists. It is then essential to have a methodology for the processing of these data which allows to ensure a complete reproducibility of the results while granting flexibility of development allowing the application of different treatments in parallel. An implementation of such a methodology is presented in this thesis, complemented by three useful tools for the treatment of certain types of data from sequencing. This implementation was realized thanks to, but also for projects of studies of epigenetic mechanisms, mainly centered around the human thymopoiesis and the murine spermatogenesis. However, the principles to be followed in the methodology are designed to be as general as possible and can be applied to produce all types of analysis based on a sequence of command line tools.