Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

biologie computationnelle,séquençage ARN,réseaux multicouches,séries temporelles,voies cellulaires,interactomes

Keywords

computational biology,RNA-sequencing,multilayer networks,time-course datasets,pathways,interactomes

Titre de thèse

Extraire des voies cellulaires dynamiques avec des séries temporelles d'expression génétique : de l'analyse d'expression différentielle aux réseaux multicouches temporels
Extracting dynamic pathways with time-course gene expression datasets: from differential expression analysis to temporal multilayer networks

Date

Wednesday 21 April 2021 à 14:00

Adresse

IBDM UMR 7288, Campus de Luminy, 13009 Marseille IBDM

Jury

CoDirecteur de these Mme Bianca HABERMANN Institut de Biologie du Développement de Marseille (IBDM/CNRS UMR7288)
CoDirecteur de these M. Aziz MOQRICH Institut de Biologie du Développement de Marseille (IBDM/CNRS UMR7288)
Rapporteur M. Claude PASQUIER Laboratoire Informatique Signaux et Systèmes de Sophia-Antipolis (I3S/CNRS UMR7271)
Rapporteur M. Andreas BEYER CECAD Research Center
Examinateur M. Laurent TICHIT Institut de Mathématiques de Marseille (I2M/CNRS UMR7373)
Examinateur Mme Nathalie VIALANEIX INRAe Toulouse
Examinateur Mme Laurence CALZONE Institut Curie

Résumé de la thèse

Les "événements" cellulaires sont régulés par des "voies", définies comme une série de molécules, telles que les protéines, qui interagissent entre elles. Les voies cellulaires activées dérégulent généralement l'expression génétique. A son tour, elle dérégule l’activité des protéines codées par les gènes et les interactions qui y sont associées. Les voies cellulaires sont donc dynamiques et non statiques. Les voies cellulaires peuvent être représentées par des réseaux biologiques qui contiennent les protéines d'une cellule ainsi que leurs interactions. Les techniques d'analyse des réseaux peuvent démêler la dynamique d'une voie cellulaire en incorporant des données temporelles, par exemple issues de séquençages transcriptomiques. Tout d'abord, l'analyse de l'expression différentielle des données transcriptomiques identifie les gènes dérégulés au fil du temps. Ces gènes peuvent ensuite être apposés sur des réseaux biologiques, tels que les réseaux d'interactions entre protéines. Deuxièmement, l'extraction de sous-réseaux identifie les régions des réseaux qui sont enrichies en gènes dérégulés et qui sont donc dynamiques. Cependant, à ce jour, la plupart des méthodes fondées sur les réseaux biologiques construisent ou extraient des réseaux statiques, dans lesquels les informations temporelles ne sont pas incluses et donc, la dynamique des voies cellulaires est perdue. Ces dernières années, deux types de réseaux complexes ont été introduits : les réseaux temporels et les réseaux multicouches. Les réseaux temporels modélisent les interactions transitoires entre les molécules. Bien qu'ils semblent idéaux pour modéliser la dynamique des voies biologiques, ils ne conviennent pas aux expériences qui ne peuvent pas identifier les interactions transitoires ou qui ont une fréquence d'échantillonnage trop faible, comme les jeux de données temporels en transcriptomique. Les réseaux multicouches, en revanche, peuvent combiner plusieurs types de données et facteurs, par exemple le temps, en les modélisant comme des réseaux indépendants reliés entre eux. Dans ce projet de thèse, j'ai développé une méthode qui projette les composantes temporelles des jeux de données d'expression génétique sur des réseaux multicouches, créant ainsi des « réseaux multicouches temporels ». Chaque couche représente une unité de temps comme un réseau d'interactions moléculaires sur lequel sont ajoutés les informations de dérégulation génétique à un moment donné. Les couches sont ensuite reliées les unes aux autres en suivant l'axe du temps. Pour prédire les voies cellulaires dynamiques sous la forme de sous-réseaux actifs, j'ai adapté les méthodes classiques d'extraction de sous-réseaux aux réseaux multicouches temporels. Pour appliquer cette approche, j'ai développé l'application « TimeNexus » pour Cytoscape. J'ai testé TimeNexus sur un jeu de données de séquençage ARN de levure pour évaluer son efficacité à extraire les principaux régulateurs de son cycle cellulaire, ainsi que sur un jeu de données de souris pour identifier les sous-réseaux impliqués dans l'inflammation de neurones sensoriels des pattes arrière. Dans un second projet visant à explorer l'effet de l'eau salée sur le métabolisme des lipides d'une espèce de microalgue, Chlorella sp. HS2, j'ai appliqué une approche plus conventionnelle pour explorer les changements temporels dans l'expression génétique. Les résultats de l’analyse d'expression différentielle montrent que le trop-plein de cofacteurs métaboliques est susceptible d'induire une production de lipides dans l'eau salée. TimeNexus est un outil ergonomique pour modéliser des réseaux temporels multicouches. À ma connaissance, c'est la première fois que l'extraction de sous-réseaux a été appliquée à ce type de réseaux biologiques complexes.

Thesis resume

Cellular ‘events’ are regulated by so-called pathways, which are defined as a series of molecules such as proteins interacting with each other. Activated cellular pathways often dysregulate gene expression. In turn, it dysregulates activities of gene-encoded proteins and their associated interactions. Pathways are therefore dynamic and not static. Pathways can be represented as biological networks, which contain the proteins of a cell as well as their interactions. Techniques from network analysis can unravel the dynamics of a cellular pathway by incorporating time-course data, e.g. from transcriptomic sequencing. First, differential expression analysis of transcriptomic data identifies dysregulated genes over time. These genes can then be mapped on biological networks, such as protein-protein interaction networks. Second, subnetwork extraction identifies regions of networks which are enriched in dysregulated genes and which are thus dynamic. However, to date, most methods for biological networks build or extract static networks, in which temporal information is not included and thus, dynamics of pathways are lost. In recent years, two types of complex networks have been introduced: temporal networks and multilayer networks. Temporal networks model transient interactions between molecules. While they sound ideal to model the dynamics of biological pathways, they are not suitable for experiments which cannot identify transient interactions or which have a too low sampling frequency, such as time-course transcriptomic datasets. Multilayer networks, on the other hand, can combine multiple data types and factors, e.g. time, by modelling them as independent networks linked to each other. In this thesis project, I have developed a method that projects temporal components of time-course gene expression datasets on multilayer networks, creating so-called temporal multilayer networks. Each layer represents one time-point as a network of molecular interactions on which are mapped information of dysregulated at a given time. Layers are then linked to each other following the axis of time. To predict dynamic pathways in the form of active subnetworks, I adapted classic subnetwork-extraction methods to temporal multilayer networks. I implemented this approach in the Cytoscape app TimeNexus. I tested TimeNexus on a yeast RNA-sequencing dataset to evaluate its efficiency to extract key cell-cycle regulators, as well as on a mouse dataset to identify subnetworks involved in the inflammation of hind-paw sensory neurons. In a side-project to explore the effect on salt water on the lipid metabolism of a microalga species, Chlorella sp. HS2, I applied a more conventional approach to explore temporal changes in gene expression. The results of the differential expression analysis showed that the overflow of metabolic co-factors are likely to induce a production of lipids under salt water. TimeNexus is a convenient, user-friendly tool to model temporal multilayer networks. To my knowledge, it is the first time that subnetwork extraction was applied to this type of complex biological networks.