Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
Etablissement
Aix-Marseille Université
Mots Clés
biologie computationnelle,séquençage ARN,réseaux multicouches,séries temporelles,voies cellulaires,interactomes
Keywords
computational biology,RNA-sequencing,multilayer networks,time-course datasets,pathways,interactomes
Titre de thèse
Extraire des voies cellulaires dynamiques avec des séries temporelles d'expression génétique : de l'analyse d'expression différentielle aux réseaux multicouches temporels
Extracting dynamic pathways with time-course gene expression datasets: from differential expression analysis to temporal multilayer networks
Date
Wednesday 21 April 2021 à 14:00
Adresse
IBDM UMR 7288, Campus de Luminy, 13009 Marseille IBDM
Jury
CoDirecteur de these |
Mme Bianca HABERMANN |
Institut de Biologie du Développement de Marseille (IBDM/CNRS UMR7288) |
CoDirecteur de these |
M. Aziz MOQRICH |
Institut de Biologie du Développement de Marseille (IBDM/CNRS UMR7288) |
Rapporteur |
M. Claude PASQUIER |
Laboratoire Informatique Signaux et Systèmes de Sophia-Antipolis (I3S/CNRS UMR7271) |
Rapporteur |
M. Andreas BEYER |
CECAD Research Center |
Examinateur |
M. Laurent TICHIT |
Institut de Mathématiques de Marseille (I2M/CNRS UMR7373) |
Examinateur |
Mme Nathalie VIALANEIX |
INRAe Toulouse |
Examinateur |
Mme Laurence CALZONE |
Institut Curie |
Résumé de la thèse
Les "événements" cellulaires sont régulés par des "voies", définies comme une série de molécules, telles que les protéines, qui interagissent entre elles. Les voies cellulaires activées dérégulent généralement l'expression génétique. A son tour, elle dérégule lactivité des protéines codées par les gènes et les interactions qui y sont associées. Les voies cellulaires sont donc dynamiques et non statiques.
Les voies cellulaires peuvent être représentées par des réseaux biologiques qui contiennent les protéines d'une cellule ainsi que leurs interactions. Les techniques d'analyse des réseaux peuvent démêler la dynamique d'une voie cellulaire en incorporant des données temporelles, par exemple issues de séquençages transcriptomiques. Tout d'abord, l'analyse de l'expression différentielle des données transcriptomiques identifie les gènes dérégulés au fil du temps. Ces gènes peuvent ensuite être apposés sur des réseaux biologiques, tels que les réseaux d'interactions entre protéines. Deuxièmement, l'extraction de sous-réseaux identifie les régions des réseaux qui sont enrichies en gènes dérégulés et qui sont donc dynamiques. Cependant, à ce jour, la plupart des méthodes fondées sur les réseaux biologiques construisent ou extraient des réseaux statiques, dans lesquels les informations temporelles ne sont pas incluses et donc, la dynamique des voies cellulaires est perdue.
Ces dernières années, deux types de réseaux complexes ont été introduits : les réseaux temporels et les réseaux multicouches. Les réseaux temporels modélisent les interactions transitoires entre les molécules. Bien qu'ils semblent idéaux pour modéliser la dynamique des voies biologiques, ils ne conviennent pas aux expériences qui ne peuvent pas identifier les interactions transitoires ou qui ont une fréquence d'échantillonnage trop faible, comme les jeux de données temporels en transcriptomique. Les réseaux multicouches, en revanche, peuvent combiner plusieurs types de données et facteurs, par exemple le temps, en les modélisant comme des réseaux indépendants reliés entre eux.
Dans ce projet de thèse, j'ai développé une méthode qui projette les composantes temporelles des jeux de données d'expression génétique sur des réseaux multicouches, créant ainsi des « réseaux multicouches temporels ». Chaque couche représente une unité de temps comme un réseau d'interactions moléculaires sur lequel sont ajoutés les informations de dérégulation génétique à un moment donné. Les couches sont ensuite reliées les unes aux autres en suivant l'axe du temps. Pour prédire les voies cellulaires dynamiques sous la forme de sous-réseaux actifs, j'ai adapté les méthodes classiques d'extraction de sous-réseaux aux réseaux multicouches temporels. Pour appliquer cette approche, j'ai développé l'application « TimeNexus » pour Cytoscape. J'ai testé TimeNexus sur un jeu de données de séquençage ARN de levure pour évaluer son efficacité à extraire les principaux régulateurs de son cycle cellulaire, ainsi que sur un jeu de données de souris pour identifier les sous-réseaux impliqués dans l'inflammation de neurones sensoriels des pattes arrière.
Dans un second projet visant à explorer l'effet de l'eau salée sur le métabolisme des lipides d'une espèce de microalgue, Chlorella sp. HS2, j'ai appliqué une approche plus conventionnelle pour explorer les changements temporels dans l'expression génétique. Les résultats de lanalyse d'expression différentielle montrent que le trop-plein de cofacteurs métaboliques est susceptible d'induire une production de lipides dans l'eau salée.
TimeNexus est un outil ergonomique pour modéliser des réseaux temporels multicouches. À ma connaissance, c'est la première fois que l'extraction de sous-réseaux a été appliquée à ce type de réseaux biologiques complexes.
Thesis resume
Cellular events are regulated by so-called pathways, which are defined as a series of molecules such as proteins interacting with each other. Activated cellular pathways often dysregulate gene expression. In turn, it dysregulates activities of gene-encoded proteins and their associated interactions. Pathways are therefore dynamic and not static.
Pathways can be represented as biological networks, which contain the proteins of a cell as well as their interactions. Techniques from network analysis can unravel the dynamics of a cellular pathway by incorporating time-course data, e.g. from transcriptomic sequencing. First, differential expression analysis of transcriptomic data identifies dysregulated genes over time. These genes can then be mapped on biological networks, such as protein-protein interaction networks. Second, subnetwork extraction identifies regions of networks which are enriched in dysregulated genes and which are thus dynamic. However, to date, most methods for biological networks build or extract static networks, in which temporal information is not included and thus, dynamics of pathways are lost.
In recent years, two types of complex networks have been introduced: temporal networks and multilayer networks. Temporal networks model transient interactions between molecules. While they sound ideal to model the dynamics of biological pathways, they are not suitable for experiments which cannot identify transient interactions or which have a too low sampling frequency, such as time-course transcriptomic datasets. Multilayer networks, on the other hand, can combine multiple data types and factors, e.g. time, by modelling them as independent networks linked to each other.
In this thesis project, I have developed a method that projects temporal components of time-course gene expression datasets on multilayer networks, creating so-called temporal multilayer networks. Each layer represents one time-point as a network of molecular interactions on which are mapped information of dysregulated at a given time. Layers are then linked to each other following the axis of time. To predict dynamic pathways in the form of active subnetworks, I adapted classic subnetwork-extraction methods to temporal multilayer networks. I implemented this approach in the Cytoscape app TimeNexus. I tested TimeNexus on a yeast RNA-sequencing dataset to evaluate its efficiency to extract key cell-cycle regulators, as well as on a mouse dataset to identify subnetworks involved in the inflammation of hind-paw sensory neurons.
In a side-project to explore the effect on salt water on the lipid metabolism of a microalga species, Chlorella sp. HS2, I applied a more conventional approach to explore temporal changes in gene expression. The results of the differential expression analysis showed that the overflow of metabolic co-factors are likely to induce a production of lipids under salt water.
TimeNexus is a convenient, user-friendly tool to model temporal multilayer networks. To my knowledge, it is the first time that subnetwork extraction was applied to this type of complex biological networks.