Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots Clés

Théorie des graphes,Marche aléatoire,Réseaux multi-couches,Réseaux biologiques,Intégration de données,embedding de réseaux

Keywords

Graph theory,Random walk,Multilayer network,Biological network,data integration,network embedding

Titre de thèse

Modèles multi-couches et méthodes d’exploration de réseaux biologiques
Multilayer models and exploration methods for biological networks

Date

Jeudi 13 Octobre 2022 à 14:00

Adresse

Faculté des Sciences Médicales et Paramédicales Aix-Marseille, 27 bd Jean Moulin, 13005, Marseille salle de thèse 2

Jury

Directeur de these Mme Anaïs BAUDOT Aix Marseille Université
CoDirecteur de these M. Aitor GONZALEZ Aix Marseille Université
Examinateur M. Jean-Philippe VERT Mines ParisTech, Centre for Computational Biology
Examinateur M. Alain BARRAT C.N.R.S, Centre de Physique Théorique
Rapporteur M. Fabrizio DE VICO FALLANI Institut national de recherche en sciences et technologie du numérique
Rapporteur Mme Sophie DONNET Institut National de Recherche pour l'Agriculture l'Alimentation et l'Environnement

Résumé de la thèse

La quantité de données, ainsi que leur variété et leur hétérogénéité augmentent, et ce, depuis de nombreuses années. Cette disponibilité des données à grande échelle représente une opportunité sans précédent pour mieux comprendre les systèmes complexes. Parmi les modes de représentation de données, les réseaux apparaissent comme particulièrement couronnés de succès. En effet, il existe une grande variété d'outils provenant de la théorie des graphes pour les explorer et en extraire des connaissances pertinentes. Cependant, l'exploration de grands jeux de données multi-dimensionnelles demeure un défi important dans de nombreux domaines. Par exemple, en bioinformatique, l'étude des systèmes biologiques nécessite parfois l'intégration de dizaines de jeux de données différents. Les réseaux multi-couches apparaissent dans ce contexte comme un outil prometteur pour la représentation et l’analyse de ces données biologiques. L'extension récente des méthodes d'exploration de réseaux permet de tirer profit de ces formalismes multi-couches, plus riches et plus complexes. Par exemple, les marches aléatoires ont été étendues aux réseaux multi-couches. Les marches aléatoires sont très utilisées pour explorer la topologie de réseaux à grande échelle. Les marches aléatoires avec restart sont un cas particulier de marches aléatoires. Elles permettent de mesurer une similarité entre un nœud donné et les autres nœuds du réseau. Cette stratégie de marches aléatoires avec restart offre des performances supérieures aux méthodes classiques basées sur des mesures locales, en particulier dans le cas de la prédiction d'associations entre gènes et maladies. Cependant, les méthodes actuelles sont limitées par le nombre et la variété de combinaisons de réseaux qu'elles peuvent explorer. Par conséquent, de nouvelles méthodes analytiques et numériques doivent être développées afin de faire face à l'augmentation de la diversité et de la complexité des réseaux multi-couches. Dans le cadre de ma thèse, je propose un nouveau formalisme mathématique, associé à une librairie Python nommée MultiXrank, pour intégrer et explorer n'importe quelles combinaisons de réseaux. Le formalisme et l'algorithme sont généraux et conviennent aux réseaux hétérogènes et multiplexes, dirigés ou pondérés. J'ai également appliqué cette nouvelle approche à plusieurs questions biologiques, telles que la priorisation de gènes et de médicaments, candidats pour être impliqués dans différentes pathologies, la prédiction d'associations entre gènes et maladies, ainsi que l'intégration de données de conformation 3D de la chromatine avec des réseaux de gènes et de maladies. Cette dernière application offre de nouvelles pistes pour la détermination des relations de comorbidités. Au cours de ma thèse, je me suis également intéressé à l'extension d'autres méthodes d'analyses aux réseaux multi-couches. Je me suis notamment intéressé à la généralisation de la similarité de Katz aux réseaux multi-couches. J'ai aussi développé une nouvelle approche de détection de communautés. Cette méthode est basée sur les marches aléatoires avec restart et permet d'identifier des clusters de nœuds à partir de réseaux multi-couches. Enfin, je me suis intéressé à l'embedding de réseaux, en particulier au cas des méthodes du type shallow embedding. Dans ce cadre, j'ai réalisé une revue de littérature, littérature soumise à des évolutions constantes et rapides. J'ai aussi développé une méthode d'embedding basée sur MultiXrank qui ouvre la porte de l'embedding à des réseaux multi-couches plus complexes.

Thesis resume

Data amount, variety, and heterogeneity have been increasing drastically for several years, offering a unique opportunity to better understand complex systems. Among the different modes of data representation, networks appear particularly successful. Indeed, a wide and powerful range of tools from graph theory are available for their exploration. However, the integrated exploration of large multidimensional datasets remains a major challenge in many scientific fields. For instance, in bioinformatics, the understanding of biological systems would require the integrated analysis of dozens of different datasets. In this context, multilayer networks emerged as key players in the analysis of such complex data. Moreover, recent years have witnessed the extension of network exploration approaches to capitalize on more complex and richer network frameworks. Random walks, for instance, have been extended to explore multilayer networks. These kinds of methods are currently used for exploring the whole topology of large-scale networks. Random walk with restart, a special case of random walk, allows to measure similarity between a given node and all the other nodes of a network. This strategy is known to outperform methods based on local distance measures for the prioritization of gene-disease associations. However, current random walk approaches are limited in the combination and heterogeneity of networks they can handle. New analytical and numerical random walk methods are needed to cope with the increasing diversity and complexity of multilayer networks. In the context of my thesis, I developed a new mathematical framework and its associated Python package, named MultiXrank, that allow the integration and exploration of any combinations of networks. The formalism and the algorithm proposed are general and can handle heterogeneous and multiplex networks, both directed and weighted. As part of my Ph. D., I also applied this new method to several biological questions such as the prioritization of genes and drugs candidates for being involved in different disorders, gene-disease association predictions, and the integration of 3D DNA conformation information with gene and disease networks. This last application offers new tracks to unveil disease comorbidities relationships. During my Ph. D. I was also interested in the extension of several other methods to multilayer networks. In particular, I generalized the Katz similarity measure to multilayer networks. I also developed a new method of community detection. This new community detection is based on random walks with restart and allows the identification of clusters from multilayer network nodes. Finally, I studied network embedding, especially in the case of shallow embedding methods. In this context, I made a review of the literature, which is quickly evolving. I also developed a method of network embedding based on MultiXrank that open the embedding to more complex multilayer networks.