Soutenance de thèse de HIRST David

Titre de thèse

Amélioration de l'inférence de variables latentes à partir de données omiques grâce à l'utilisation d'information a priori

Approaches for using prior information to enhance the inference of latent variables from omics data

Date

25 novembre 2024 à 14h00

Adresse

163 Avenue de Luminy, Case 901, Marseille, 13009, HEXAGONE - AUDITORIUM

Ecole doctorale

Sciences de la Vie et de la Santé

Specialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

Etablissement

Aix-Marseille Université

Mots clés

Bioinformatique/Biologie Computationelle,Biologie des Systèmes,Intelligence artificielle,Maladies rares,Reduction de dimension,Apprentissage par transfert

Keywords

Bioinformatics/Computational Biology,Systems Biology,Artificial intelligence,Rare diseases,Dimensionality reduction,Transfer learning

Jury

Jury de thèse
Qualité	Nom	Etablissement
Directrice de recherche	Mme BAUDOT Anaïs	Aix Marseille Université, Marseille Medical Genetics,
Professeur	M. TENENHAUS Arthur	CentraleSupélec, Le laboratoire des signaux et systèmes (L2S)
Directrice de recherche	Mme RAU Andrea	INRAE, GENETIQUE ANIMALE et BIOLOGIE INTEGRATIVE (GABI)
Professeur des universités - praticien hospitalier	M. VAN HELDEN Jacques	Aix Marseille Université
Professor	M. HERRMANN Carl	Heidelberg University, Institute for Pharmacy and Molecular Biotechnology

Résumé de la thèse

Une grande variété de processus biologiques sont nécessaires au développement et à la survie des organismes vivants. Ces processus biologiques dépendent d'un grand nombre de molécules biologiques.
Les technologies à haut débit permettent d'établir les profils des molécules dans les échantillons, générant ainsi les données dites "omiques" qui permettent de mieux comprendre les cellules, les organes et les organismes.

Les données omiques sont généralement de haute dimension. Elles se composent d'un grand nombre de molécules biologiques, les variables observées, qui peuvent ne pas être informatives pour la compréhension des conditions biologiques d'intérêt. Dans ce contexte, les approches de réduction de dimension non-supervisée sont populaires pour l'analyse des données omiques. Ces approches permettent de déduire un nombre réduit de variables latentes représentant potentiellement les processus biologiques et aidant à l'identification des variables observées informatives.

De plus, différents types de données omiques permettent de charactériser les processus biologiques à différentes échelles à l'intérieur et entre les cellules. Ainsi, il est attendu que l'analyse de données multi-omiques permette de mieux comprendre les systèmes biologiques par rapport à l'analyse de données omiques simples. Une méthode efficace pour déduire les variables latentes des données multi-omiques est la factorisation conjointe de matrices multi-omique, une méthode non supervisée de réduction des dimensions. Cependant, dans certains cas, en raison du petit nombre d'échantillons disponible, les méthodes de factorisation de matrice peuvent avoir du mal à séparer les signaux biologiques latents en une représentation pertinente. Il s'agit d'un défi particulier dans l'étude des maladies rares, pour lesquelles il peut être difficile d'obtenir des données multi-omiques sur une nombre suffisant d'échantillons.

Dans le cadre de mon doctorat, j'ai développé MOTL, une approche d'apprentissage par transfert pour la factorisation de matrices multi-omique. MOTL effectue une factorisation de matrices sur un ensemble de données cible, généré à partir d'un petit nombre d'échantillons, en incorporant des informations déduites de la factorisation multi-omique effectuée sur un ensemble de données d'apprentissage, généré à partir d'un grand nombre d'échantillons caractérisés par diverses conditions biologiques. Dans les évaluations de MOTL, j'ai démontré que l'apprentissage par transfer peut améliorer la capacité de la factorisation de matrices multi-omique à découvrir des processus associés à une condition biologique d'intérêt.

Au cours de l'un de mes autres projets de doctorat, j'ai également exploré l'utilisation d'informations a priori pour améliorer l'inférence de variables latentes à partir de données omiques. J'ai mis en œuvre et évalué une modification d'une architecture d'autoencodeur variationnel, un autre type de méthode de réduction de dimension non supervisée. Cette modification a permis d'inclure des poids contrôlant la contribution relative des variables observées à la fonction de perte. J'ai observé que l'inclusion de poids basés sur des informations préalables permettait d'obtenir des valeurs de variables latentes qui différenciaient mieux les groupes d'échantillons.

Enfin, j'ai participé à une collaboration portant sur l'analyse de différents types de données omiques provenant de patients atteints de deux maladies génétiques rares différentes et de témoins sains. Dans ce projet, différents types de données omiques ont été analysés séparément avec des tests différentiels, ce qui a permis d'obtenir des sous-ensembles de variables observées potentiellement associées à ces maladies. Avec mes collaborateurs, nous avons utilisé des informations préalables, sous la forme de ressources d'annotation, pour convertir ces listes de variables observées pertinentes en listes de processus biologiques pertinents.

Thesis resume

The activity of biological processes, necessary for the development and survival of living organisms, depends on biological molecules. Therefore, to gain improved understanding of cells, organs, and organisms, it is helpful to analyze omics data, generated by high throughput technologies that profile molecules of a particular type from one or more biological samples.

Omics data is usually high-dimensional, consisting of a large number of observed variables, some of which may be uninformative for understanding biological conditions of interest. Additionally, subsets of the molecules, represented by the observed variables, jointly participate in different biological processes. Thus, a popular approach for the analysis of omics data is unsupervised dimension reduction, in which a smaller number of latent variables are inferred, potentially representing underlying biological processes, and helping with the identification of informative observed variables.

Different types of omics data portray different aspects of the biological processes carried out within and between cells. As such, the analysis of multi-omics data can provide improved understanding of some biological conditions of interest, compared to the analysis of a dataset containing only a single type of omics data. An effective method for inferring latent variables from multi-omics data is joint matrix factorization, an unsupervised dimension reduction method. However, there are cases when, due to the small number of samples in a multi-omics dataset, joint matrix factorization can struggle to separate underlying biological signals into a meaningful lower dimension representation. This is especially a challenge in the study of rare diseases, for which it can be difficult to obtain multi-omics data.

For my main PhD project, I developed MOTL, a transfer learning approach for the application of joint matrix factorization to multi-omics data. MOTL performs joint matrix factorization on a multi-omics target dataset, generated from a small number of samples, by incorporating information inferred from performing joint matrix factorization on a multi-omics learning dataset, generated from a larger number of samples, characterized by various biological conditions. In evaluations of MOTL, I demonstrated that this incorporation of prior information can enhance the ability of joint matrix factorization to discover biological processes associated with a biological condition of interest.

I also explored the use of prior information, to enhance the inference of latent variables from omics data, during one of my other PhD projects. During this project, I implemented, and evaluated, a modification to an existing variational autoencoder architecture, another type of unsupervised dimension reduction. This modification allowed the inclusion of weights that control the relative contribution of observed variables to the loss function. I observed that the inclusion of weights, based on some prior information, resulted in latent variable values that better differentiated between groups of samples.

Finally, for another project, I was involved in a collaboration that involved the analysis of different types of omics data from patients with two different rare genetic diseases, and healthy controls. In this project, different types of omics data were analyzed separately with differential testing, yielding subsets of observed variables potentially associated with these diseases. With my collaborators, we used prior information, in the form of annotation resources, to convert these lists of relevant observed variables into lists of relevant biological processes.