Soutenance de thèse de VALIZADEH Amir Hosein

Titre de thèse

Apprentissage des Réseaux Bayésiens Causaux avec Identification des Facteurs Confondants Latents et ses Applications à un Problème Médical

Causal Bayesian Network Learning with Latent Confounders Identification and its Applications to a Medical Problem

Date

9 January 2025 à 10h00

Adresse

Batiment Polytech at St Jérôme 52 Av. Escadrille Normandie Niemen, 13013 Marseille, France, Salle Gérard Jaumes

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Intelligence Artificielle,Modèles Graphiques Probabilistes,Réseaux Bayésiens Causaux,Apprentissage de la Structure basé sur les Scores,Variables Latentes,Analyse des Données Médicales,

Keywords

Artificial Intelligence,Probablistic Graphical,Causal Bayesian Networks,Score-Based Structure Learning,Latent Variables,Medical Data Analysis,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités	M. GONZALES Christophe	Aix Marseille Université
Maître de conférences - praticien hospitalier	M. DELLIAUX Stéphane	Aix Marseille Université
Professeur des universités - praticien hospitalier	M. BURTEY Stéphane	Aix Marseille Université
Professeur des universités	M. LERAY Philippe	Nantes Université
Professeure des universités	Mme BEN AMOR Nahla	Institut Supérieur de Gestion de Tunis
Professeur des universités - praticien hospitalier	M. MESSIKA Jonathan	Université Paris Cité
Chargé de recherche	M. DE GIVRY Simon	Institut national de recherche pour l'agriculture, l'alimentation et l'environnement (INRAe)

Résumé de la thèse

Cette thèse explore les avancées dans l'apprentissage causal au sein des Réseaux Bayésiens (BNs), avec un accent particulier sur les défis posés par les variables latentes et les complexités de l'analyse des données médicales. Elle introduit une approche basée sur le score pour identifier les variables latentes, en utilisant des motifs triangulaires dans les Graphes Acycliques Dirigés (DAGs) pour améliorer la précision et l'interprétabilité des inférences causales. Cette méthodologie a été validée à travers des simulations étendues et montre un potentiel prometteur pour améliorer la précision, le rappel et les scores F1, en particulier dans des scénarios impliquant de grands ensembles de données. Importamment, les techniques développées pour l'identification des variables latentes sont intégrées dans l'analyse des données médicales, où elles sont appliquées pour renforcer la construction des modèles de Réseaux Bayésiens pour les issues des chirurgies de transplantation pulmonaire. Cette approche intégrée aborde les problèmes courants de petites tailles d'ensembles de données et de données manquantes en employant des algorithmes de bootstrap et d'Espérance-Maximisation (EM), spécifiquement adaptés aux contextes des données médicales. Le modèle de Réseau Bayésien résultant, qui identifie des relations causales significatives, est également soutenu par des niveaux de confiance et des validations d'experts, soulignant la robustesse et l'applicabilité de nos méthodes. Ce travail vise à faire le pont entre des méthodes probabilistes et statistiques avancées et des applications pratiques en science médicale, fournissant des outils et des perspectives qui pourraient être utiles dans le domaine de l'apprentissage causal. Il suggère des applications potentielles dans le secteur de la santé et au-delà, notant les rôles possibles que ces outils pourraient jouer dans le soutien au diagnostic et à l'élaboration des politiques. En fin de compte, cette thèse cherche à contribuer à la discussion continue sur les systèmes complexes et leur dynamique causale, dans l'espoir d'offrir des insights qui pourraient s'avérer précieux dans divers domaines.

Thesis resume

This thesis investigates advancements in causal learning within Bayesian Networks (BNs), with a particular focus on addressing the challenges posed by latent variables and the complexities of medical data analysis. It introduces a score-based approach for identifying latent variables, utilizing triangle patterns within Directed Acyclic Graphs (DAGs) to enhance the accuracy and interpretability of causal inferences. This methodology has been validated through extensive simulations and shows promise in improving precision, recall, and F1 scores, particularly in scenarios involving larger datasets. Importantly, the techniques developed for latent variable identification are integrated into the analysis of medical data, where they are applied to enhance the construction of Bayesian Network models for lung transplant surgery outcomes. This integrated approach addresses common issues such as small dataset sizes and missing data by employing bootstrapping and Expectation Maximization (EM) algorithms tailored specifically for medical contexts. The resultant Bayesian Network model, which identifies significant causal relationships, is further supported by confidence levels and expert validations, underscoring the robustness and applicability of our methods. This work aims to bridge advanced probabilistic and statistical methods with practical applications in medical science, providing tools and perspectives that could be useful in the field of causal learning. It suggests potential applications within healthcare and beyond, noting the possible roles these tools might play in supporting diagnostics and policy-making. Ultimately, this thesis seeks to contribute to the ongoing discussion about complex systems and their causal dynamics, hoping to offer insights that may prove valuable in various fields.