Soutenance de thèse de EL BADISY Imad

Titre de thèse

Données manquantes et apprentissage automatique

Missing data and Machine Learning in Survival Analysis

Date

9 décembre 2025 à 9h00

Adresse

SESSTIM SITE SANTÉ TIMONE (QuanTIM - SanteRCom) Faculté de Médecine 27 Bd Jean Moulin 13385 Marseille Cedex 5., Salle de visio-conférence

Ecole doctorale

Recherches Biomédicales

Specialité

RECHERCHES BIOMEDICALES Santé publique

Etablissement

Aix-Marseille Université

Mots clés

analyse de survie,imputation des données manquantes,machine learning,,

Keywords

survival analysis,missing data imputation,machine learning,,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités - praticien hospitalier	M. GIORGI Roch	Aix-Marseille Université (Faculté de Médecine) / Assistance Publique - Hôpitaux de Marseille
Professeur des universités - praticien hospitalier	M. FOUCHER Yohann	Université de Poitiers
Professeur des universités - praticien hospitalier	M. PORCHER Raphaël	Université Paris Cité
Professeur des universités - praticien hospitalier	M. PAOLETTI Xavier	University of Versailles St Quentin / Paris Saclay & Institut Curie
Professeur des universités	Mme LEFFONDRE Karen	Université de Bordeaux, ISPED

Résumé de la thèse

Les données manquantes de covariables sont omniprésentes en analyse de survie et peuvent biaiser les estimations, réduire l'efficacité statistique et altérer l'interprétation clinique. La méthode d'imputation multiple (MI) constitue la stratégie de référence pour traiter la non-réponse, mais ses performances sont généralement évaluées à l'aide de critères restreints, tels que le biais ou la couverture des coefficients de régression. Cette perspective centrée sur les paramètres devient néanmoins insuffisante à mesure que l'analyse de survie adopte des modèles plus flexibles et des méthodes d'apprentissage automatique capables de capturer des effets non linéaires et dépendants du temps. Ces modèles ne produisent pas de résumés simples de type coefficients, et leur comportement peut être fortement influencé par la méthode d'imputation utilisée. Cette thèse apporte trois contributions principales. Premièrement, elle montre que la performance de l'imputation est intrinsèquement multidimensionnelle : la précision de reconstruction des données, la validité inférentielle et la performance prédictive conduisent souvent à des classements divergents des méthodes. Un cadre d'évaluation multimetrique est donc indispensable. Deuxièmement, à travers des simulations et des études cliniques de cas, elle montre que si les méthodes d'imputation classiques fonctionnent correctement sous l'hypothèse de risques proportionnels et d'effets log-linéaires, elles échouent dans des contextes plus réalistes avec effets non linéaires ou dépendants du temps. Dans de tels cas, les méthodes d'imputation basées sur l'apprentissage automatique préservent mieux les structures de risque, améliorent la couverture et maintiennent la performance prédictive. Troisièmement, la thèse introduit un nouveau cadre fondé sur la distorsion, qui évalue l'imputation en quantifiant les changements dans les prédictions de survie, les structures d'effet des covariables (via des méthodes d'explicabilité) et les métriques de performance. Cela reformule l'imputation comme un problème de préservation du comportement du modèle plutôt que de récupération de paramètres. Dans l'ensemble, cette thèse vise à contribuer aux fondements méthodologiques de l'analyse de survie avec données incomplètes en intégrant modélisation flexible, évaluation multimetrique et analyse du comportement des modèles imputés, offrant ainsi une base pour des analyses plus fiables et plus transparentes dans des contextes biomédicaux complexes.

Thesis resume

Missing covariate data are pervasive in survival analysis and can bias estimates, reduce efficiency, and distort clinical interpretation. Multiple imputation (MI) is the standard strategy to address missingness, yet its performance is typically assessed using narrow criteria, such as bias or coverage of regression coefficients. This parameter-focused perspective is increasingly inadequate as survival analysis adopts more flexible and machine-learning models capable of capturing nonlinear and time-varying effects. These models do not yield simple coefficient-based summaries, and their behavior can be strongly influenced by the imputation method. This thesis makes three contributions. First, it demonstrates that imputation performance is inherently multidimensional: data-level reconstruction accuracy, inferential validity, and predictive performance often yield divergent method rankings. A multimetric evaluation framework is therefore essential. Second, through simulations and clinical case studies, it shows that while classical imputation methods performs adequately under proportional hazards and log-linear effects, it fails in more realistic settings with nonlinear or time-varying effects. In such contexts, machine-learning-based imputation methods better preserve hazard structures, improve coverage, and maintain predictive accuracy. Third, the thesis introduces a new distortion-based framework that evaluates imputation by quantifying changes in survival predictions, covariate effect structures (via explanation methods), and performance metrics. This reframes imputation as a problem of preserving model behavior rather than recovering parameters. Overall, the thesis aims to contribute to the methodological foundations of survival analysis with incomplete data by integrating flexible modeling, multimetric evaluation, and behavior-based assessment of imputation, providing a foundation for more reliable and transparent analysis in complex biomedical settings