Soutenance de thèse de GERARDOS Andonis

Titre de thèse

Sélection de modèles pour la dynamique stochastique : Une approche parcimonieuse et fondée

Model selection for stochastic dynamics: A parsimonious and principled approach

Date

1 July 2025 à 14h00

Adresse

HEXAGONE 163 Avenue de Luminy case 901 - 13009 Marseille, Hexagone

Ecole doctorale

Physique et Sciences de la Matière

Specialité

PHYSIQUE & SCIENCES DE LA MATIERE - Spécialité : BIOPHYSIQUE

Etablissement

Aix-Marseille Université

Mots clés

Selection de modèles,Équations Différentielles Stochastiques,Critères d'Information,Découverte Guidée par les Données,Théorie des Valeurs Extrêmes,

Keywords

Models selection,Stochastic Differential Equations,Information Criteria,Data-Driven Discovery,Extreme Value Theory,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Chargé de recherche	M. RONCERAY Pierre	CINaM, Aix Marseille Université
Professor	M. MüLLER Christian	Ludwig-Maximilians-Universität München
Associate Professor	M. BARBIER Jean	ICTP, SISSA
Directrice de recherche	Mme LOVERDO Claude	CNRS, Laboratoire Jean Perrin
Directeur de recherche	M. MORA Thierry	Laboratoire de physique de l'École normale supérieure
Maître de conférences	M. GSELL Simon	Institut de Recherche sur les Phénomènes Hors-Equilibre (IRPHE)

Résumé de la thèse

Cette thèse porte sur la découverte d'équations différentielles stochastiques (EDS) et la découverte d'équations différentielles aux dérivées partielles stochastiques (EDPS) à partir de séries temporelles bruitées et discrètes. Un défi majeur est la sélection d'un modèle correct le plus simple possible parmi de vastes bibliothèques de modèles candidats, où les critères d'informations standards (AIC, BIC) sont souvent limités.
Nous introduisons PASTIS (Parsimonious Stochastic Inference), un nouveau critère d'information dérivé de la théorie des valeurs extrêmes. Sa pénalité, nB ln(n0/p), intègre explicitement la taille de la bibliothèque initiale de paramètres candidats (n0), le nombre de paramètres du modèle considéré (nB) et un seuil de significativité (p). Ce seuil de significativité représente la probabilité de sélectionner un modèle contenant plus de paramètres que nécessaire lors de la comparaison de nombreux modèles.
Des tests comparatifs (benchmarks) sur divers systèmes (Lorenz, Ornstein-Uhlenbeck, Lotka-Volterra pour les EDS; Gray-Scott pour les EDPS) démontrent que PASTIS surpasse AIC, BIC, la validation croisée (CV) et SINDy (une méthode concurrente) en termes d'identification exacte du modèle et de capacité prédictive.
De plus, les données réelles peuvent être soumises à des intervalles d'échantillonnage (∆t) importants ou à du bruit de mesure (σ) qui peuvent détériorer les possibilités d'apprentissage et de sélection de modèle. Pour remédier à cela, nous avons développé des variantes robustes de PASTIS, PASTIS-∆t et PASTIS-σ, étendant ainsi l'applicabilité de l'approche aux données expérimentales imparfaites.
PASTIS fournit ainsi un cadre méthodologique statistiquement fondé, validé et pratique pour la découverte de modèles simples pour les processus à dynamique stochastique.

Thesis resume

This thesis focuses on the discovery of stochastic differential equations (SDEs) and stochastic partial differential equations (SPDEs) from noisy and discrete time series. A major challenge is selecting the simplest possible correct model from vast libraries of candidate models, where standard information criteria (AIC, BIC) are often limited.
We introduce PASTIS (Parsimonious Stochastic Inference), a new information criterion derived from extreme value theory. Its penalty term, nB ln(n0/p), explicitly incorporates the size of the initial library of candidate parameters (n0), the number of parameters in the considered model (nB), and a significance threshold (p). This significance threshold represents the probability of selecting a model containing more parameters than necessary when comparing many models.
Benchmarks on various systems (Lorenz, Ornstein-Uhlenbeck, Lotka-Volterra for SDEs; Gray-Scott for SPDEs) demonstrate that PASTIS outperforms AIC, BIC, cross-validation (CV), and SINDy (a competing method) in terms of exact model identification and predictive capability.
Furthermore, real-world data can be subject to large sampling intervals (∆t) or measurement noise (σ), which can impair model learning and selection capabilities. To address this, we have developed robust variants of PASTIS, PASTIS-∆t and PASTIS-σ, thus extending the applicability of the approach to imperfect experimental data.
PASTIS thus provides a statistically grounded, validated, and practical methodological framework for discovering simple models for processes with stochastic dynamics.