Soutenance de thèse de GERARDOS Andonis
Titre de thèse
Sélection de modèles pour la dynamique stochastique : Une approche parcimonieuse et fondée
Model selection for stochastic dynamics: A parsimonious and principled approach
Résumé de la thèse
Cette thèse porte sur la découverte d'équations différentielles stochastiques (EDS) et la découverte d'équations différentielles aux dérivées partielles stochastiques (EDPS) à partir de séries temporelles bruitées et discrètes. Un défi majeur est la sélection d'un modèle correct le plus simple possible parmi de vastes bibliothèques de modèles candidats, où les critères d'informations standards (AIC, BIC) sont souvent limités.
Nous introduisons PASTIS (Parsimonious Stochastic Inference), un nouveau critère d'information dérivé de la théorie des valeurs extrêmes. Sa pénalité, nB ln(n0/p), intègre explicitement la taille de la bibliothèque initiale de paramètres candidats (n0), le nombre de paramètres du modèle considéré (nB) et un seuil de significativité (p). Ce seuil de significativité représente la probabilité de sélectionner un modèle contenant plus de paramètres que nécessaire lors de la comparaison de nombreux modèles.
Des tests comparatifs (benchmarks) sur divers systèmes (Lorenz, Ornstein-Uhlenbeck, Lotka-Volterra pour les EDS; Gray-Scott pour les EDPS) démontrent que PASTIS surpasse AIC, BIC, la validation croisée (CV) et SINDy (une méthode concurrente) en termes d'identification exacte du modèle et de capacité prédictive.
De plus, les données réelles peuvent être soumises à des intervalles d'échantillonnage (∆t) importants ou à du bruit de mesure (σ) qui peuvent détériorer les possibilités d'apprentissage et de sélection de modèle. Pour remédier à cela, nous avons développé des variantes robustes de PASTIS, PASTIS-∆t et PASTIS-σ, étendant ainsi l'applicabilité de l'approche aux données expérimentales imparfaites.
PASTIS fournit ainsi un cadre méthodologique statistiquement fondé, validé et pratique pour la découverte de modèles simples pour les processus à dynamique stochastique.
Thesis resume
This thesis focuses on the discovery of stochastic differential equations (SDEs) and stochastic partial differential equations (SPDEs) from noisy and discrete time series. A major challenge is selecting the simplest possible correct model from vast libraries of candidate models, where standard information criteria (AIC, BIC) are often limited.
We introduce PASTIS (Parsimonious Stochastic Inference), a new information criterion derived from extreme value theory. Its penalty term, nB ln(n0/p), explicitly incorporates the size of the initial library of candidate parameters (n0), the number of parameters in the considered model (nB), and a significance threshold (p). This significance threshold represents the probability of selecting a model containing more parameters than necessary when comparing many models.
Benchmarks on various systems (Lorenz, Ornstein-Uhlenbeck, Lotka-Volterra for SDEs; Gray-Scott for SPDEs) demonstrate that PASTIS outperforms AIC, BIC, cross-validation (CV), and SINDy (a competing method) in terms of exact model identification and predictive capability.
Furthermore, real-world data can be subject to large sampling intervals (∆t) or measurement noise (σ), which can impair model learning and selection capabilities. To address this, we have developed robust variants of PASTIS, PASTIS-∆t and PASTIS-σ, thus extending the applicability of the approach to imperfect experimental data.
PASTIS thus provides a statistically grounded, validated, and practical methodological framework for discovering simple models for processes with stochastic dynamics.