Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Mathématiques

Etablissement

Aix-Marseille Université

Mots Clés

Statistique bayésienne,Distribution spectrale d’énergie,Galaxies,échantillonnage préférentiel,apprentissage statistique,

Keywords

Bayesian Statistics,Spectral energy distribution,Galaxies,Importance Sampling,Statistical Learning,

Titre de thèse

Statistique Computationnelle Bayésienne pour l'étude des Distribution Spectrale d'énergie des galaxies
Bayesian computational statistics for the study of galaxy Spectra Energy Distribution

Date

Lundi 10 Octobre 2022 à 14:00

Adresse

Laboratoire d'Astrophysique de Marseille 38, rue Frédéric Joliot-Curie 13388 Marseille cedex 13 FRANCE Amphithéatre

Jury

Directeur de these M. Pierre PUDLO Aix Marseille Université
Rapporteur M. Sylvain LE CORFF Institut Polytechnique de Paris
Rapporteur M. Marc HUERTAS-COMPANY Observatoire de Paris
Examinateur M. Nicolas CHOPIN ENSAE
CoDirecteur de these M. Denis BURGARELLA Laboratoire d'Astrophysique de Marseille
Examinateur Mme Clotilde LAIGLE Institut d'Astrophysique de Paris
Examinateur Mme Véronique BUAT Laboratoire d'Astrophysique de Marseille
Examinateur Mme Florence FORBES INRIA

Résumé de la thèse

Statistique Computationnelle Bayésienne pour l'étude des Distribution Spectrale d'énergie des galaxies Le développement de nouveaux outils de mesure et d'observation en astrophysique permet la collecte de données de plus en plus nombreuses, précises et variées. Ces données peuvent être des images complètes (pour les objets les plus proches) ou des mesures du flux lumineux à certaines longueurs d’onde (de la spectroscopie haute résolution sur de petites parties du spectre lumineux, ou des photométrie plus large, plus rapides et plus réparties sur le spectre). L’exploitation de cette manne d'information nécessite toutefois le développement de nouveaux outils statistiques afin d’être efficace et précis. On s'intéresse en particulier à de nouveaux outils de statistique bayésienne pour l'étude des distributions spectrales d'énergie des galaxies. Apres une introduction à l'analyse des distributions spectrales d'énergies, la première partie de cette thèse propose un un algorithme de calcul bayésien approché (Approximate Bayesian Computation, ABC) pour le choix de modèle d'histoire de formation stellaire à partir de données photométriques. Cet algorithme est basé sur la simulation d'un ensemble échantillonné selon la distribution a priori de chaque modèle, puis sur l'apprentissage d'un classifieur dont la sortie est utilisée directement comme estimation de la probabilité a posteriori de chaque modèle. La méthode est appliquée à des données issues du relevé COSMOS pour l'identification de galaxies dont le taux de formation stellaire à subi une violente altération dans un passé proche, que ce soit une augmentation (dite starburst) ou une diminution (quenching). De telles altération participeraient à expliquer les variations observées dans le rapport entre la masse stellaire d’une galaxie et son taux de formation observés. La seconde partie de la thèse propose un nouvel algorithme d'échantillonnage préférentiel adaptatif multiple : TAMIS (Tempered Anti-Truncated Multiple Importance Sampling). En introduisant une suite de distributions cibles auxiliaires auto-calibrées, TAMIS résout le problème d'initialisation et de réglage des hyper-paramètres qui limite l'utilisation automatique de l'échantillonnage préférentiel adaptatif. Cet algorithme est robuste au fléau de la dimension ainsi qu'a une mauvaise initialisation et ne requiert que relativement peu d'évaluations de la densité de cible, sans utiliser son gradient. La troisième partie présente le code CIGALE utilisé pour la modélisation des distributions spectrale des galaxies à partir de modèles physiques. Le calcul de la SED attendue à paramètres connus se fait par étapes successives (détermination de l’histoire de formation stellaire puis calcul des emissions lumineuses de la population d’étoile correspondante, ajout des émissions du gaz nébulaire, absorption et ré-émission par la poussière, décalage vers le rouge dû à la distance). Pour accélérer le temps de calcul, nous proposons le remplacement des calculs explicites de certaines étapes par une approximation par réseau de neurones. Cette approximation permet de diminuer de façon drastique le temps de calcul et d'interpoler des valeurs sur des grilles pré-calculées. Enfin la dernière partie présente un modèle statistique complet pour l'estimation des paramètres et le choix de modèle bayésiens prenant en compte à la fois les données photométriques et spectroscopiques, puis l'implémentation et l'application de TAMIS à ce problème spécifique.

Thesis resume

The development of new measurements and observation tools in astrophysics allows the collection of increasingly numerous, precise and varied data. This data can be full images (for the nearest objects) or light flux measurements at certain wavelengths (high resolution spectroscopy on narrow parts of the light spectrum, or larger, faster and more spread over the spectrum). The exploitation of this wealth of information, however, requires the development of new statistical tools in order to be effective and precise. We are particularly interested in new tools of Bayesian statistics for the study of the Spectral Energy Distributions of galaxies. After an introduction to the analysis of spectral energy distributions, the first part of this thesis proposes an Approximate Bayesian Computation algorithm (ABC) for the choice of Star Formation History models from data photometric. This algorithm is based on simulating a sample set according to the prior distribution of each model, then training a classifier whose output is used directly as an estimate of the posterior probability of each model. The method is applied to data from the COSMOS survey for the identification of galaxies whose star formation rate has undergone a violent alteration in the near past, either an increase (called starburst) or a decrease (quenching). Such alterations would help explain the variations observed in the relationship between the stellar mass of a galaxy and its observed formation rate. The second part of the thesis proposes a new Multiple Adaptive Importance Sampling algorithm: TAMIS (Tempered Anti-Truncated Multiple Importance Sampling). By introducing a sequence of self-calibrated auxiliary target distributions, TAMIS solves the hyper-parameter initialization and tuning problem that limits the automatic use of Adaptive Importance Sampling. This algorithm is robust to the curse of dimensionality as well as poor initialization, and requires relatively few evaluations of the target density, without using its gradient. The third part presents the CIGALE code used for modeling the spectral distributions of galaxies from physical models. The calculation of the expected SED with known parameters is done in successive stages (determination of the Star Formation History, then computation of the light emissions of the corresponding stellar population, addition of the emissions of the nebular gas, absorption and re-emission by the dust, redshift due to distance). To speed up the computation, we propose the replacement of the explicit computations of certain steps by a neural network approximation. This approximation makes it possible to drastically reduce the computation time and interpolate values on precomputed grids. Finally the last part presents a complete statistical model for the Bayesian parameter inference and model choice taking into account both photometric and spectroscopic data, then the implementation and application of TAMIS to this specific problem.