Ecole Doctorale
Physique et Sciences de la Matière
Spécialité
PHYSIQUE & SCIENCES DE LA MATIERE - Spécialité : ASTROPHYSIQUE ET COSMOLOGIE
Etablissement
Aix-Marseille Université
Mots Clés
cosmologie,deep learning,informatique,analyse d'images,apprentissage automatique,
Keywords
cosmology,informatics,image analysis,machine learning,deep learning,
Titre de thèse
Méthodes d'apprentissage par deep learning appliquées aux grands relevés d'imagerie astrophysiques.
Deep learning methods applied to large astrophysical imaging surveys.
Date
Mercredi 1 Décembre 2021 à 10:00
Adresse
163, avenue de Luminy, 13009, Marseille Amphitheatre
Jury
Directeur de these |
M. Dominique FOUCHEZ |
Centre de Physique des Particules de Marseille |
Rapporteur |
Mme Shirley HO |
Lawrence Berkeley Laboratory / Carnegie Mellon University / Flatiron Institute |
Rapporteur |
M. Marc CHAUMONT |
LIRMM, Université de Montpellier |
Examinateur |
Mme Hiranya PEIRIS |
University College London / Oskar Klein Centre for Cosmoparticle Physics |
Examinateur |
M. Thierry ARTIERES |
Ecole Centrale de Marseille / LIS AMU CNRS |
Examinateur |
M. Cristinel DIACONU |
Centre de Physique des Particules de Marseille |
Résumé de la thèse
Les réseaux de neurones avec apprentissage profond sont des outils
puissants permettant de capturer des informations à partir de données,
et ont été de plus en plus exploités dans les applications
astrophysiques de ces dernières années. Cependant, les réseaux de
neurones sont enclins à s'adapter à des informations spécifiques (telles
que le bruit aléatoire, les effets systématiques, la distribution a
priori des données d'entraînement, etc.) qui sont enchevêtrées avec les
informations saillantes que vont exploiter certaines tâches, ce qui
biaiserait les résultats. Il est donc essentiel de découpler ces
informations spécifiques du contenu saillant que nous espérons extraire
des données.
Dans le but de développer des outils d'apprentissage profond robustes en
préparation des futures sondages cosmologiques, cette thèse se concentre
sur l'apprentissage d'informations saillantes à partir d'images
multicolores avec des réseaux de neurones. Plus précisément, nous
tentons d'établir des représentations informatives des données afin de
capturer des informations saillantes à différents niveaux d'abstraction
dans quelques tâches : À faible niveau d'abstraction, nous effectuons
une traduction bidirectionnelle semi-supervisée d'images de galaxies
multicolores entre deux sondages. En séparant l'apprentissage des
distributions spatiales des flux et des modèles de bruit spécifiques,
notre modèle est capable de récupérer des formes de galaxies correctes
et des propriétés de bruit réalistes pour chaque sondage. À un niveau
élevé d'abstraction, nous proposons une procédure pour corriger les
biais d'estimation des méthodes basées sur les données en utilisant une
représentation pré-entraînée, qui s'avère efficace dans une étude de
l'estimation du redshift photométrique avec des images de galaxies. En
plus des études astrophysiques, notre travail interdisciplinaire explore
l'analyse d'images optiques sous-marines auxquelles les techniques
développées en astrophysique peuvent être appliquées. En particulier,
nous construisons un modèle de traduction pour éliminer les particules
flottantes d'avant-plan des images sous-marines réelles et préserver le
contenu saillant de l'arrière-plan, qui sera utile pour une analyse
ultérieure telle que la reconstruction d'objets.
Nous suggérons des améliorations pour nos méthodes proposées pour ces
tâches afin de les rendre adaptables à l'analyse cosmologique réelle,
telle que la simulation de données basée sur un réseau, la détection et
la classification automatisées d'objets. En même temps, comme de
nouveaux défis ont été rencontrés dans le traitement des données
astronomiques, principalement le bruit et la rareté des données
(statistiques limitées), notre travail implique la nécessité de faire
progresser les techniques d'apprentissage automatique pour s'adapter aux
problèmes réels et optimiser l'exploitation des données.
Thesis resume
Deep learning neural networks are powerful data-driven tools to capture information from data, and have been increasingly leveraged in astrophysical applications in recent years. However, neural networks are prone to fitting on specific information (including random noise, systematic effects, the prior distribution of training data, etc.) that is entangled with the salient information concerned for certain tasks, which would bias the output prediction of a model. It is therefore critical to decouple such specific information from the salient content that we hope to extract from data.
Aiming at developing robust deep learning tools in preparation for future cosmological surveys, this thesis focuses on learning salient information from multi-color images with neural networks. In specific, we attempt to establish informative representations of data in order to capture salient information at different levels of abstraction in a few tasks: At a low level, we perform semi-supervised two-way translation of multi-color galaxy images between two surveys. By splitting the learning of global spatial flux distributions and specific noise patterns, our model is able to recover correct galaxy shapes and realistic noise properties for each survey. At a high level, we propose a procedure to correct estimation biases for data-driven methods using a pre-trained representation, which proves to be effective in a case study of photometric redshift estimation with galaxy images. In addition to astrophysical studies, our interdisciplinary work explores the analysis of underwater optical images in which the techniques developed in astrophysics can be applied. Particularly, we build a translation model to remove foreground floating particles from real underwater images and preserve salient background content, which will be useful for subsequent analysis such as object reconstruction.
We suggest improvements for our methods proposed for these tasks in order to make them adaptable to real cosmological analysis, such as network-based data simulation, automated object detection and classification. At the same time, as new challenges have been encountered in dealing with astronomical data, predominantly noise and sparsity of data (limited statistics), our work implies the needs for advances of machine learning techniques to fit real problems and optimize the exploitation of data.