Soutenance de thèse de BEZIRGANYAN Grigor

Titre de thèse

Apprentissage profond multimodal sensible à l'incertitude : Nouvelles architectures et stratégies de fusion pour la classification

Uncertainty-Aware Multimodal Deep learning: Novel Architectures and Fusion Strategies for Classification

Date

4 November 2025 à 10h00

Adresse

LIS UMR 7020 CNRS / AMU / UTLN Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech 52 Av. Escadrille Normandie Niemen 13397 Marseille Cedex 20, Salle Gérard Jaumes

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Fusion des données,incertitudes,apprentissage automatique,multimodalité,apprentissage profond,

Keywords

Data fusion,uncertainty,machine learning,multimodality,deep learning,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités	M. FOURNIER Sébastien	Aix Marseille Université
Associate Professor	Mme SELLAMI SANA	AIX MARSEILLE UNVERSITE
Directrice de recherche	Mme BERTI-ÉQUILLE Laure	IRD
Directeur de recherche	M. VROCHIDIS Stefanos	Information Technology Institute
Professeur des universités	M. DENOEUX Thierry	Université de Technologie de Compiègne
Professeure des universités	Mme AZZAG Hanene	Université Paris 13, Sorbonne Paris Nord
Professeur des universités	M. CHBEIR Richard	Université de Pau et des Pays de l'Adour
Professeur des universités	M. GONZALES Christophe	Aix-Marseille Universite

Résumé de la thèse

Dans de nombreux contextes réels, l'information est distribuée entre plusieurs modalités chacune offrant une perspective spécifique et complémentaire. Pour exploiter pleinement ces informations multimodales, les techniques d'apprentissage profond se sont imposées comme un cadre de référence pour l'intégration et la fusion de données multimodales, renforçant la précision, la robustesse et la fiabilité des processus de décision. Cependant, les modèles d'Intelligence Artificielle (IA), lorsqu'elles produisent des prédictions erronées, affichent souvent une confiance élevée. Ce comportement constitue un problème majeur dans des domaines sensibles tels que la santé, les transports ou l'industrie, où une mauvaise décision peut avoir des conséquences graves. Un déploiement fiable de ces modèles dans de tels contextes nécessite une estimation robuste des incertitudes dans les prédictions des modèles. Ce défi est particulièrement marqué dans les environnements multimodaux, où les décisions propres à chaque modalité peuvent entrer en conflit, accentuant ainsi l'incertitude de la prédiction finale.
Cette thèse aborde le problème de la classification multimodale fiable selon deux axes : (i) la conception architecturale pour une modélisation efficace des interactions inter-modales, et (ii) la fiabilité en présence d'incertitude et de conflits. Tout d'abord, nous introduisons M2-Mixer, une stratégie de fusion intermédiaire entièrement basée sur des MLP, avec un objectif d'entraînement multi-têtes qui préserve l'apprentissage spécifique aux modalités tout en capturant les interactions inter-modales. Pour configurer de manière adaptative de telles architectures selon les jeux de données, nous proposons MixMAS, une plateforme de micro-benchmarking permettant de sélectionner efficacement les encodeurs, les couches de fusion et les têtes, sans le surcoût de la recherche d'architecture neuronale. Afin d'étudier la fiabilité, nous construisons LUMA, un jeu de données multimodal intégrant image, audio et texte, doté d'outils pour l'injection contrôlée de perturbations. LUMA permet une évaluation systématique de la quantification de l'incertitude multimodale. Sur cette base, nous proposons Discounted Belief Fusion (DBF), un opérateur de fusion tardive qui réduit dynamiquement le poids des preuves conflictuelles et fournit des estimations d'incertitude plus fiables. Enfin, nous présentons EM-SEC, un cadre de classification à valeurs d'ensemble
basé sur la théorie de l'évidence, qui génère efficacement des ensembles de prédictions dans les cas incertains.
Ces travaux contribuent ainsi au développement de systèmes multimodaux à la fois performants et fiables, renforçant la robustesse des processus décisionnels dans des environnements du monde réel.

Thesis resume

In many real-world applications, information is distributed across multiple modalities, such as text, images, audio, and sensor data, each offering unique and complementary insights. To effectively harness this multimodal information, deep learning techniques have emerged as a powerful framework for integrating and fusing data from diverse sources, thereby improving decision-making accuracy and reliability. However, AI models often provide overconfident yet incorrect predictions, which poses significant challenges in safety-critical domains. Reliable deployment in such areas necessitates robust estimation of uncertainties in model predictions. This challenge becomes even more pronounced in multimodal settings,
where modality-specific decisions may conflict, increasing the uncertainty around the final prediction.
This thesis addresses the problem of reliable multimodal classification through two directions: (i) architectural design for efficient cross-modal modeling, and (ii) reliability under uncertainty and conflict. First, we introduce M2-Mixer, an all-MLP intermediate-fusion strategy with a multi-head training objective that preserves modality-specific learning while capturing cross-modal interactions. To adaptively configure such architectures across datasets, we propose MixMAS, a lightweight micro-benchmarking pipeline that efficiently selects encoders, fusion layers, and heads without the overhead of neural architecture search. To study reliability, we construct LUMA, a multimodal dataset integrating image, audio, and text modalities, equipped with tools for controlled injection of perturbations. LUMA enables systematic evaluation of multimodal uncertainty quantification. Building on this foundation, we propose Discounted Belief Fusion (DBF), a late-fusion operator that dynamically discounts conflicting evidence and provides more reliable uncertainty estimates. Finally, we introduce EM-SEC, an evidential set-valued classification framework that efficiently produces prediction sets in uncertain cases. Together, these contributions advance the development of multimodal deep learning systems that are both efficient and reliable, offering improved safety and robustness in real-world decision-making contexts.