Soutenance de thèse de BEZIRGANYAN Grigor
Titre de thèse
Apprentissage profond multimodal sensible à l'incertitude : Nouvelles architectures et stratégies de fusion pour la classification
Uncertainty-Aware Multimodal Deep learning: Novel Architectures and Fusion Strategies for Classification
Résumé de la thèse
Dans de nombreux contextes réels, l'information est distribuée entre plusieurs modalités chacune offrant une perspective spécifique et complémentaire. Pour exploiter pleinement ces informations multimodales, les techniques d'apprentissage profond se sont imposées comme un cadre de référence pour l'intégration et la fusion de données multimodales, renforçant la précision, la robustesse et la fiabilité des processus de décision. Cependant, les modèles d'Intelligence Artificielle (IA), lorsqu'elles produisent des prédictions erronées, affichent souvent une confiance élevée. Ce comportement constitue un problème majeur dans des domaines sensibles tels que la santé, les transports ou l'industrie, où une mauvaise décision peut avoir des conséquences graves. Un déploiement fiable de ces modèles dans de tels contextes nécessite une estimation robuste des incertitudes dans les prédictions des modèles. Ce défi est particulièrement marqué dans les environnements multimodaux, où les décisions propres à chaque modalité peuvent entrer en conflit, accentuant ainsi l'incertitude de la prédiction finale.
Cette thèse aborde le problème de la classification multimodale fiable selon deux axes : (i) la conception architecturale pour une modélisation efficace des interactions inter-modales, et (ii) la fiabilité en présence d'incertitude et de conflits. Tout d'abord, nous introduisons M2-Mixer, une stratégie de fusion intermédiaire entièrement basée sur des MLP, avec un objectif d'entraînement multi-têtes qui préserve l'apprentissage spécifique aux modalités tout en capturant les interactions inter-modales. Pour configurer de manière adaptative de telles architectures selon les jeux de données, nous proposons MixMAS, une plateforme de micro-benchmarking permettant de sélectionner efficacement les encodeurs, les couches de fusion et les têtes, sans le surcoût de la recherche d'architecture neuronale. Afin d'étudier la fiabilité, nous construisons LUMA, un jeu de données multimodal intégrant image, audio et texte, doté d'outils pour l'injection contrôlée de perturbations. LUMA permet une évaluation systématique de la quantification de l'incertitude multimodale. Sur cette base, nous proposons Discounted Belief Fusion (DBF), un opérateur de fusion tardive qui réduit dynamiquement le poids des preuves conflictuelles et fournit des estimations d'incertitude plus fiables. Enfin, nous présentons EM-SEC, un cadre de classification à valeurs d'ensemble
basé sur la théorie de l'évidence, qui génère efficacement des ensembles de prédictions dans les cas incertains.
Ces travaux contribuent ainsi au développement de systèmes multimodaux à la fois performants et fiables, renforçant la robustesse des processus décisionnels dans des environnements du monde réel.
Thesis resume
In many real-world applications, information is distributed across multiple modalities, such as text, images, audio, and sensor data, each offering unique and complementary insights. To effectively harness this multimodal information, deep learning techniques have emerged as a powerful framework for integrating and fusing data from diverse sources, thereby improving decision-making accuracy and reliability. However, AI models often provide overconfident yet incorrect predictions, which poses significant challenges in safety-critical domains. Reliable deployment in such areas necessitates robust estimation of uncertainties in model predictions. This challenge becomes even more pronounced in multimodal settings,
where modality-specific decisions may conflict, increasing the uncertainty around the final prediction.
This thesis addresses the problem of reliable multimodal classification through two directions: (i) architectural design for efficient cross-modal modeling, and (ii) reliability under uncertainty and conflict. First, we introduce M2-Mixer, an all-MLP intermediate-fusion strategy with a multi-head training objective that preserves modality-specific learning while capturing cross-modal interactions. To adaptively configure such architectures across datasets, we propose MixMAS, a lightweight micro-benchmarking pipeline that efficiently selects encoders, fusion layers, and heads without the overhead of neural architecture search. To study reliability, we construct LUMA, a multimodal dataset integrating image, audio, and text modalities, equipped with tools for controlled injection of perturbations. LUMA enables systematic evaluation of multimodal uncertainty quantification. Building on this foundation, we propose Discounted Belief Fusion (DBF), a late-fusion operator that dynamically discounts conflicting evidence and provides more reliable uncertainty estimates. Finally, we introduce EM-SEC, an evidential set-valued classification framework that efficiently produces prediction sets in uncertain cases. Together, these contributions advance the development of multimodal deep learning systems that are both efficient and reliable, offering improved safety and robustness in real-world decision-making contexts.