Soutenance de thèse de MAËS Eliot

Titre de thèse

Apprentissage multimodal pour la modélisation de l'échange d'information en interaction naturelle

Multimodal Learning for information exchange modelling in natural interactions

Date

13 May 2025 à 14h00

Adresse

Campus Saint Charles Aix Marseille Université 3 place Victor Hugo 13331 Marseille cedex 3, Salle des voûtes

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Apprentissage Automatique,Traitement Automatique du Langage,Corpus,Interaction,Echange d'informations,Multimodal,

Keywords

Machine Learning,Natural Language Processing,Corpus,Interaction,Information Exchange,Multimodality,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Maître de conférences	Mme BECERRA Léonor	Aix Marseille Université
Directeur de recherche	M. BLACHE Philippe	Laboratoire Parole et Langage, Aix-Marseille Université
Professeur	M. FAVRE Benoit	Aix Marseille Université
Associate Professor	Mme JIMéNEZ LóPEZ Maria Dolores	Universitat Rovira i Virgili
Directeur de recherche	M. SAGOT Benoit	INRIA
Directeur de recherche	Mme GARDENT Claire	LORIA, Université de Lorraine

Résumé de la thèse

La capacité qu'on les humains à partager et intégrer les idées complexes entendues, ce malgré leurs différences d'expérience et de personnalité, reste à ce jour un défi à expliquer précisément. Les neurosciences ont mis en avant des zones du cerveau impliquées dans la théorie de l'esprit et les interactions sociales. Côté linguistique, les études sur la qualité des interactions suggèrent qu'une communication réussie repose sur le partage efficace des informations qu'un individu a, de manière à garantir leur compréhension. Les théories de l'interaction associent cette capacité à l'alignement progressif des représentations linguistiques entre les locuteurs (M. J. Pickering ; Garrod, 2004 ; M. Pickering ; Garrod, 2021). Dans ce cadre, toutes les tâches conversationnelles, qu'elles impliquent collaboration ou compétition, reposent sur la capacité des locuteurs à construire un ensemble de connaissances partagées (également appelé common ground). Plus leur capacité à s'aligner sur ces connaissances et à développer leur compréhension est grande, plus l'interaction sera réussie.
Aucun modèle complet n'explicite cependant la formation du common ground en conversation - quelles informations y rentrent, et sous quelles conditions ? Cette compréhension est d'autant plus importante dans le contexte actuel de prolifération de grands modèles de langue, contenant des milliards de paramètes et entrainés sur des millions de caractères : une meilleure compréhension des mécanismes d'interactions pourrait permettre le design de modèles plus efficaces.
La mise en place du common ground est cependant une question complexe, qui touche à de nombreux phénomènes de la parole. Les travaux de recherche se limitent donc à l'évolution d'un phénomène dans le dialogue : répétitions et alignement du vocabulaire, feedbacks conversationnels pour indiquer la compréhension et l'accord... L'étude précise des informations transférées reste cependant mise de côté - alors que ces transferts restent au coeur de la conversation et de la mise en place du common ground.
L'objectif de cette thèse est donc de parvenir à une meilleure compréhension des transferts d'information dans la conversation, de manière à évaluer si tous ces transferts se valent. Nous chercherons également à localiser ceux porteurs de l'information la plus tangible, afin de créer la possibilité d'aller étudier ces moments au niveau cérébral.
Pour cela, nous nous appuierons tout d'abord sur une étude du médium le plus couramment utilisé pour étudier le langage - les transcriptions de dialogue, mettant à profit des outils actuellement disponibles grace aux modèles de langues. La théorie de l'information et les métriques qui en sont issues sont historiquement un passage obligatoire pour s'intéresser à la question des quantité d'informations échangées.
Un parallèle est également possible entre la tâche de localisation d'informations majeures dans la conversation se rapproche de la tâche de résumé automatique.
Nous étudierons donc la possibilité de développer des méthodes exploitant ces théories, ainsi que leurs limites, avec l'objectif de localiser des transferts d'information plus conséquents, qui pourraient être corrélés à une activité cérébrale distincte.
Dans un second temps, nous détaillerons, avec le cas pratique de collecte du corpus BrainKT, les difficultés liées à la création d'un dataset permettant non seulement une analyse du langage via les modalités perceptibles (audio, video, texte), mais également une étude plus en profondeur avec l'enregistrement du signal cérébral.
Nous reviendrons finalement sur la possibilité d'annoter ces transferts plus conséquents, dans l'objectif de développer un modèle multimodal capable de les prédire.

Thesis resume

The ability that humans have, to share and assimilate complex ideas they hear - this despite their differences in experience and personality, remains a challenge to explain precisely. Cognitively speaking, brain areas involved in the theory of mind and social interactions have been identified. Studies on the quality of interactions from a linguistic perspective suggest that successful communication relies on the efficient sharing of information to ensure understanding. Interaction theories associate this ability with the gradual alignment of linguistic representations between speakers (M. J. Pickering ; Garrod, 2004 ; M. Pickering ; Garrod, 2021). In this context, all conversational tasks, whether they rely on collaboration or competition, depend on the speakers' ability to build a set of shared knowledge (also known as the common ground}. The greater their ability to align with this knowledge and develop their understanding, the more successful the interaction will be.
However, no comprehensive model details the mechanisms behind the emergence of common ground in conversation — which piece of information is included, under which conditions? This understanding is all the more important in the current context of proliferation of large language models that rely on billions of parameters and are trained on millions of characters. A better understanding of interaction mechanisms could enable the design of more optimized models.
The establishment of common ground is, however, a complex issue that touches on many phenomena. Research is usually limited to the study of a single phenomenon across dialogues: repetitions and vocabulary alignment, conversational feedback to indicate understanding and agreement... The precise study of transferred information remains largely overlooked, even though these transfers are at the heart of conversation and the formation of common ground.
The objective of this thesis is therefore to achieve a better understanding of information transfers in conversation, in order to assess whether all these transfers are equivalent. We will also seek to identify those that carry the most tangible information, creating the possibility of studying these moments at the brain level.
To do this, we will first rely on a study of the most commonly used medium for language research — dialogue transcripts, leveraging currently available tools thanks to language models. Information theory and its associated metrics have historically been an essential approach to examining the quantity of exchanged information, but a parallel can also be drawn between the task of identifying major information points in conversation and automatic summarisation.
Relying on these theories, we will explore the possibility of developing methods that aim to identify significant information transfers - that could be correlated with distinct brain activity - as well as study their limitations.
In a second phase, we will detail the challenges related to creating a dataset that allows not only linguistic analysis through perceptible modalities (audio, video, text) but also a deeper study through brain signal recordings, using the case study of the collection of the BrainKT corpus.
We will finally revisit the possibility of annotating significant information transfers to develop a multimodal model capable of predicting them.