Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
Etablissement
Aix-Marseille Université
Mots Clés
Résumé de texte,Résumé de dialogue orienté tâche,Hallucination,Fidélité des résumés,Entités nommées,
Keywords
Text summarization,Task-oriented dialog summarization,Hallucination,Faithfulness in summarization,Named entities,
Titre de thèse
Factualité des résumés issus de modèles génératifs dans un contexte sémantique contrôlé
Factuality of summaries from generative models in a controlled semantic context
Date
Vendredi 5 Juillet 2024 à 9:00
Adresse
Hexagone, Campus de Luminy
163 Avenue de Luminy
13009 Marseille Amphithéâtre de lHexagone
Jury
Directeur de these |
M. Frédéric BECHET |
LIS, Aix-Marseille Univ. |
CoDirecteur de these |
M. Benoit FAVRE |
LIS, Aix-Marseille Univ. |
Rapporteur |
M. Benjamin LECOUTEUX |
LIG, Univ. Grenoble Alpes |
Rapporteur |
M. Florian BOUDIN |
LS2N, Univ. de Nantes |
Examinateur |
Mme Géraldine DAMNATI |
Orange Innovation Lannion |
Examinateur |
M. Richard DUFOUR |
LIA, Avignon Univ. |
Président |
Mme Cécile CAPPONI |
LIS, Aix-Marseille Univ. |
Résumé de la thèse
Le résumé automatique de document consiste à générer un résumé bref et cohérent de son contenu. Alors que les progrès récents des modèles de langue ont considérablement amélioré la capacité des systèmes à générer des résumés cohérents linguistiquement, maintenir une fidélité totale au contenu original demeure un défi pour les modèles génératifs. En effet, ces modèles vont paraphraser le texte à résumer, éventuellement en faisant dautres choix lexicaux, favorisant ainsi la génération d'information non présente dans le document source. Cependant, avoir un résumé fidèle à ce document source est crucial, notamment dans un contexte industriel où des erreurs sur des valeurs ou des noms dentités peuvent avoir des conséquences graves. C'est sur cette problématique que porte cette thèse. Elle l'aborde en deux volets principaux.
Tout d'abord, dans le cadre du résumé automatique de texte par abstraction, elle examine le phénomène des « hallucinations » en analysant les erreurs générées par les modèles de langue et en proposant des techniques pour réduire ces incohérences. Une typologie des erreurs pour les résumés automatiques, et une caractérisation du phénomène de l'abstraction pour les résumés de référence ont été proposées pour mieux comprendre lampleur de ces phénomènes. L'analyse des erreurs a montré que les systèmes sont sujets à générer des informations non-présentes, en particulier en ce qui concerne les entités nommées. Ainsi, basé sur l'hypothèse que les entités hors document sont plus susceptibles d'être des hallucinations, un nouveau critère de sélection de résumés est proposé. Ce critère est basé sur le "risque" de générer des entités qui n'appartiennent pas au document source. L'idée est de sélectionner, parmi un ensemble de résumé généré pour un même texte, le résumé qui a le moins d'entités potentiellement hallucinées.
Ensuite, cette thèse aborde le défi de faire un résumé de transcriptions de conversations entre plusieurs interlocuteurs. Cette tâche nécessite de considérer l'interaction entre les locuteurs pour préserver les informations les plus pertinentes du dialogue. Dans un contexte de communication humain-humain avec but, il est possible d'intégrer des informations relatives à la tâche pour faciliter le processus de résumé automatique de dialogue, ce qui peut aider les systèmes à produire des résumés plus fidèles sémantiquement. L'étude examine également les approches multitâches reliant la tâche de résumé à des tâches de compréhension du langage, telles que la détection de motifs d'appels d'un service client. Les informations liées à la tâche servent également de base pour proposer de nouvelles méthodes de sélection de résumés, fondées sur une analyse sémantique approfondie de la tâche liée aux dialogues, ainsi que des métriques d'évaluation basées sur cette même analyse.
Enfin, cette thèse s'est effectuée dans un contexte industriel à Enedis, entreprise de distribution d'électricité qui réalise des millions d'interventions sur le réseau électrique chaque année. La problématique de la fiabilité des systèmes de résumé automatique est importante pour Enedis afin de synthétiser les interventions représentées par plusieurs documents pour identifier plus facilement les causes des interventions vaines et les anticiper. Même si toutes les expériences reportées dans ce document ont été menées sur des corpus publics, cest dans ce cadre que cette thèse a étudié les méthodes liées au résumé de document (dialogue ou texte) afin de fiabiliser la génération d'un résumé cohérent et fidèle au document source.
Thesis resume
Automatic document summarization involves generating a concise and coherent summary of its content. While recent progress in language models have significantly improved the ability of systems to generate linguistically coherent summaries, maintaining full fidelity to the original content remains a challenge for generative models. Indeed, these models will paraphrase the text to be summarized, potentially making different lexical choices, thus increasing the risk of generating information not present in the source document. However, having a summary faithful to this source document is crucial, especially in an industrial context where errors in values or entity names can have serious consequences. This is the focus of this thesis, which addresses it in two main aspects.
Firstly, within the framework of automatic text summarization by abstraction, it examines the phenomenon of "hallucinations" by analyzing errors generated by language models and proposing techniques to reduce these inconsistencies. A typology of errors for automatic summaries, and a characterization of the abstraction phenomenon for reference summaries have been proposed to better understand the extent of these phenomena. Error analysis has shown that systems are prone to generating non-present information, especially concerning named entities. Thus, a new summary selection criterion is proposed based on the hypothesis that out-of-document entities are more likely to be hallucinations. This criterion is based on the "risk" of generating entities that not belonging to the source document. The idea is to select, among a set of summaries generated for the same text, the summary with the fewest risky entities.
Secondly, this thesis addresses the challenge of summarizing transcripts of conversations between multiple speakers. This task requires considering the interaction between speakers to preserve the most relevant information from the dialogue. In a context of human-human communication with a goal, it is possible to integrate task-related information to facilitate the automatic dialogue summarization process, which can assist systems in producing semantically more faithful summaries. The study also examines multitask approaches that link the summarization task to language comprehension tasks, such as detecting call types of conversations from a customer service. Task-related information also serves as the basis for proposing new summary selection methods based on a thorough semantic analysis of the task related to the dialogues, as well as evaluation metrics based on this same analysis.
Finally, this thesis was conducted in an industrial context at Enedis, a Distribution System Operator (DSO) company that carries out millions of interventions on the electricity network each year. The issue of the reliability of automatic summarization systems is important for Enedis to synthesize interventions represented by multiple documents in order to identify the causes of unsuccessful interventions and anticipate them more easily. Although all experiments reported in this document were conducted on public corpora, it is in this context that this thesis studied methods related to document summarization (dialogue or text) in order to improve the generation of a coherent and faithful summary of the source document.