Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

Etablissement

Aix-Marseille Université

Mots Clés

Traitement Automatique des Langues,modèles gloutons,modèles incrémentaux,retour arrière,apprentissage par renforcement,mesures de complexité

Keywords

Natural Language Processing,greedy models,incremental models,backtracking,reinforcement learning,complexity metrics

Titre de thèse

modèles incrémentaux pour le traitement automatique des langues
incremental models for natural language processing

Date

Mardi 12 Juillet 2022 à 14:00

Adresse

163 Av. de Luminy, 13009 Marseille Amphi 12

Jury

Directeur de these M. Alexis NASR Aix Marseille Université
Rapporteur M. Benoît CRABBé Université Paris Cité
Rapporteur M. François YVON LISN/CNRS
Examinateur Mme Marie CANDITO Université Paris Cité
Examinateur Mme Cécile CAPPONI Aix Marseille Université
CoDirecteur de these M. Abdellah FOURTASSI Aix Marseille Université

Résumé de la thèse

Cette thèse s'inscrit dans le domaine du traitement automatique de la langue, elle concerne plus particulièrement la prédiction de la structure syntaxico morphologique des phrases. Il s'agit donc, à partir d'un texte, de découper ce dernier en phrases puis en mots et d'associer aux mots une partie de discours et des traits morphologiques puis de relier les mots pour expliciter la structure syntaxique. La thèse propose un modèle de prédiction qui permet de réaliser ces tâches simultanément et de manière incrémentale : le texte est lu caractère par caractère et l'intégralité des prédictions linguistiques sont mises à jour par l'information apportée par chaque nouveau caractère. La raison pour laquelle nous avons exploré cette architecture est la volonté de s'inspirer de la lecture humaine qui impose ces deux contraintes. D'un point de vue expérimental, nous calculons la corrélation entre des variables oculométriques mesurées sur des sujets humains et des mesures de complexité propre à notre modèle. De plus, nous proposons un mécanisme de retour arrière, inspiré des saccades régressives observées chez l'humain. Pour cela, nous utilisons l'apprentissage par renforcement, qui permet au modèle d'effectuer des retours arrières lorsqu'il se trouve dans une impasse.

Thesis resume

This thesis is about natural language processing, and more specifically concerns the prediction of the syntactic-morphological structure of sentences. This is the matter of segmenting a text into sentences and then into words and associating to each word a part of speech and morphological features and then linking the words to make the syntactic structure explicit. The thesis proposes a predictive model that performs these tasks simultaneously and in an incremental fashion: the text is read character by character and the entire linguistic predictions are updated by the information brought by each new character. The reason why we have explored this architecture is the will to be inspired by human reading which imposes these two constraints. From an experimental point of view, we compute the correlation between eye-tracking variables measured on human subjects and complexity metrics specific to our model. Moreover, we propose a backtracking mechanism, inspired by the regressive saccades observed in humans. To this end, we use reinforcement learning, which allows the model to perform backtracking when it reaches a dead end.