Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
Etablissement
Aix-Marseille Université
Mots Clés
Traitement Automatique des Langues,modèles gloutons,modèles incrémentaux,retour arrière,apprentissage par renforcement,mesures de complexité
Keywords
Natural Language Processing,greedy models,incremental models,backtracking,reinforcement learning,complexity metrics
Titre de thèse
modèles incrémentaux pour le traitement automatique des langues
incremental models for natural language processing
Date
Mardi 12 Juillet 2022 à 14:00
Adresse
163 Av. de Luminy, 13009 Marseille Amphi 12
Jury
Directeur de these |
M. Alexis NASR |
Aix Marseille Université |
Rapporteur |
M. Benoît CRABBé |
Université Paris Cité |
Rapporteur |
M. François YVON |
LISN/CNRS |
Examinateur |
Mme Marie CANDITO |
Université Paris Cité |
Examinateur |
Mme Cécile CAPPONI |
Aix Marseille Université |
CoDirecteur de these |
M. Abdellah FOURTASSI |
Aix Marseille Université |
Résumé de la thèse
Cette thèse s'inscrit dans le domaine du traitement automatique de la langue, elle concerne plus particulièrement la prédiction de la structure syntaxico morphologique des phrases.
Il s'agit donc, à partir d'un texte, de découper ce dernier en phrases puis en mots et d'associer aux mots une partie de discours et des traits morphologiques puis de relier les mots pour expliciter la structure syntaxique.
La thèse propose un modèle de prédiction qui permet de réaliser ces tâches simultanément et de manière incrémentale : le texte est lu caractère par caractère et l'intégralité des prédictions linguistiques sont mises à jour par l'information apportée par chaque nouveau caractère.
La raison pour laquelle nous avons exploré cette architecture est la volonté de s'inspirer de la lecture humaine qui impose ces deux contraintes.
D'un point de vue expérimental, nous calculons la corrélation entre des variables oculométriques mesurées sur des sujets humains et des mesures de complexité propre à notre modèle.
De plus, nous proposons un mécanisme de retour arrière, inspiré des saccades régressives observées chez l'humain. Pour cela, nous utilisons l'apprentissage par renforcement, qui permet au modèle d'effectuer des retours arrières lorsqu'il se trouve dans une impasse.
Thesis resume
This thesis is about natural language processing, and more specifically concerns the prediction of the syntactic-morphological structure of sentences.
This is the matter of segmenting a text into sentences and then into words and associating to each word a part of speech and morphological features and then linking the words to make the syntactic structure explicit.
The thesis proposes a predictive model that performs these tasks simultaneously and in an incremental fashion: the text is read character by character and the entire linguistic predictions are updated by the information brought by each new character.
The reason why we have explored this architecture is the will to be inspired by human reading which imposes these two constraints.
From an experimental point of view, we compute the correlation between eye-tracking variables measured on human subjects and complexity metrics specific to our model.
Moreover, we propose a backtracking mechanism, inspired by the regressive saccades observed in humans. To this end, we use reinforcement learning, which allows the model to perform backtracking when it reaches a dead end.