Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

Etablissement

Aix-Marseille Université

Mots Clés

Analyse Sémantique,Traitement du Langage Naturel,Apprentissage Profond,Réseaux des Neurones,Adaptation de Domaine,Réseaux Antagonistes

Keywords

Semantic Parsing,Natural Language Processing,Deep Learning,Neural Networks,Domain Adaptation,Adversarial Learning

Titre de thèse

Analyse en cadres et rôles sémantiques à base d’apprentissage automatique : amélioration de la généralisation inter-domaine des modèles
Semantic frame based analysis using machine learning techniques : improving the cross-domain generalization of semantic parsers

Date

Vendredi 13 Décembre 2019 à 14:00

Adresse

Campus St Charles, 3 place Victor Hugo, Marseille, Aix Marseille Université salle de seminaire de la FRUMAM

Jury

Directeur de these M. FREDERIC BECHET AMU / LIS
Rapporteur M. François YVON LIMSI / CNRS
Rapporteur M. Cerisara CHRISTOPHE CNRS / LORIA
CoDirecteur de these Mme Géraldine DAMNATI Orange Labs Lannion
Examinateur Mme Marie CANDITO Université Paris Diderot
Examinateur M. Alexis NASR AMU / LIS

Résumé de la thèse

Rendre les analyseurs sémantiques robustes aux variations lexicales et stylistiques est un véritable défi pour de nombreuses applications industrielles. De nos jours, l'analyse sémantique nécessite de corpus annotés spécifiques à chaque domaine afin de garantir des performances acceptables. Les techniques d'apprentissage par transfert sont largement étudiées et adoptées pour résoudre ce problème de manque de robustesse et la stratégie la plus courante consiste à utiliser des représentations de mots pré-formés. Cependant, les meilleurs analyseurs montrent toujours une dégradation significative des performances lors d'un changement de domaine, mettant en évidence la nécessité de stratégies d'apprentissage par transfert supplémentaires pour atteindre la robustesse. Ce travail propose une nouvelle référence pour étudier le problème de dépendance de domaine dans l'analyse sémantique. Nous utilisons un nouveau corpus annoté pour évaluer les techniques classiques d'apprentissage par transfert et pour proposer et évaluer de nouvelles techniques basées sur les réseaux antagonistes. Toutes ces techniques sont testées sur des analyseurs sémantiques de pointe. Nous affirmons que les approches basées sur les réseaux antagonistes peuvent améliorer les capacités de généralisation des modèles. Nous testons cette hypothèse sur différents schémas de représentation sémantique, langages et corpus, en fournissant des résultats expérimentaux à l'appui de notre hypothèse.

Thesis resume

Making semantic parsers robust to lexical and stylistic variations is a real challenge with many industrial applications. Nowadays, semantic parsing requires the usage of domain-specific training corpora to ensure acceptable performances on a given domain. Transfer learning techniques are widely studied and adopted when addressing this lack of robustness, and the most common strategy is the usage of pre-trained word representations. However, the best parsers still show significant performance degradation under domain shift, evidencing the need for supplementary transfer learning strategies to achieve robustness. This work proposes a new benchmark to study the domain dependence problem in semantic parsing. We use this bench to evaluate classical transfer learning techniques and to propose and evaluate new techniques based on adversarial learning. All these techniques are tested on state-of-the-art semantic parsers. We claim that adversarial learning approaches can improve the generalization capacities of models. We test this hypothesis on different semantic representation schemes, languages and corpora, providing experimental results to support our hypothesis.