Soutenance de thèse de ANTOINE Elie

Titre de thèse

Diagnostic au-delà de l'Évaluation : Approches Sémantiques et Centrées Utilisateur pour l'Analyse des Compétences Linguistiques des Modèles de Langue

Assessment Beyond Evaluation: Semantic Frameworks and User-Centered Approaches for Language Model Linguistic Skill Analysis

Date

17 September 2025 à 14h00

Adresse

3 Pl. Victor Hugo, 13003 Marseille, FRUMAM

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Traitement Automatique du Langage,Évaluation de Modèles de Langue,Cadres Sémantiques,Génération de Question,

Keywords

Natural Language Processing,Language Model Assessment,Frame Semantics,Question Generation,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur	M. BECHET Frédéric	Aix Marseille Université
Professeur	M. VELCIN Julien	Université Lumière Lyon 2
Maître de conférences	Mme CANDITO Marie	Université Paris Cité
Professeur	M. LANGLAIS Philippe	Université de Montréal
Ingénieur de recherche	Mme DAMNATI Géraldine	Orange Innovation
Professeur	M. NASR Alexis	Aix Marseille Université
Associate Professor	Mme DOğRUöZ A. Seza	Ghent University

Résumé de la thèse

Cette thèse examine l'évaluation et la compréhension des capacités des modèles de langage modernes, où les métriques traditionnelles fournissent un aperçu limité de ce que les modèles savent ou comprennent réellement. Alors que les modèles continuent de croître en taille et capacité, les approches d'évaluation font face à des défis croissants : saturation des performances sur les benchmarks standards, risque accru de contamination des données entre entraînement et évaluation, et incapacité croissante des scores agrégés à détecter des différences subtiles dans le traitement des structures linguistiques complexes, schémas de raisonnement, dépendances contextuelles et relations sémantiques.
Une partie de cette thèse se centre sur le projet Archival, qui se concentre sur l'amélioration de l'accès aux archives des sciences humaines par des approches computationnelles. Ce travail interdisciplinaire implique l'utilisation du corpus « Autogestion », une collection de textes français spécialisés de 1966-1986 qui présentent des défis uniques pour les systèmes de TAL. Contrairement au contenu factuel et neutre de Wikipédia qui domine la plupart des jeux de données TAL, ces textes de sciences sociales présentent des perspectives analytiques, des points de vue subjectifs, des phrases plus longues avec des références anaphoriques plus complexes, et nécessitent une compréhension sémantique plus approfondie.
La thèse soutient que l'évaluation quantitative (scores et benchmarks) doit être complétée par l'évaluation qualitative (analyse comportementale et structurelle) pour créer une vision plus complète des capacités des modèles. Cette distinction fondamentale entre mesure et compréhension façonne les contributions méthodologiques présentées tout au long de ce travail.
Plusieurs approches méthodologiques sont développées et analysées :
Un cadre de génération de questions sémantiques basé sur la sémantique des cadres pour l'extraction de réponses et la génération automatique de questions. Ce cadre exploite les structures sémantiques pour identifier des segments de réponse significatifs et générer les questions correspondantes, adaptant les modèles de compréhension de lecture au domaine spécialisé du corpus Autogestion.
Une méthode de liaison de documents évaluant la pertinence des connexions à travers le comportement de navigation des utilisateurs. Des journaux de sessions expérimentales au BNF Datalab ont été utilisés pour analyser l'exploration des documents interconnectés, développant des métriques basées sur les graphes qui évaluent la qualité des liens selon les schémas de navigation réels.
Un protocole d'évaluation linguistiquement informé avec des facteurs de complexité sémantique pour la réponse aux questions basé sur la sémantique des cadres. Cette méthodologie identifie sept structures sémantiques distinctes qui défient systématiquement les modèles, révélant des schémas de performance cachés dans les scores agrégés.
Une analyse de sondage structurel des modèles Mixture-of-Experts, montrant des corrélations entre schémas de routage et catégories syntaxiques, suggérant que la spécialisation neuronale s'aligne avec les catégories grammaticales sans supervision linguistique explicite.

Thesis resume

This thesis examines the evaluation and understanding of modern language model capabilities, where traditional metrics provide limited insight into what language models actually know or understand. As models continue to scale in size and capability, evaluation approaches face intensifying challenges that go beyond metric design. These include performance saturation on standard benchmarks, increased risk of data contamination between training and evaluation sets, and the growing inability of aggregate scores to detect subtle but important differences in how models process complex linguistic structures, reasoning patterns, contextual dependencies, and semantic relationships.
A part of this thesis is centered around the Archival project, which focuses on improving access to humanities archives through computational approaches. This interdisciplinary effort involved working with the "Autogestion" (self-management) corpus, a collection of specialized French texts from 1966-1986 that present unique challenges for NLP systems. Unlike Wikipedia's factual, neutral content that dominates most NLP datasets, these social science texts feature analytical perspectives, subjective viewpoints, longer sentences with more complex anaphoric references, and require deeper semantic understanding.
The thesis argues that quantitative evaluation (scores and benchmarks) must be complemented by qualitative assessment (behavioral and structural analysis) to create a more complete picture of model capabilities. While evaluation methodologies focus on generating scores and performance comparisons, assessment approaches seek to understand the underlying mechanisms, behaviors, and limitations of language models. This fundamental distinction between measurement and understanding shapes the methodological contributions presented throughout this work, offering complementary perspectives on model analysis.
Several methodological approaches are developed and analyzed:
A semantic question generation framework based on frame semantics for answer extraction and automatic question generation. This framework leverages semantic structures to identify meaningful answer spans and generate corresponding questions. The generated questions are then used to adapt machine reading comprehension and question answering models to the specialized domain of the Autogestion corpus, where questions encompass longer answer spans and more complex linguistic structures than found in standard QA benchmarks.
A document linking method evaluating connection relevance through user navigation behavior. Logs from two experimental sessions at the BNF Datalab were used to analyze how users explored interconnected documents from the Autogestion corpus, developing graph-based metrics that assess link quality based on actual navigation patterns rather than content similarity alone.
A linguistically-informed evaluation protocol with semantic complexity factors for question answering based on frame semantics. This methodology identifies seven distinct semantic structures that systematically challenge models, revealing performance patterns hidden in aggregate scores and demonstrating how semantic variation affects model robustness across architectures and scales.
A structural probing analysis of Mixture-of-Experts models, showing correlations between routing patterns and syntactic categories. The analysis reveals that expert components activate consistently for specific parts of speech, suggesting that neural specialization aligns with grammatical categories without explicit linguistic supervision.