Soutenance de thèse de AMMAR KHODJA Hichem

Titre de thèse

Évaluation de la factualité et de l'alignement temporel des faits dans les grands modèles de langue

Evaluation of Factuality and Temporal Alignment of Facts in Large Language Models

Date

18 December 2025 à 9h30

Adresse

3 Pl. Victor Hugo, 13003 Marseille, Campus de St Charles, Salle de seminaire FRUMAM 2e etage

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Large Language Models,Factual Knowledge Assessment,Temporal Alignment of Facts,Factual Temporal Robustness,

Keywords

Grands modèles de langue,Évaluation des connaissances factuelles,Alignement temporel des faits,Robustesse temporelle factuelle,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités	M. BECHET Frédéric	Aix Marseille Université
Chargé de recherche	M. CERISARA Christophe	Laboratoire LORIA - UMR 7503 - Campus Scientifique
Full professor	M. RICCARDI Giuseppe	Université de Trento
Directrice de recherche	Mme AUSSENAC-GILLES Nathalie	Universite Paul Sabatier labo IRIT
Professeur des universités	M. DUFOUR Richard	Université de Nantes
Professeure	Mme OCHS Magalie	Aix Marseille Université
Professeur des universités	M. NASR Alexis	Aix Marseille Université

Résumé de la thèse

Les remarquables avancées réalisées par les grands modèles de langue (GLM) en matière de dialogue, de synthèse, de programmation et de raisonnement (entre autres) ont largement contribué à leur popularité. Cette thèse se concentre sur le nouveau rôle des GLM en tant que dépôts émergents (mais imparfaits) d'informations factuelles, développe des outils pour mieux évaluer leur « connaissance » et les utilise pour mieux analyser la mise à jour des connaissances.

D'un point de vue épistémique, ce travail adopte une approche pragmatique : il ne prétend pas que les GLM « connaissent » les faits au sens épistémologique complet du terme, mais les considère comme des porteurs de proto-connaissances : des systèmes qui présentent des signes de connaissance factuelle sans satisfaire des critères épistémiques stricts. Pour évaluer ces signes, la thèse utilise des faits explicites et vérifiables dans des graphes de connaissances comme référence de vérité, Wikidata étant choisi pour son ampleur, sa fraîcheur et son évolution au fil du temps.

Trois axes de recherche structurent la thèse.
Premièrement, l'évaluation des connaissances factuelles : la thèse critique les pratiques d'évaluation courantes basées sur des amorces, vulnérables aux continuations hors sujet. Elle propose une évaluation alternative fondée sur les graphes de connaissances et des distracteurs : vérifier si le modèle classe la bonne réponse à une requête factuelle au-dessus de toutes les alternatives incorrectes. De plus, la thèse introduit, à cette fin, des procédures automatiques de collecte et de verbalisation des faits.

Deuxièmement, la robustesse temporelle des faits : de nombreux faits sont temporels (par exemple, les chefs d'État et les PDG évoluent au fil du temps). En supposant qu'une bonne compréhension de la temporalité est essentielle pour mettre à jour de manière fiable les informations factuelles, la thèse mesure la robustesse par fait en posant de nombreuses requêtes contextualisées temporellement sur un même fait et en évaluant la cohérence avec laquelle le modèle positionne correctement ce fait sur l'axe du temps. Cette approche contraste avec les méthodes existantes qui rapportent des performances moyennes sur des questions dispersées sur plusieurs faits temporels. Les résultats montrent que les meilleurs modèles manquent de robustesse pour des faits individuels et présentent plusieurs anomalies.

Troisièmement, l'alignement temporel des faits (ATF) : la thèse étudie la manière dont les GLM sont mis à jour pour refléter l'évolution de la réalité. En démontrant que les protocoles d'évaluation existants pour le ATF étaient incomplets et artificiels, la thèse propose un jeu de données plus réaliste et continu (WikiFactDiff), construit automatiquement en comparant des instantanés de Wikidata à différentes dates pour extraire des faits évolutifs du monde réel. Elle utilise en outre les outils d'évaluation développés dans le premier axe pour mieux évaluer le ATF.

En résumé, la thèse fournit : un état de l'art du domaine, de nouvelles méthodes et outils automatisés pour l'évaluation des connaissances factuelles, une analyse de la robustesse temporelle des GLM, un large jeu de données ATF réaliste, et un protocole d'évaluation ATF amélioré.

Au-delà des résultats techniques, ce travail souligne les enjeux sociétaux (fiabilité, déploiement éthique) et soutient que de meilleurs mécanismes d'évaluation et de mise à jour sont essentiels, les GLM étant de plus en plus utilisés pour l'accès à l'information dans des contextes à fort impact.

Thesis resume

The remarkable advances large language models (LLMs) achieved in terms of dialog, summarization, coding, and reasoning capabilities (among others), have vastly contributed to their popularity. This thesis focuses on the new role of LLMs as emerging (but imperfect) repositories of factual information, develops tools to better assess their "knowledge", and uses them to better evaluate knowledge updates.

From an epistemic perspective, this work adopts a pragmatic stance: it does not claim that LLMs "know" facts in the full epistemological sense, but treats them as proto-knowledge bearers: systems that display symptoms of factual knowledge without satisfying strict epistemic standards. To evaluate these symptoms, the thesis uses explicit, verifiable facts in knowledge graphs as a truth reference, with Wikidata chosen for its scale, recency, and evolution over time.

Three research axes structure the thesis. First, factual knowledge assessment: the thesis critiques common prompt-based evaluation practices that are vulnerable to out-of-subject continuations. It proposes an alternative assessment grounded in knowledge graphs and distractors: evaluate whether the model ranks the correct answer to a factual query above all incorrect alternatives. In addition, the thesis introduces, for this purpose, automatic fact collection and verbalization procedures.

Second, temporal factual robustness: many facts are temporal (e.g., heads of state and CEOs evolve over time). With the assumption that a good understanding of temporality is important to reliably update factual information, the thesis measures per-fact robustness by asking many temporally contextualized queries about the same fact and reporting how consistently the model correctly positions a fact on the time axis. This approach contrasts with existing ones that report average performance on questions scattered across many temporal facts. Results show that the best models lack robustness for individual facts and manifest several anomalies.

Third, temporal alignment of facts (TAF): the thesis studies how LLMs are updated so they reflect the evolving reality. Demonstrating that prior evaluation protocols for TAF were incomplete and artificial, the thesis contributes a more realistic, lifelong dataset (WikiFactDiff) built by automatically comparing Wikidata snapshots between dates to extract real-world evolving facts. In addition, it uses the developed assessment tools from the first axis to better evaluate TAF.

In summary, the thesis delivers: an overview of the field, new factual knowledge assessment methods and automation tools, an analysis of temporal robustness and anomalies in LLMs, a large realistic TAF dataset, and an improved TAF evaluation protocol.

Beyond technical results, the work emphasizes societal stakes (reliability, ethical deployment) arguing that better evaluation and update mechanisms are crucial as LLMs are increasingly used for information access in high-impact settings.