Ecole Doctorale

COGNITION, LANGAGE, EDUCATION

Spécialité

sciences du langage

Etablissement

Aix-Marseille Université

Mots Clés

désambiguïsation sémantique,simplification lexicale,traitement automatique des langues,enfants dyslexiques,faibles lecteurs,

Keywords

word sense disambiguation,lexical simplification,natural language processing,dyslexic children,poor readers,

Titre de thèse

Désambiguïsation sémantique dans le cadre de la simplification lexicale : contributions à un système d'aide à la lecture pour des enfants dyslexiques et faibles lecteurs
Word Sense Disambiguation within lexical simplification : contributions to a reading support system for children with dyslexia and poor readers

Date

Jeudi 15 Novembre 2018 à 14:00

Adresse

Faculté des Sciences Aix Marseille Université. Site St Charles. 3 place Victor Hugo 13331 Marseille cedex 3 Amphi Charve

Jury

Directeur de these Mme Nuria GALA PAVIA Aix Marseille Université - Laboratoire Parole et Langage (LPL)
Rapporteur M. Mathieu LAFOURCADE Univ. Montpellier LIRMM UMR5506
Rapporteur M. Olivier FERRET CEA Saclay Nano-INNOV Institut CARNOT CEA LIST Laboratoire Vision et Ingénierie des Contenus (LVIC)
CoDirecteur de these M. Johannes ZIEGLER Aix Marseille Université - Laboratoire de Psychologie Cognitive (LPC)
Examinateur Mme Cécile FABRE LABORATOIRE COGNITION, LANGUES, LANGAGE, ERGONOMIE (CLLE) UMR 5263
Examinateur M. Laurent PRÉVOT Aix-Marseille Université – Laboratoire Parole et Langage (LPL)

Résumé de la thèse

La lecture est fondamentale pour tout ce qu'un enfant doit apprendre pendant son parcours scolaire. D'après des rapports nationaux (MJENR 2003) ou internationaux (PISA 2009), 20% à 30% des élèves français sont de faibles lecteurs et ont des difficultés pour comprendre les textes écrits, 5% à 10% sont des enfants dyslexiques. Ces lecteurs sont en grande difficulté face à des textes complexes ou avec un vocabulaire peu courant. Ces dernières années, un nombre important de technologies ont été créées pour venir en aide aux personnes ayant des difficultés pour lire des textes écrits. Les systèmes proposés intègrent des technologies de la parole (lecture à « voix haute ») ou des aides visuelles (paramétrage et/ou mise en couleur des polices ou augmentation de l'espace entre lettres et lignes). Cependant, il est essentiel de proposer aussi des transformations sur le contenu afin d'avoir des substituts de mots plus simples et plus fréquents. Cela permettra de rendre les textes plus accessibles et plus faciles à lire et à comprendre. Le but de cette thèse est de contribuer à un système d'aide à la lecture permettant de proposer automatiquement une version simplifiée d'un texte donné tout en gardant le même sens des mots. Le travail présenté adresse le problème de l'ambiguïté sémantique (très courante en traitement automatique des langues) et vise à proposer des solutions pour la désambiguïsation sémantique à l'aide de méthodes non supervisées et à base de connaissances provenant de ressources lexico-sémantiques. Dans un premier temps, nous proposons un état de l'art sur les méthodes de désambiguïsation sémantique et de mesures de similarité sémantique (essentielles pour la désambiguïsation sémantique). Par la suite, nous comparons divers algorithmes de désambiguïsation sémantique afin d'en tirer le meilleur. Enfin, nous présentons nos contributions pour la création d'une ressource lexicale pour le français proposant des synonymes désambiguïsés et gradués en fonction de leur niveau de difficulté. Nous montrons que cette ressource est utile et peut être intégrée dans un module de simplification lexicale de textes. Mots clés : désambiguïsation sémantique, simplification lexicale, traitement automatique des langues, enfants dyslexiques, faibles lecteurs.

Thesis resume

Reading is fundamental to everything that a child needs to learn during his school career. According to national reports (MJENR 2003) or international reports (PISA 2009), 20% to 30% of French pupils are poor readers and have difficulties to understand the written texts, 5% to 10% are dyslexic children. These readers are very troubled when reading complex texts or texts with unusual vocabulary. In recent years, a large number of technologies have been created to help people who have difficulty when reading written texts. The proposed systems integrate speech technologies (reading aloud) or visual aids (setting and/or coloring of fonts or increasing the space between letters and lines). However, it is essential to also propose transformations on the texts' content in order to have simpler and more frequent substitutes. This will make the texts more accessible and easier to read and understand. The purpose of this thesis is to contribute to develop a reading aid system that automatically provides a simplified version of a given text while keeping the same meaning of words. The presented work addresses the problem of semantic ambiguity (quite common in natural language processing) and aims to propose solutions for word sense disambiguation (WSD) by using unsupervised and knowledge-based approaches from lexico-semantic resources. First, we propose a state of the art of the WSD approaches and semantic similarity measures which are crucial for this process. Thereafter, we compare various algorithms of WSD in order to get the best of them. Finally, we present our contributions for creating a lexical resource for French that proposes disambiguated and graduated synonyms according to their level of difficulty. We show that our resource is useful and can be integrated in a lexical simplification of texts module. Keywords: word sense disambiguation, lexical simplification, natural language processing, dyslexic children, poor readers.