Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

Etablissement

Aix-Marseille Université

Mots Clés

Analyse de sentiments,Intensité de sentiments,Recherche d’informations,Recherche de livres,Plongement de mots,Mots-grains

Keywords

Sentiment Analysis,Sentiment Intensity,Information Retrieval,Book Search,Word Embedding,Seed-words

Titre de thèse

Modèles probabilistes de recommandation de livres par analyse de contenus et de sentiments, combinant Recherche d’Information et Traitement Automatique des Langues.
Probabilistic models for Book Search by Sentiment Analysis, combining Information Retrieval and Natural Language Processing.

Date

Mercredi 10 Juillet 2019 à 10:00

Adresse

Polytech Marseille GII 142 Rue Henri Poincaré, 13013 Marseille Gérard Jaumes

Jury

Directeur de these M. PATRICE BELLOT Aix-Marseille Université
Rapporteur M. Antoine DOUCET Université de La Rochelle
Rapporteur Mme Karen PINEL-SAUVAGNAT Université Paul Sabatier
CoDirecteur de these M. Sébastien FOURNIER Aix-Marseille Université
Examinateur Mme Gabriella PASI University of Milano-Bicocca
Examinateur Mme Lorraine GOEURIOT Université Grenoble Alpes

Résumé de la thèse

Le Web est en croissance continue, et une quantité énorme de données est générée par réseaux sociaux, permettant aux utilisateurs d’échanger une grande diversité d’informations. En outre, les textes au sein des réseaux sociaux sont souvent subjectifs. L’exploitation de cette subjectivité présente au sein des textes peut être un facteur important lors de recherche d’information. L’utilisation de cette subjectivité à travers l’analyse de sentiment (AS) a relativement été encore peu étudié dans le domaine de la recherche d’informations (RI). Ainsi, se servir de l’analyse de sentiment en recherche d’information est un voie que nous explorons dans cette thèse. Plus particulièrment, cette thèse est réalisée pour répondre aux besoins de la plate-forme Books de OpenEdition en matière d’amélioration de la recherche de livres, en plusieurs langues. Par conséquent, elle est guidée par le concept de combinaison des domaines AS et RI, dans le but d’améliorer les suggestions de la recherche de livres. Nos objectifs peuvent être résumés en plusieurs points: • Une approche d’analyse de sentiment, facilement applicable sur différentes langues, peu coûteuse en temps et en données annotées. • De nouvelles approches pour l’amélioration de la qualité lors de la recherche de livres, basées sur l’utilisation de l’analyse de sentiment dans le filtrage, l’extraction et la classification des informations. Pour atteindre ces objectifs, nous proposons une méthode semi-supervisée de prédiction de l’intensité des sentiments, au niveau des mots, basée sur des lexiques de mots-germes et des modèles de plongement de mots, adaptés au domaine. Et dans le cadre de la méthode de SA suggérée, nous proposons deux méthodes d’extraction des mots-germes adaptées aux domaines. La méthode de SA proposée a ensuite servi à deux propositions d’amélioration de la qualité de la recherche de livres: • Une méthode de reformulation des requêtes par réinjection de pertinence, dans laquelle l’analyse de sentiment aide à extraire l’information à partir de ressources Web sociales de livres récupérés. • Une classification des phrases appartenant à des requêtes, considérées comme longues, de recherche de livres, où nous analysons le rôle de l’analyse de sentiment dans cette classification. De plus, nous élargissons l’horizon de la thèse en proposant une méthode de normalisation de texte pour réduire les difficultés causées par le langage informel du Web, dans le domain d’analyse de sentiment. Nous proposons également une méthode permettant d’extraire la zone bibliographique dans les documents, comme pré-étape pour une méthode de recommandation basée sur la citation inter documents.

Thesis resume

The web technology is in an ongoing growth, and a huge volume of data is generated in the social web, where users would exchange a variety of information. In addition to the fact that social web text may be rich of information, the writers are often guided by provoked sentiments. Based on that concept, locating sentiment in a text can play an important factor for information extraction. Even thought its capacity of information extraction in text, Sentiment Analysis (SA) has a limited contribution in the Information Retrieval (IR) and search domain, thus, serving of SA in IR makes a tempting field to be explored. This thesis is accomplished to meet OpenEdition's Books platform needs for a multiple language book search improvement. Therefore, it is guided by the concept of combining SA and IR fields, for the purpose of improving the quality of book search. Our objectives can be resumed in the followings: • An approach for SA prediction, easily applicable on different languages, low cost in time and annotated data. • New approaches for book search quality improvement, based on SA employment in information filtering, extracting and classifying. To reach these objectives, we propose a semi-supervised method for sentiment intensity prediction, on words level, based on adapted to domain seed-words lexicons and word embeddings models. And within the proposed SA method, we suggest two methods for the adapted to domain seed-words’ extraction. The proposed SA method serves next as the axis of two book search quality improvement propositions: • A pseudo relevance feedback’s method, where SA assists in the information extraction from social web resources of retrieved books. • A classification of sentences in long Book Search queries, where we analyse the SA role in this classification. In addition, we expand this thesis horizon by proposing a text normalisation method to decrease the difficulties caused by the social web’s informal language, in the sentiment analysis field. Also, we propose a method to extract documents' bibliographical zone, as a pre-step for a recommendation method based on an inter documents citation.