Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
Etablissement
Aix-Marseille Université
Mots Clés
Analyse de sentiments,Intensité de sentiments,Recherche dinformations,Recherche de livres,Plongement de mots,Mots-grains
Keywords
Sentiment Analysis,Sentiment Intensity,Information Retrieval,Book Search,Word Embedding,Seed-words
Titre de thèse
Modèles probabilistes de recommandation de livres par analyse de contenus et de sentiments, combinant Recherche dInformation et Traitement Automatique des Langues.
Probabilistic models for Book Search by Sentiment Analysis, combining Information Retrieval and Natural Language Processing.
Date
Mercredi 10 Juillet 2019 à 10:00
Adresse
Polytech Marseille GII
142 Rue Henri Poincaré, 13013 Marseille Gérard Jaumes
Jury
Directeur de these |
M. PATRICE BELLOT |
Aix-Marseille Université |
Rapporteur |
M. Antoine DOUCET |
Université de La Rochelle |
Rapporteur |
Mme Karen PINEL-SAUVAGNAT |
Université Paul Sabatier |
CoDirecteur de these |
M. Sébastien FOURNIER |
Aix-Marseille Université |
Examinateur |
Mme Gabriella PASI |
University of Milano-Bicocca |
Examinateur |
Mme Lorraine GOEURIOT |
Université Grenoble Alpes |
Résumé de la thèse
Le Web est en croissance continue, et une quantité énorme de données est générée par réseaux sociaux, permettant aux utilisateurs déchanger une grande diversité dinformations. En outre, les textes au sein des réseaux sociaux sont souvent subjectifs. Lexploitation de cette subjectivité présente au sein des textes peut être un facteur important lors de recherche dinformation. Lutilisation
de cette subjectivité à travers lanalyse de sentiment (AS) a relativement été encore peu étudié dans le domaine de la recherche dinformations (RI). Ainsi, se servir de lanalyse de sentiment en recherche dinformation est un voie que nous explorons dans cette thèse. Plus particulièrment, cette thèse est réalisée pour répondre aux besoins de la plate-forme Books de OpenEdition en matière
damélioration de la recherche de livres, en plusieurs langues. Par conséquent, elle est guidée par le concept de combinaison des domaines AS et RI, dans le but daméliorer les suggestions de la recherche de livres. Nos objectifs peuvent être résumés en plusieurs points:
Une approche danalyse de sentiment, facilement applicable sur différentes langues, peu coûteuse en temps et en données annotées.
De nouvelles approches pour lamélioration de la qualité lors de la recherche de livres, basées sur lutilisation de lanalyse de sentiment dans le filtrage, lextraction et la classification des informations.
Pour atteindre ces objectifs, nous proposons une méthode semi-supervisée de prédiction de lintensité des sentiments, au niveau des mots, basée sur des lexiques de mots-germes et des modèles de plongement de mots, adaptés au domaine. Et dans le cadre de la méthode de SA suggérée, nous proposons deux méthodes dextraction des mots-germes adaptées aux domaines. La méthode de SA proposée a ensuite servi à deux propositions damélioration de la qualité de la recherche de livres:
Une méthode de reformulation des requêtes par réinjection de pertinence, dans laquelle lanalyse de sentiment aide à extraire linformation à partir de ressources Web sociales de livres récupérés.
Une classification des phrases appartenant à des requêtes, considérées comme longues, de recherche de livres, où nous analysons le rôle de lanalyse de sentiment dans cette classification.
De plus, nous élargissons lhorizon de la thèse en proposant une méthode de normalisation de texte pour réduire les difficultés causées par le langage informel du Web, dans le domain danalyse de sentiment. Nous proposons également une méthode permettant dextraire la zone bibliographique dans les documents, comme pré-étape pour une méthode de recommandation basée sur la citation inter documents.
Thesis resume
The web technology is in an ongoing growth, and a huge volume of data is generated in the social web, where users would exchange a variety of information. In addition to the fact that social web text may be rich of information, the writers are often guided by provoked sentiments. Based on that concept, locating sentiment in a text can play an important factor for information extraction. Even thought its capacity of information extraction in text, Sentiment Analysis (SA) has a limited contribution in the Information Retrieval (IR) and search domain, thus, serving of SA in IR makes a tempting field to be explored. This thesis is accomplished to meet OpenEdition's Books platform needs for a multiple language book search improvement. Therefore, it is guided by the concept of combining SA and IR fields, for the purpose of improving the quality of book search. Our objectives can be resumed in the followings:
An approach for SA prediction, easily applicable on different languages, low cost in time and annotated data.
New approaches for book search quality improvement, based on SA employment in information filtering, extracting and classifying.
To reach these objectives, we propose a semi-supervised method for sentiment intensity prediction, on words level, based on adapted to domain seed-words lexicons and word embeddings models. And within the proposed SA method, we suggest two methods for the adapted to domain seed-words extraction. The proposed SA method serves next as the axis of two book search quality improvement propositions:
A pseudo relevance feedbacks method, where SA assists in the information extraction from social web resources of retrieved books.
A classification of sentences in long Book Search queries, where we analyse the SA role in this classification.
In addition, we expand this thesis horizon by proposing a text normalisation method to decrease the difficulties caused by the social webs informal language, in the sentiment analysis field. Also, we propose a method to extract documents' bibliographical zone, as a pre-step for a recommendation method based on an inter documents citation.