Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
Etablissement
Aix-Marseille Université
Mots Clés
Fouille de données,Réseaux sociaux,Recherche d'information sociale,Classification,Détection,
Keywords
Data Mining,Social Networks,Social Information Retrieval,Classification,Detection,
Titre de thèse
Fouille de données provenant des réseaux sociaux pour la détection et la recherche
Social networks mining for detection and retrieval
Date
Lundi 9 Décembre 2019 à 14:00
Adresse
Polytech Marseille, Parc scientifique et technologique de Luminy, 163 avenue de Luminy 13288 Marseille Cedex 09 Bâtiment A, Amphi
Jury
Directeur de these |
M. MOHAMED QUAFAFOU |
Aix-Marseille Université, Laboratoire d'Informatique et Systèmes |
Rapporteur |
M. Mohamed NADIF |
Université Paris-Descartes, LIPADE |
Rapporteur |
Mme Anne LAURENT |
Université Montpellier, LIRMM |
Examinateur |
M. Philippe MULHEM |
Laboratoire d'Informatique de Grenoble |
Examinateur |
M. Leonard KWUIDA |
Haute école spécialisée bernoise |
Examinateur |
M. Nicolas DURAND |
Aix-Marseille Université, Laboratoire d'Informatique et Systèmes |
Résumé de la thèse
Lavènement des réseaux sociaux a suscité un intérêt considérable pour la société au cours de notre décennie. Ces plateformes en ligne proposées par le web 2.0 font émerger une quantité importante de données, permettant ainsi aux utilisateurs de produire, partager et échanger des contenus divers. Twitter est lun des réseaux sociaux les plus populaires permettant à ses utilisateurs de publier des messages, appelés « tweets ». Ces derniers peuvent contenir des textes offensifs, tels que les messages de harcèlement, ou encore des informations liées à des sujets controversés, tels que la violence, la cyberattaque, le terrorisme, etc.
Ces dernières années, de nombreux travaux de recherche ont montré comment ces contenus sociaux peuvent avoir une influence sur les utilisateurs et entraîner de lourdes conséquences. Un système de détection de ce type de messages est nécessaire afin, dune part, de protéger lutilisateur et, dautre part, de prédire lapparition des évènements tragiques. Dans ce travail de thèse, nous nous intéressons à la fouille des données provenant de Twitter pour identifier et détecter ce type de messages. Nous proposons un système de détection des tweets suspects basé sur les modèles thématiques probabilistes et la logique floue. Nous proposons également dintégrer linformation de localisation au système pour visualiser les tweets et identifier les régions. Cela permettra une exploration efficace des tweets suspects détectés. Afin didentifier les tweets de harcèlement, nous introduisons un modèle de classification exploitant un ensemble de caractéristiques et utilisant des algorithmes dapprentissage supervisé.
Les utilisateurs effectuent également des recherches sur ces réseaux sociaux pour trouver des informations qui répondent à un besoin exprimé par une requête. Cependant, les messages de Twitter sont courts et laccès à linformation est parfois difficile, vu la diversité des contenus et la quantité énorme dinformations générées. Dans ce contexte, il devient difficile pour les utilisateurs de trouver les informations pertinentes. Une partie de nos travaux se situe plus particulièrement dans le contexte de la recherche dinformation sociale (RIS) et vise à améliorer la recherche de tweets. Nous proposons une méthode dexpansion de requêtes, afin de pallier le problème de concision des messages ainsi que des requêtes, en appliquant : (1) des techniques de fouille de données permettant dextraire des motifs fermés fréquents ; et (2) une utilisation des plongements lexicaux.
Thesis resume
Social networks has gained a significant interest for society during our decade. These online platforms offered by the web 2.0 showed up the emergence of a large amount of data, allowing users to produce, share and exchange various content. Twitter is one of the most popular social networks that allow users to publish messages, called « tweets ». These tweets may contain offensive texts, such as harassment or bullying messages, or information related to abnormal topics, such as violence, cybercrime, terrorism, etc.
In recent years, many research studies have shown how such social content can have an impact on users and cause psychological harm. Developing a system for detecting such type of messages is necessary to protect the user and predict tragic or crisis events. The work presented in this thesis is brought into the context of data mining from Twitter to identify and detect such messages. We propose a suspicious tweets detection system based on probabilistic topic models and fuzzy logic. We also propose to integrate the location information into the system in order to visualize tweets and identify hot-suspicious zones. This enables efficiently exploring suspicious tweets detected. In order to identify harassment tweets, we introduce a classification model that exploits a set of features and uses supervised learning algorithms.
People also use social networks to search for relevant posts that satisfy their information need where this need is usually formulated using a textual query. However, Twitters messages are short and access to information is sometimes difficult because of the variety of published content and huge amount of data generated. In this context, it is difficult for the user to properly find the relevant information. The second part of this work deals with the context of social information retrieval (SIR) and aims to improve tweets retrieval quality. We propose a query expansion approach to overcome the shortness of user queries and tweets by applying: (1) data mining techniques to extract frequent closed patterns; and (2) word embeddings integration.