Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

Etablissement

Aix-Marseille Université

Mots Clés

Fouille de données,Réseaux sociaux,Recherche d'information sociale,Classification,Détection,

Keywords

Data Mining,Social Networks,Social Information Retrieval,Classification,Detection,

Titre de thèse

Fouille de données provenant des réseaux sociaux pour la détection et la recherche
Social networks mining for detection and retrieval

Date

Lundi 9 Décembre 2019 à 14:00

Adresse

Polytech Marseille, Parc scientifique et technologique de Luminy, 163 avenue de Luminy 13288 Marseille Cedex 09 Bâtiment A, Amphi

Jury

Directeur de these M. MOHAMED QUAFAFOU Aix-Marseille Université, Laboratoire d'Informatique et Systèmes
Rapporteur M. Mohamed NADIF Université Paris-Descartes, LIPADE
Rapporteur Mme Anne LAURENT Université Montpellier, LIRMM
Examinateur M. Philippe MULHEM Laboratoire d'Informatique de Grenoble
Examinateur M. Leonard KWUIDA Haute école spécialisée bernoise
Examinateur M. Nicolas DURAND Aix-Marseille Université, Laboratoire d'Informatique et Systèmes

Résumé de la thèse

L’avènement des réseaux sociaux a suscité un intérêt considérable pour la société au cours de notre décennie. Ces plateformes en ligne proposées par le web 2.0 font émerger une quantité importante de données, permettant ainsi aux utilisateurs de produire, partager et échanger des contenus divers. Twitter est l’un des réseaux sociaux les plus populaires permettant à ses utilisateurs de publier des messages, appelés « tweets ». Ces derniers peuvent contenir des textes offensifs, tels que les messages de harcèlement, ou encore des informations liées à des sujets controversés, tels que la violence, la cyberattaque, le terrorisme, etc. Ces dernières années, de nombreux travaux de recherche ont montré comment ces contenus sociaux peuvent avoir une influence sur les utilisateurs et entraîner de lourdes conséquences. Un système de détection de ce type de messages est nécessaire afin, d’une part, de protéger l’utilisateur et, d’autre part, de prédire l’apparition des évènements tragiques. Dans ce travail de thèse, nous nous intéressons à la fouille des données provenant de Twitter pour identifier et détecter ce type de messages. Nous proposons un système de détection des tweets suspects basé sur les modèles thématiques probabilistes et la logique floue. Nous proposons également d’intégrer l’information de localisation au système pour visualiser les tweets et identifier les régions. Cela permettra une exploration efficace des tweets suspects détectés. Afin d’identifier les tweets de harcèlement, nous introduisons un modèle de classification exploitant un ensemble de caractéristiques et utilisant des algorithmes d’apprentissage supervisé. Les utilisateurs effectuent également des recherches sur ces réseaux sociaux pour trouver des informations qui répondent à un besoin exprimé par une requête. Cependant, les messages de Twitter sont courts et l’accès à l’information est parfois difficile, vu la diversité des contenus et la quantité énorme d’informations générées. Dans ce contexte, il devient difficile pour les utilisateurs de trouver les informations pertinentes. Une partie de nos travaux se situe plus particulièrement dans le contexte de la recherche d’information sociale (RIS) et vise à améliorer la recherche de tweets. Nous proposons une méthode d’expansion de requêtes, afin de pallier le problème de concision des messages ainsi que des requêtes, en appliquant : (1) des techniques de fouille de données permettant d’extraire des motifs fermés fréquents ; et (2) une utilisation des plongements lexicaux.

Thesis resume

Social networks has gained a significant interest for society during our decade. These online platforms offered by the web 2.0 showed up the emergence of a large amount of data, allowing users to produce, share and exchange various content. Twitter is one of the most popular social networks that allow users to publish messages, called « tweets ». These tweets may contain offensive texts, such as harassment or bullying messages, or information related to abnormal topics, such as violence, cybercrime, terrorism, etc. In recent years, many research studies have shown how such social content can have an impact on users and cause psychological harm. Developing a system for detecting such type of messages is necessary to protect the user and predict tragic or crisis events. The work presented in this thesis is brought into the context of data mining from Twitter to identify and detect such messages. We propose a suspicious tweets detection system based on probabilistic topic models and fuzzy logic. We also propose to integrate the location information into the system in order to visualize tweets and identify hot-suspicious zones. This enables efficiently exploring suspicious tweets detected. In order to identify harassment tweets, we introduce a classification model that exploits a set of features and uses supervised learning algorithms. People also use social networks to search for relevant posts that satisfy their information need where this need is usually formulated using a textual query. However, Twitter’s messages are short and access to information is sometimes difficult because of the variety of published content and huge amount of data generated. In this context, it is difficult for the user to properly find the relevant information. The second part of this work deals with the context of social information retrieval (SIR) and aims to improve tweets retrieval quality. We propose a query expansion approach to overcome the shortness of user queries and tweets by applying: (1) data mining techniques to extract frequent closed patterns; and (2) word embeddings integration.