Ecole Doctorale

Sciences Economiques et de Gestion d' Aix - Marseille

Spécialité

Sciences Economiques - Aix-Marseille

Etablissement

Aix-Marseille Université

Mots Clés

marchés,données en ligne,apprentissage machine,économétrie,

Keywords

markets,online data,machine learning,econometrics,

Titre de thèse

Analyse des marchés avec les données en ligne : combinaison de l'apprentissage machine et de l'économétrie
Analyzing markets with online data: mixing machine learning and econometrics

Date

Lundi 4 Juillet 2022 à 9:00

Adresse

5-9 Bd Maurice Bourdet, 13001 Marseille Amphithéatre

Jury

Directeur de these M. Bruno DECREUSE AMSE, Aix Marseille Université
Rapporteur M. Francois-Charles WOLF IAE, Nantes Université
Rapporteur Mme Elena DUMITRESCU EconomiX, Université Paris Nanterre
Examinateur M. Pierre MICHEL AMSE, Aix Marseille Université

Résumé de la thèse

Les méthodes d'apprentissage automatique (ML) deviennent courantes dans de nombreuses sciences pour la modélisation de données massives. En effet, l'adoption croissante d'internet entraîne une croissance exponentielle des données générées en ligne. La compréhension des marchés économiques sous-jacents nécessite de nouvelles techniques et de nouveaux outils. Les interfaces de programmation d'applications (APIs) et les techniques de web scraping sont aujourd'hui nécessaires pour la collecte de données en ligne. Dans le même temps, le ML a fourni une gamme étendue d'outils pour extraire des informations de ces données massives et complexes. Cependant, l'adoption du ML en Economie est encore limitée, principalement en raison de son manque d'interprétabilité. Dans cette thèse, nous faisons quelques applications pratiques de l'utilisation de données massives en ligne pour résoudre des problèmes économiques tout en utilisant et en suggérant des méthodes interprétables. Au chapitre 1, nous utilisons plus de 300.000 offres d'emploi de Pôle Emploi pour comprendre pourquoi les employeurs choisissent de négocier les salaires avec les demandeurs d'emploi. Au chapitre 2, nous développons une méthode pour extraire des indicateurs de sentiment d’articles de presse et les décomposer en plusieurs dimensions appelées aspects. Nous appliquons notre méthode à près de 600.000 articles de presse pour construire des indicateurs économiques précoces comme outils supplémentaires à la prise de décision. Au chapitre 3, nous proposons une nouvelle classe de modèles économétriques qui rivalisent avec les modèles de ML sur des ensembles de données standard tout en étant beaucoup plus interprétables.

Thesis resume

Machine learning (ML) methods are becoming common in many sciences regarding massive data modeling. Indeed, the increasing internet adoption is leading to an exponential growth of data generated online. Understanding the underlying economic markets requires new techniques and tools. Application Programming Interfaces (APIs) and web scraping techniques are now required for online data collection. At the same time, ML has provided a wide range of tools for extracting insights from these massive and complex data. However, the adoption of ML methods in Economics is still limited, mainly due to their lack of interpretability. In this thesis, we make some practical applications of using massive online data to solve economic problems while using and suggesting interpretable methods. In Chapter 1, we use over 300,000 job offers from Pôle Emploi to understand why employers choose to negotiate wages with job seekers. In Chapter 2, we develop a method to extract sentiment indicators from news articles and decompose them into several dimensions called aspects. We apply our approach to nearly 600,000 news articles to construct early economic indicators as additional decision-making tools. In Chapter 3, we propose a new class of econometric models that rival ML models on standard data sets while being much more interpretable.