Ecole Doctorale

Sciences Economiques et de Gestion d' Aix - Marseille

Spécialité

Sciences Economiques - Aix-Marseille

Etablissement

Aix-Marseille Université

Mots Clés

causalité,hétérogénéité,apprentissage automatique,expériences,travail,inégalités

Keywords

causality,heterogeneity,machine learning,experiments,labor,inequalities

Titre de thèse

Les contrefactuels en économie : enjeux de l'estimation personnalisée à l'aide du machine learning
Counterfactuals in economics: challenges in personalized estimation using machine learning

Date

Monday 11 December 2023 à 15:00

Adresse

Ilôt Bernard Dubois 5 Bd Maurice Bourdet 13001 Marseille Amphithéâtre

Jury

Directeur de these M. Emmanuel FLACHAIRE AMU - AMSE
Rapporteur Mme Anna SIMONI Center for Research in Economics and Statistics (CREST)
Rapporteur M. Arthur CHARPENTIER Université du Québec à Montréal (UQAM)
Examinateur Mme Molly OFFER-WESTORT University of Chicago
Examinateur M. Ewen GALLIC AMU - AMSE
Président M. Xavier JOUTARD AMU - AMSE

Résumé de la thèse

La thèse porte sur l'estimation des contrefactuels en économie, un domaine essentiel pour évaluer les impacts potentiels des décisions et des politiques dans divers contextes. Ainsi, on peut se demander ce qui se serait produit si un individu qui a été exposé à une politique publique ne l’avait pas été. Sujets à de nombreux biais, ces raisonnements nécessitent cependant des méthodes rigoureuses si l’on souhaite prendre des décisions informées. L'approche courante consiste à estimer les effets moyens en comparant des groupes de traitement et de contrôle, idéalement dans des expériences randomisées. En l'absence de randomisation, des corrections sont aussi possibles lorsque l'on observe les caractéristiques qui distinguent les groupes. Pour aller au-delà de l’estimation des effets moyens, de nombreuses études d’impact cherchent à estimer des effets hétérogènes, c'est-à-dire comprendre comment différentes sous-populations réagissent à un traitement médical ou à une politique publique. Or, les méthodes standards ne sont pas toujours appropriées dans des contextes de big data, car l'analyse standard nécessiterait de nombreux tests statistiques sur de nombreux sous-groupes. Pour esquiver ce problème des tests multiples, le domaine du machine learning causal a émergé, et offre des méthodes alternatives pour explorer l'hétérogénéité de manière fine. Ces techniques sont intéressantes pour les chercheurs en économie, car elles permettent une estimation plus personnalisée des contrefactuels, en prenant en compte les nombreuses différences entre les individus et en identifiant celles qui sont pertinentes. Cependant, elles n'ont pas encore remplacé les outils traditionnels des économistes, comme la régression linéaire estimée par moindres carrés ordinaires. Cette thèse explore donc les possibilités et les limites de ces méthodes afin de contribuer à une meilleure compréhension des enjeux de l'estimation des contrefactuels à l'aide du machine learning en économie. Ainsi, le premier chapitre de cette thèse emploie successivement des techniques plus standards puis plus récentes d’analyse des effets de traitement pour évaluer l’impact d’un site internet destiné à accompagner les demandeurs d’emploi dans leur recherche. Le second chapitre interroge la possibilité d’importer les techniques de machine learning pour réaliser des décompositions d’inégalités, comme la différence entre les salaires moyens des hommes et des femmes. Si la formalisation mathématique du problème de la décomposition des inégalités entre une partie expliquée par des différences de caractéristiques et une partie non expliquée est très similaire à la formalisation du problème de l’évaluation des effets de traitement, le contexte est ici non-expérimental. Cela nous amène donc à questionner les hypothèses posées dans ce type d’analyses économiques. Les chapitres 3 et 4 portent sur les expériences adaptatives, c'est-à-dire des expériences au cours desquelles les poids d'assignation aux différents traitements évoluent à mesure que l'on apprend leur efficacité relative. Dans le chapitre 3, nous cherchons à optimiser une stratégie de communication par email pour informer les chercheurs d'emploi de l'existence d'une plateforme en ligne conçue pour signaler leurs compétences aux employeurs. Dans le chapitre 4, nous nous demandons dans quelle mesure les expériences adaptatives pourraient être considérées comme plus justes envers les sujets d’expérience que les expériences randomisées contrôlées standards. En résumé, cette thèse examine les défis techniques associés à l'utilisation des contrefactuels estimés à l'aide de techniques d'apprentissage dans les domaines de l'économie du travail, des inégalités et de l'évaluation des politiques publiques. Dans cette thèse, largement composée de travaux conjoints avec divers co-auteurs, nous montrons comment réemployer ces méthodes dans la pratique pour surmonter les problèmes techniques.

Thesis resume

This thesis focuses on estimating counterfactuals in economics, a crucial field for evaluating the potential impacts of decisions and policies across various contexts. For example, we can inquire about what would have transpired if an individual exposed to a public policy had not been exposed. Given the susceptibility to numerous biases, such reasoning necessitates rigorous methodologies for making informed decisions. The conventional approach involves estimating average effects by comparing treatment and control groups, ideally in randomized experiments. In the absence of randomization, corrections are also possible by accounting for the distinguishing characteristics of these groups. To delve deeper into estimating effects, many studies seek to explore heterogeneous impacts, which involve understanding how diverse subpopulations respond to medical treatments or public policies. However, standard methods may not always be suitable in Big Data contexts, where typical analyses could entail numerous statistical tests on various subgroups. To address this challenge of multiple testing, the field of causal machine learning has emerged, offering alternative methods for finely examining heterogeneity. These techniques are of great interest to economic researchers as they enable more personalized estimation of counterfactuals, taking into account the multitude of individual differences and identifying the relevant ones. However, they have not yet supplanted traditional tools used by economists, such as linear regression estimated by ordinary least squares. Therefore, this thesis explores the possibilities and limitations of these methods to contribute to a better understanding of the challenges involved in estimating counterfactuals using machine learning in economics. The first chapter of this thesis successively employs both standard and more recent treatment effects analysis techniques to assess the impact of a website designed to aid jobseekers in their search. The second chapter examines the potential use of machine learning techniques to decompose inequalities, like the wage gap between men and women. While the mathematical formalization of decomposing inequalities into a part explained by differences in characteristics and a part not explained is similar to the formalization of evaluating treatment effects, the context here is non-experimental, leading us to question the assumptions made in this type of economic analysis. Chapters 3 and 4 delve into adaptive experiments, where the weights assigned to different treatments change as their relative effectiveness is learned. In Chapter 3, we seek to optimize an email communication strategy for informing job seekers about an online platform designed to signal their skills to employers. In Chapter 4, we explore the extent to which adaptive experiments might be considered fairer to experimental subjects than standard randomized controlled experiments. In summary, this thesis examines the technical challenges associated with using counterfactuals estimated through machine learning techniques in the fields of labor economics, inequality, and public policy evaluation. Within this thesis, which comprises collaborative work with various co-authors, we demonstrate how to practically apply these methods to address technical issues.