Ecole Doctorale

Sciences Economiques et de Gestion d' Aix - Marseille

Spécialité

Sciences Economiques - Aix-Marseille

Etablissement

Aix-Marseille Université

Mots Clés

Données massive,Apprentissage Automatique,Réduction de dimension,Séries temporelles,Inférence,Estimation,

Keywords

Big Data,Machine learning,Dimension reduction,Time series,Inference,Estimation,

Titre de thèse

Precise estimation and inference in large models
Estimation et inférence précises dans les modèles de grande dimension

Date

Vendredi 20 Mai 2022

Adresse

MEGA ( la Maison de l'Economie et de la Gestion d'Aix-en-Provence ) 424 Chemin du Viaduc 13100 Salle de conférence

Jury

Directeur de these M. Sébastien LAURENT Aix Marseille Université
Président M. Emmanuel FLACHAIRE Aix Marseille Université
Rapporteur Mme Elena DUMITRESCU Université Paris Nanterre
Rapporteur M. David ARDIA HEC Montréal
Examinateur M. Christophe HURLIN Université d'Orléans

Résumé de la thèse

La régression linéaire est une technique standard utilisée par les économistes pour décrire l'état actuel de l'économie ou prévoir l’évolution des marchés financiers. En pratique, les économistes sélectionnent dans un ensemble potentiellement infini de variables, un sous-ensemble de variables explicatives pertinentes pour construire le meilleur estimateur linéaire sans biais (BLU) des coefficients du modèle de régression linéaire. Cependant, la littérature manque d'un cadre général pour l’inférence post-sélection et la validation de modèles sélectionnés dans certaines conditions. Ces conditions concernent principalement les cas où le nombre de régresseurs ($p$) est supérieur à la taille de l'échantillon ($T$) et où les données présentent une dépendance temporelle. Ainsi, cette thèse a solutionné ces problèmes via cinq contributions. Premièrement, nous introduisons une nouvelle classe d’estimateur des moindres carrés, le precision least square (PrLS), qui ne requiert que l’estimation sans biais d’une seule matrice de précision. Le PrLS permet l'estimation BLU de modèles sparse ou dense et l'inférence dans ces modèles lorsque $p>T$ et que les données sont stationnaires. Deuxièmement, nous présentons un cadre unifié pour l'inférence post-sélection avec des estimateurs modérément biaisés des coefficients de régression. La troisième contribution de cette thèse est une application empirique basée sur les procédures susmentionnées. D’abord, nous avons montré théoriquement qu'estimer les relations de causalité conditionnelles au sens de Granger entre les rendements boursiers d'un marché donné, revient à l'estimation de l'incertitude et du risque systémique dans l'économie correspondante. Ensuite, nous avons montré que ce résultat est vérifié empiriquement sur plusieurs marchés financiers tels que le marché américain. Pour cela nous avons prouvé que la modularité est une mesure de l'incertitude et du risque systémique. En particulier, nous avons montré que la modularité des entreprises non financières fournit une année à l'avance des indications précoces sur l'explosion des bulles financières. Quatrièmement, nous introduisons un cadre général pour la sélection de modèles valides avec contrôle de l’erreur de type I pour les algorithmes convergents en sélection tel que le lasso. Comme sous-produit : (1) nous établissons à partir de la théorie des ensembles qu’Autometrics, un algorithme de sélection de variables dont l’efficacité a largement été montré en simulation et dans des applications empiriques depuis des décennies, est convergent en sélection ; (2) nous introduisons un test de validation de modèle post-sélection. Notons que ce test est analogue à la statistique de test traditionnelle J. Contrairement à ce dernier, notre test demeure efficace lorsque $p>T$. Enfin, nous avons estimé le mean-variance spanning set du marché boursier français, qui est une autre illustration de comment sélectionner le meilleur sous-ensemble de variables. Nous montrons que les investisseurs internationaux et nationaux peuvent bénéficier de l'ajout à leurs portefeuilles d’entreprises françaises ayant une micro ou une petite capitalisation. Nous montrons également que les entreprises ayant une petite capitalisation surperforment les entreprises ayant une grande capitalisation dans les années qui suivent un creux économique mais pas dans les années qui précèdent un pic du cycle économique.

Thesis resume

Linear regression is a standard technique used by economists to describe the current state of the economy or to forecast the evolution of financial markets. In practice, economists select from a potentially infinite set of variables a subset of relevant explanatory variables to construct the best linear unbiased (BLU) estimator of the coefficients of the linear regression model. However, the literature lacks a general framework for post-selection inference and validation of selected models under certain conditions. These conditions mainly concern cases where the number of regressors (p) is larger than the sample size (T) and where the data exhibit time dependence. Thus, this thesis has solved these problems via five contributions. First, we introduce a new class of least square estimators: the precision least square (PrLS). It only requires the unbiased estimation of a single precision matrix. PrLS allows BLU estimation of sparse or dense models and inference in these models when p>T and the data is stationary. Second, we present a unified framework for post-selection inference with moderately biased estimators of regression coefficients. The third contribution of this thesis is an empirical application based on the above procedures. Firstly, we theoretically prove that estimating conditional causality relationships à la Granger among stock returns in each market is equivalent to estimating uncertainty and systemic risk in the corresponding economy. We then show that this result is empirically verified on several stock markets such as the US stock market. It follows that modularity is a measure of uncertainty and systemic risk. We particularly emphasize that the modularity of non-financial firms provides early indications of the explosion of financial bubbles one year in advance. Fourth, we introduce a general framework for valid model selection with type I error control for algorithms which are consistent in selection like the lasso. As a subproduct: (1) we establish based on set theory that Autometrics, a variable selection algorithm which has been widely shown to be effective in simulation and empirical applications since decades, is consistent in selection; (2) we introduce a test for valid model selection. This test is analogous to the traditional test statistic J. Unlike the latter, our test remains effective when p>T. Finally, we estimate the mean-variance spanning set of the French stock market, which is another illustration of how to select the best subset of variables. We show that both international and domestic investors can benefit from adding French micro and small capitalization firms to their portfolios. We then demonstrate that small-cap firms outperform large-cap firms in the years following an economic trough, but not in the years preceding a business cycle peak.