Soutenance de thèse de KOSHEVOY Alexey

Titre de thèse

L'émergence des lois linguistiques dans une perspective d'évolution culturelle

A cultural evolutionary account of the emergence of linguistic laws.

Date

25 septembre 2025 à 14h30

Adresse

3 place Victor Hugo, Marseille 13331, Espace Pouillon

Ecole doctorale

Cognition, Langage, Education

Specialité

Sciences cognitives

Etablissement

Aix-Marseille Université

Mots clés

evolution culturelle,loi d'abréviation de Zipf,loi des significations de Zipf,inference generative,modèle basé sur des agents,

Keywords

cultural evolution,Zipf's laws of abbreviation,Zipf's law of meaning,generative inference,agent-based modelling,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Directrice de recherche	Mme DAUTRICHE Isabelle	Aix Marseille Université
Directeur de recherche	M. SPECTOR Benjamin	Institut Jean Nicod, ENS-PSL
Professor	M. KIRBY Simon	Université d'Édimbourg
Senior Investigator	Mme RUBIO-FERNANDEZ Paula	Max Planck Institute for Psycholinguistics
Professeur	Mme BOLEDA Gemma	Universitat Pompeu Fabra

Résumé de la thèse

Les lois linguistiques comme la loi d'abréviation de Zipf (les mots fréquents sont plus courts) et la loi des significations de Zipf (les mots fréquents ont plus de sens) sont souvent interprétées comme des signes d'une efficacité communicative. Selon cette perspective, les langues évoluent sous des pressions visant à optimiser la transmission entre locuteurs et auditeurs. Cette thèse remet en question cette idée, en montrant que ces lois peuvent émerger sans pressions communicatives. Je propose qu'elles résultent de la transmission culturelle du langage, influencée par des mécanismes cognitifs généraux. Pour tester cette hypothèse, je m'appuie sur des données issues de plusieurs langues, des méthodes d'inférence générative, ainsi que sur l'étude de systèmes culturels para-linguistiques comme les systèmes d'écriture ou la popularité des prénoms.
Je montre d'abord que la loi d'abréviation peut résulter d'une pression générale pour la brièveté combinée à la transmission culturelle. Le chapitre 1 examine des systèmes de communication animale et des comportements humains, et montre que cette loi n'apparaît que dans les systèmes transmis culturellement. Le chapitre 2 propose un modèle computationnel qui reproduit des propriétés clés de la loi d'abréviation dans les langues naturelles. Le chapitre 3 l'applique aux systèmes d'écriture. Le chapitre 4 analyse des milliers de choix effectués par les utilisateurs d'une plateforme en ligne de proposition des synonymes. À l'aide d'un modèle à base d'agents et d'inférence générative, je montre que leurs décisions sont guidées par un biais pour la brièveté. Le chapitre 5 aborde la loi des significations, que j'explique par un processus neutre dans lequel chaque mot a une probabilité égale d'extension sémantique. Ce modèle prédit que les mots plus anciens sont plus ambigus, ce que je confirme à l'aide d'un corpus de néologismes français sur plus de deux siècles. Enfin, le chapitre 6 examine le compromis simplicité-informativité dans le domaine des couleurs. Je montre que ce phénomène, souvent attribué à des pressions communicatives, peut s'expliquer par un biais général pour la convexité, présent aussi chez certaines espèces non humaines.
Ces résultats suggèrent que les lois linguistiques ne nécessitent pas d'être expliquées par l'efficacité communicative. Elles peuvent émerger de dynamiques culturelles ou de contraintes cognitives générales. Cela invite à revoir l'interprétation traditionnelle de ces lois dans les langues naturelles.
Cette thèse propose un cadre alternatif fondé sur l'évolution culturelle. Elle fournit des explications mécanistes à des lois telles que celles de Zipf, et montre comment des processus similaires peuvent structurer des systèmes para-linguistiques. Elle met en avant l'importance des modèles mécanistes et de l'inférence générative pour éviter le problème de l'équifinalité, selon lequel un même phénomène peut découler de causes multiples. Ces résultats appellent à considérer le langage non seulement comme un outil de communication, mais aussi comme un produit de l'histoire culturelle et des contraintes cognitives partagées.

Thesis resume

Linguistic laws such as Zipf's law of abbreviation (more frequent words are shorter) and Zipf's law of meaning (more frequent words are more ambiguous) have traditionally been interpreted as evidence of communicative efficiency. On this view, languages evolve under the competing demands of speakers and listeners, resulting in systems optimized for communication. This thesis challenges that interpretation, arguing that such pressures are not necessary to account for these laws. Instead, I propose that these patterns emerge from the cultural transmission of language, shaped by domain-general mechanisms. I test these hypotheses by relying on empirical data from multiple languages, combined with novel inference methods, and the study of para-linguistic cultural phenomena like writing systems or baby names popularity.
I first argue that the law of abbreviation can emerge from a combination of a general pressure for brevity and cultural transmission. To support this claim, in Chapter 1 I surveyed a wide range of animal species and para-linguistic behaviors of humans for evidence of the law of abbreviation, showing that it appears only in culturally transmitted systems. In Chapter 2, I present a computational model based on this argument, which reproduces key properties of the law of abbreviation observed in natural languages. Chapter 3 examines the law of abbreviation in a wide range of writing systems. Next, in Chapter 4, I demonstrate how a general bias for brevity shapes lexical change. I examine thousands of choices made by users of an online platform where participants propose and evaluate synonyms for existing words. Using generative inference in combination with an agent-based model, I show that users' decisions are systematically guided by a bias for brevity. Following this, Chapter 5 shows how the law of meaning can emerge from a drift-like process, in which all words have an equal chance of being semantically extended, independently of their intrinsic properties, using an agent-based model. This model makes an important prediction: older words should be more ambiguous. I validate this prediction using a novel dataset containing thousands of French neologisms that appeared over the last couple of hundred years. Finally, Chapter 6 extends the argument from linguistic laws to the domain of semantics by examining the simplicity-informativeness trade-off in the domain of color words. I show how this phenomenon, usually attributed to communicative pressures, can be accounted for by a domain-general bias for convexity – a conceptual property also found in non-human animals without an elaborate symbolic communication system.
These findings suggest that communicative efficiency is not required to explain the emergence of linguistic laws. Instead, such patterns can result from pressures unrelated to communication, such as cultural transmission or a general bias for simplicity. This calls for a reevaluation of the way we interpret such patterns in natural languages and undermines the assumption that they provide direct evidence of communicative optimization.
In sum, this dissertation proposes a new framework for understanding linguistic laws through the lens of cultural evolution. It provides mechanistic explanations for patterns such as Zipf's law of abbreviation and Zipf's law of meaning, and demonstrates how cultural processes can account for the presence of these laws in para-linguistic systems. This work highlights the importance of mechanistic models and generative inference approaches in studying linguistic phenomena, as these methods help researchers avoid the problem of equifinality, meaning the possibility that observed phenomena may arise from multiple different processes. Together, these findings encourage a broader view of linguistic properties, one that acknowledges language as a tool for communication while also recognizing it as a product of cultural history and domain-general cognitive constraints.