Soutenance de thèse de CAUZINILLE Jules
Titre de thèse
Modèles de parole auto-supervisés et vocalisations animales : de l'apprentissage par transfert à l'évolution de la communication acoustique entre les espèces
What self-supervised speech models know about animal sounds: Deep transfer learning and the evolution of acoustic communication across species
Résumé de la thèse
Cette thèse s'articule sur une approche innovante dans l'étude de la communication vocale basée sur l'apprentissage auto-supervisé de représentations acoustiques. Au vu de l'influence croissante des grands modèles d'apprentissage profond en traitement du son, elle questionne la capacité de modèles pré-entraînés sur de la parole à produire des représentations bioacoustiques.
Les humains et leurs plus proches cousins (les primates) partagent un ensemble de similitudes, que ce soit d'un point de vue génétique comme dans leurs mécanismes de perception et de production vocale, ainsi que dans leurs capacités cognitives et leurs comportements communicatifs. Néanmoins, les approches abordées dans la littérature autour du traitement automatique de vocalisations de primates par apprentissage automatique semblent relativement éloignées des dernières avancées en matière de traitement de la parole.
À partir de ces observations, une première solution visant à développer l'apprentissage automatique de vocalisations de primates consiste à étudier les capacités de transfert de connaissances de représentations latentes auto-supervisées pré-entraînées sur de la parole. Après une revue de littérature approfondie sur la recherche en bioacoustique computationnelle relative aux primates ainsi qu'un état de l'art sur les méthodes récentes de traitement automatique de la parole, nous menons une première expérience basée sur l'hypothèse suivante : le transfert de connaissance depuis la parole vers les primates non-humains présente un certain avantage, en comparaison avec le pré-entraînement sur des vocalisations d'oiseaux ou des données acoustiques généralistes, en raison de leur proximité phylogénétique et des similitudes qu'elle implique dans leurs systèmes de communication vocale.
Après avoir discuté cette hypothèse initiale et ses implications potentielles dans l'étude de l'évolution du langage, nous étendons notre approche à une perspective plus systématique : les représentations basées sur la parole peuvent-elles encoder des informations bioacoustiques indépendamment de la proximité phylogénétique entre les humains et un taxon cible ? Bien qu'ils ne réfutent pas nécessairement notre hypothèse initiale, les résultats obtenus sur un ensemble de 11 tâches et espèces à différents niveaux de proximité avec l'humain montrent une tendance générale de certains modèles de parole à atteindre des performances compétitives en classification bioacoustique.
Nous discutons les variations de performance observées, de la robustesse de ces modèles au bruit environnant, à l'overlap de vocalisations et aux plages fréquentielles jusqu'à l'effet de la taille du modèle ou d'un pré-entraînement multilingue.
Enfin, nous abordons les perspectives théoriques et pratiques qui émergent de nos observations. Premièrement, les architectures propres aux modèles de parole auto-supervisés semblent générer de bonnes représentations bioacoustiques, grâce à la disponibilité de grands jeux de données de parole, donc à la taille conséquente de ces architectures, et au fait qu'elles soient directement conçues pour encoder des informations contextuelles de haut niveau à partir d'un flux acoustique continu grâce à des mécanismes d'attention adaptés aux données vocales. Deuxièmement, l'efficacité du transfert de connaissances de la parole aux sons d'animaux semble pouvoir être justifiée par des considérations liées à l'évolution convergente de la communication acoustique et à l'existence de stratégies communes et de principes fondamentaux partagés par toutes les espèces animales qui communiquent par le son.
En conclusion, ce travail vise à introduire à la fois l'utilisation de modèles de parole dans l'effort de recherche sur les textit{foundation models} en bioacoustique ainsi que l'idée qu'une étude plus approfondie de leurs capacités de transfert de connaissances permet d'adopter de nouvelles perspectives sur la phylogénie et l'évolution de la communication vocale.
Thesis resume
This thesis aims at introducing a novel approach to vocal communication studies through the use of self-supervised representation learning. With the advent of large pre-trained models and their prolific usage in sound processing, we ask whether and how speech-based models may provide suitable representations of bioacoustic information. Humans and their closest living relatives (primates) share an array of commonalities, from their genetic proximity to similarities in their vocal perception and production mechanisms, as well as comparable cognitive abilities and communicative behaviors. Yet, the way primate vocalizations have been handled with machine learning in the recent literature seems to be rather disconnected from the latest speech processing breakthroughs.
From these observations, an initial solution aimed at advancing primate vocalization processing with machine learning is to explore the transfer learning capabilities of speech-based self-supervised latent representations. After a thorough review of primates computational bioacoustics literature and an overview of speech processing state-of-the-art solutions, we conduct a first empirical study aimed at discussing the following hypothesis: transfer learning from speech to non-human primates shows a certain advantage compared to bird vocalizations or general audio pre-training because of phylogenetic similarities in their vocal communication systems.
After discussing the robustness of this initial hypothesis and its potential implications in the study of the evolution of language, we extend our approach to a more systematic perspective: can speech-based representations encode bioacoustic information across species, regardless of the phylogenetic similarity between humans and a target taxon? Although not necessarily disproving our initial hypothesis, results on a set of 11 different tasks and species with various degrees of proximity to humans show the general tendency of some speech models to transfer well to bioacoustic classification. We investigate the reasons for the observed performance variations, from background noise-, vocalization overlap-, and pitch-related robustness to the effect of varying model sizes or multilingual pre-training.
Finally, we discuss the theoretical and practical perspectives emerging from these initial observations. Firstly, frozen self-supervised speech models' architectures are good bioacoustic representation learners due to speech data availability, their consequent sizes, as well as the fact that they are designed to encode high-level contextual information from continuous streams of sound through attention mechanisms adapted to vocal data. Secondly, the effectiveness of transferring knowledge from speech to animal sounds might be explained through a set of hypotheses revolving around the convergent evolution of acoustic communication and shared cross-species fundamentals in all sound-producing animals.
In conclusion, this work aims at introducing both the inclusion of speech models in the quest for bioacoustic foundation models and the idea that further investigation of their transfer-learning abilities might help us take a new perspective on the phylogeny and evolution of vocal communication across species.