Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Mathématiques

Etablissement

Aix-Marseille Université

Mots Clés

Classification,Apprentissage statistique,Développement du langage,Statistique bayésienne,Analyse Topologique des Données,

Keywords

Clustering,Machine learning,Language development,Bayesian statistics,Topological Data Analysis,

Titre de thèse

Classification non-supervisée des productions vocales chez le bébé humain entre 0 et 12 mois
Unsupervised classification of vocal productions of human babies between 0 and 12 months

Date

Lundi 11 Décembre 2023 à 15:00

Adresse

3 place Victor Hugo, Campus Saint-Charles, Amphithéâtre Massiani, 13003 Marseille 11/12/2023

Jury

Directeur de these M. Pierre PUDLO Aix Marseille Université
Rapporteur M. Bertrand MICHEL École Centrale de Nantes
Rapporteur Mme Florence LEVRERO Université Jean Monnet
Examinateur Mme Marianne CLAUSEL Université de Lorraine
Président M. Vincent VANDEWALLE Université Côte d'Azur
CoDirecteur de these M. Jean-Marc FREYERMUTH Aix-Marseille Université
Co-encadrant de these M. Samuel TRONçON Résurgences R&D

Résumé de la thèse

Aux alentours de son premier anniversaire, l'enfant humain prononce son premier mot. Cette première production n'est pourtant pas le début de son apprentissage de la langue. Celui-ci commence dès sa naissance. En effet, tout au long de sa première année, l'enfant développe des capacités motrices lui permettant de produire une gamme de vocalisations de plus en plus large, en les calibrant au langage qui l'entoure. Les moyens d'enregistrements et de stockage récents permettent de construire de nouvelles bases de données de vocalisations produites tout au long de l'année. Nous construisons dans cette thèse une telle base et présentons trois contributions pour aider à étudier la question des vocalisations infantiles pré-langagières. Nous proposons d'abord une méthodologie pour détecter et classifier automatiquement les vocalisations dans les enregistrements audios massifs. Elle permet l'apprentissage d'un réseau de neurones à partir d'un peu plus d'une heure de données étiquetées, qui fait ensuite le travail d'extraction de vocalisations d'enregistrements naturels massifs. Elle a été appliquée sur deux ensembles d'enregistrements, prouvant son adaptabilité : les enregistrements de bébé récoltés pour ce travail de thèse ainsi que des enregistrements d'un mois d'un enclos de singe, permettant de produire deux nouveaux ensembles de données, un de vocalisation de bébé et un de vocalisation de singe. Nous avons rendu ce dernier librement accessible, tout comme le code permettant de reproduire la méthodologie. Cette contribution a donné lieu à un papier, actuellement soumis et accessible en preprint, qui a été présenté sous forme de poster à la conférence Statlearn 2023 à Montpellier, France, et à l'IBAC de 2023 à Sapporo, Japon. Nous emmenons ensuite des preuves empiriques de l'intérêt d'incorporer une information topologique dans la représentation d'un signal vocal humain pour une tâche de classification. Nous quantifions la plus-value d'une approche topologiquement augmentée et les différences selon l'objet représentant une vocalisation identique. On montre que l'information topologique est complémentaire à une information fréquentielle et que les homologies persistantes calculées sur chaque objet sont complémentaires entre elles. Pour répondre à cette question, nous avons construit une nouvelle base d'enregistrements de 11 200 voyelles, que nous avons rendu librement accessible. Nous avons comparé les résultats sur trois tâches de classification selon que la représentation du signal est topologiquement augmentée ou non, ainsi que la meilleure façon de vectoriser l'information contenue dans un diagramme de persistance. Ce travail a été présenté oralement à la conférence de la SFdS de 2023 à Bruxelles, Belgique. Enfin, nous avons classifié de manière non-supervisée, par une modélisation bayésienne non-paramétrique, les vocalisations produites par un enfant durant sa première année de vie, à partir d'une représentation topologiquement augmentée du signal. On découvre huit classes de vocalisations, dont la proportion de production varie selon le développement, et avec des caractéristiques fréquentielles différentes.

Thesis resume

Around her first birthday, the human child utters her first word. This first utterance is not, however, the beginning of language learning. This begins at birth. Throughout the first year of life, children develop motor skills that enable them to produce an increasingly wide range of vocalizations, calibrated to the surrounding language. Recent recording and storage systems have made it possible to build new databases of vocalizations produced throughout the year. In this thesis, we build such a database and present three contributions to help study the question of pre-language infant vocalizations. First, we propose a methodology for automatically detecting and classifying vocalizations in massive audio recordings. It enables a neural network to be trained from just over an hour's worth of labeled data, which then does the job of extracting vocalizations from massive natural recordings. It has been applied to two sets of recordings, proving its adaptability: the baby recordings collected for this thesis and one month's recordings from a monkey enclosure, producing two new data sets, one of baby vocalizations and one of monkey vocalizations. We made it freely accessible, as is the code used to reproduce the methodology. This contribution has resulted in a paper, currently submitted and available as a preprint, which was presented as a poster at the Statlearn 2023 conference in Montpellier, France, and at the IBAC 2023 in Sapporo, Japan. We then provide empirical evidence of the value of incorporating topological information into the representation of a human speech signal for a classification task. We quantify the added value of a topologically augmented approach and the differences depending on the object representing an identical vocalization. We show that topological information is complementary to frequency information, and that the persistent homology computed on each object is complementary to each other. To answer this question, we built a new, freely accessible database of 11,200 vowel recordings. We compared the results on three classification tasks, depending on whether the signal representation is topologically augmented or not, as well as the best way to vectorize the information contained in a persistence diagram. This work was presented orally at the SFdS 2023 conference in Brussels, Belgium. Finally, we performed clustering, using non-parametric Bayesian modeling, of the vocalizations produced by a child during its first year of life, based on a topologically augmented representation of the signal. Eight classes of vocalizations were discovered, with different proportions of production depending on development, and with different frequency characteristics.