Soutenance de thèse de DE KERMEL CHARDENON Estelle
Titre de thèse
Etude des variations individuelles des caractéristiques de la parole et de la voix
Study of individual variations in speech and voice characteristics
Résumé de la thèse
Plusieurs paramètres temporels et mélodiques sont présentés comme étant idiosyncratiques (i.e. propres à chaque locuteur) dans divers travaux, reflétant ainsi l'anatomie de chacun sur les signaux de parole. Or, même si l'analyse des paramètres idiosyncratiques pourrait suggérer une identification fiable des locuteurs dans les enregistrements vocaux, la voix et la parole d'un individu fluctuent constamment et sont particulièrement sensibles aux variations, même au fil d'une seule journée.
De nombreuses variations des paramètres temporels (débit articulatoire, modulation de débit articulatoire, gestion des pauses) et des paramètres mélodiques (fréquence fondamentale moyenne et variation de fréquence fondamentale) ont été observées dans les études en fonction du sexe du locuteur, de son âge, de sa qualité de vie, de son état émotionnel. D'autres facteurs, externes à la voix et la parole, influent également ces paramètres idiosyncratiques : la parole conversationnelle dans laquelle nous pouvons remarquer une potentielle adaptation des paramètres d'un locuteur à son interlocuteur ; le laps de temps sur lesquels sont enregistrés les locuteurs, pouvant provoquer des variations sur des enregistrements espacés d'une ou plusieurs années ou sur des enregistrements d'une durée importante pouvant provoquer de la fatigue vocale ; et enfin des variations propres à chacun, avec des locuteurs qui se démarquent des autres sur leur vitesse de parole ou la hauteur de leur voix.
A ce jour, une pluralité d'études fait ressortir les variations inter-locuteurs de ces paramètres mais le manque de connaissance sur les variations intra-locuteur persiste, principalement sur des enregistrements de parole spontanée, ce qui ne nous permet pas de comprendre les comportements vocaux des locuteurs.
L'objectif de cette étude est de regarder les variations inter et intra-locuteur de ces différents paramètres idiosyncratiques en parallèle avec les facteurs pouvant provoquer des variations dans la voix et dans la parole.
Nous étudierons ces variations à travers deux corpus : le Corpus Interactional Data (CID) qui contient 1 heure d'enregistrement de parole spontanée en interaction pour 8 dyades et le corpus Parole AdulTe A TRavers les Ages (PATATRA), un corpus longitudinal avec des enregistrements de parole contrôlée et spontanée annuels pour 11 locuteurs.
Nos résultats montrent que chaque locuteur est unique dans ses variations. Certains locuteurs affichent une grande variabilité sur certains paramètres tout en restant très stables sur d'autres. Ils peuvent également présenter des variations importantes par rapport aux autres locuteurs, tout en maintenant une stabilité dans les variations intra-locuteur. Par ailleurs, bien que certains locuteurs se démarquent sur un paramètre spécifique, cela ne concerne qu'une minorité d'entre eux.
Les variations inter-locuteurs sont nombreuses, quel que soit le paramètre analysé, et apparaissent surtout entre des locuteurs aux différences marquées, comme une vitesse de parole rapide vs. lente. Les variations de paramètres temporels sont proéminentes pour les locuteurs de PATATRA, montrant d'importantes différences entre les enregistrements annuels, ce qui n'est pas le cas lorsque l'on observe les variations des locuteurs du CID au cours d'une heure d'enregistrement. Les variations des paramètres mélodiques sont, quant à elles, largement présentes dans les deux corpus, montrant notamment d'importantes variations chez un même locuteur. Nous observons de nombreuses variations des paramètres temporels et mélodiques liées au style de parole lorsque nous comparons les enregistrements de parole spontanée vs. parole contrôlée dans PATATRA. Ces variations ne sont pas visibles lors de la comparaison des deux styles de parole (parties narratives vs. non narratives) dans le CID. Enfin, un effet de convergence est observé dans certaines dyades, bien qu'il ne soit pas systématique.
Thesis resume
Several temporal and melodic parameters have been identified as idiosyncratic (i.e., unique to each speaker) in various studies, reflecting individual anatomy in speech signals. Although analyzing these idiosyncratic parameters might suggest reliable speaker identification in voice recordings, an individual's voice and speech fluctuate constantly and are highly sensitive to variations, even within a single day.
Many studies have observed variations in temporal parameters (articulatory rate, modulation of articulatory rate, pause management) and melodic parameters (mean fundamental frequency and variation in fundamental frequency) depending on the speaker's gender, age, quality of life, and emotional state. Other external factors also influence these idiosyncratic parameters: conversational speech, where a speaker may adapt their parameters to the interlocutor; the time span over which speakers are recorded, leading to variations in recordings spaced years apart or during lengthy recordings that can cause vocal fatigue; and individual differences, with speakers standing out in terms of speech rate or voice pitch.
To date, numerous studies highlight inter-speaker variations in these parameters, but there is still a lack of knowledge regarding intra-speaker variations, especially in spontaneous speech recordings, which prevents us from fully understanding vocal behavior.
The goal of this study is to examine both inter- and intra-speaker variations in these idiosyncratic parameters, alongside the factors that can cause variations in voice and speech.
We will investigate these variations using two corpora: the Corpus Interactional Data (CID), which contains 1 hour of spontaneous speech recordings in interaction from 8 dyads, and the Parole AdulTe A TRavers les Ages (PATATRA) corpus, a longitudinal dataset with annual recordings of controlled and spontaneous speech for 11 speakers.
Our results show that each speaker is unique in their variations. Some speakers exhibit high variability in certain parameters while remaining very stable in others. They may also show significant differences from other speakers while maintaining stability in their own intra-speaker variations. Furthermore, although some speakers stand out in a specific parameter, this only applies to a minority of them.
Inter-speaker variations are numerous across all parameters and are particularly noticeable among speakers with marked differences, such as fast versus slow speech rates. Temporal parameter variations are prominent for the speakers in PATATRA, showing significant differences between annual recordings, which is not the case for CID speakers during an hour-long recording. Melodic parameter variations are widespread in both corpora, showing considerable variations even within the same speaker. We observe many temporal and melodic parameter variations related to speech style when comparing spontaneous speech to controlled speech in PATATRA. These variations are not visible when comparing the two speech styles (narrative vs. non-narrative parts) in CID. Finally, convergence effects are observed in some dyads, although not systematically.