Soutenance de thèse de RISTORCELLI Marion

Titre de thèse

Formation à la prise de parole en public en RV : De la simulation de l'audience virtuelle à l'analyse d'indicateurs comportementaux multimodaux de la performance

Public speaking training in virtual reality: From virtual audience simulation to multimodal behavioral cues of performance

Date

26 November 2025 à 10h00

Adresse

Amphithéâtre Hexagone, Av. de Luminy, 13009 Marseille, Amphithéâtre Hexagone

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Interaction humain-machine,Agent conversationnel animé,Réalité virtuelle,Apprentissage automatique,Analyse automatique du comportement,Prise de parole en public,

Keywords

Human-machine interaction,Embodied conversational agent,Virtual reality,Machine learning,Automatic behavior analysis,Public speaking,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités	Mme OCHS Magalie	Aix Marseille Université
Professeur des universités	Mme GOURANTON Valérie	Institut National des Sciences Appliquées
Professeur des universités	Mme ACHARD Catherine	Sorbonne Université
Maître de conférences	M. CASANOVA Rémy	Aix Marseille Université
Maître de conférences	M. MEYER Alexandre	Université Claude Bernard
Chargé de recherche	M. HOYET Ludovic	Université de Rennes

Résumé de la thèse

Concevoir un outil de formation pour la prise de parole en public en réalité virtuelle nécessite la simulation d'une audience virtuelle. Plusieurs facteurs, liés à l'audience, peuvent influencer la difficulté de la prise de parole en public. Afin de les étudier, nous avons tout d'abord construit une bibliothèque de 50 animations permettant de simuler différentes attitudes sociales à travers le comportement non-verbal des personnages virtuels composant l'audience. Une étude expérimentale en réalité virtuelle, menée auprès de 44 utilisateurs, a permis de mettre en évidence les modalités non verbales prépondérantes pour la simulation d'attitudes sociales variées, à la fois sur le plan affectif et épistémique.
Côté utilisateur, la performance oratoire dépend en grande partie de son comportement multimodal. L'un des enjeux majeurs d'un outil de formation à la prise de parole en public est de pouvoir fournir un retour approprié sur les axes d'amélioration du comportement après la simulation. Pour ce faire, la problématique réside dans l'identification des indicateurs comportementaux multimodaux liés à la performance oratoire. Dans le cadre de cette thèse, nous avons collecté un corpus multimodal de prise de parole en public auprès de 58 utilisateurs. Des mesures objectives du comportement verbal (e.g. débit, volume) et non verbal (e.g. direction du regard, posture) ont été enregistrées à l'aide d'un casque de réalité virtuelle, ainsi que des mesures physiologiques. La performance des participants a fait l'objet d'évaluations subjectives, réalisées à la fois par des experts et par les participants eux-mêmes au moyen de questionnaires standardisés et non standardisés. Des méthodes d'apprentissage automatique ont été appliquées, permettant de mettre en évidence les indicateurs multimodaux prédictifs de la performance auto-rapportée et évaluée par l'expert. L'analyse statistique de ce corpus a par ailleurs permis de réaliser une première évaluation de l'outil de formation à la prise de parole en public développé dans le cadre de cette thèse.

Thesis resume

Designing a training tool for public speaking in virtual reality requires the simulation of a virtual audience. Several audience-related factors can influence the difficulty of public speaking. To study these factors, we first developed a library of 50 animations designed to simulate different social attitudes through the nonverbal behavior of virtual audience members. A virtual reality experimental study, conducted with 44 participants, highlighted the predominant nonverbal modalities involved in simulating a range of social attitudes, both affective and epistemic.
On the user side, public speaking performance largely depends on multimodal behavior. One of the major challenges of a training tool for public speaking is the ability to provide appropriate feedback on behavioral improvement after the simulation. This requires identifying multimodal behavioral cues associated with public speaking performance. As part of this thesis, we collected a multimodal corpus of public speaking performances from 58 participants. Objective measures of verbal behavior (e.g., speech rate, volume) and nonverbal behavior (e.g., gaze direction, posture) were recorded using a virtual reality headset, alongside physiological measures. Participants' performance was subjectively evaluated both by experts and by the participants themselves, using standardized and non-standardized questionnaires. Machine learning methods were applied to identify multimodal cues predictive of both self-reported and expert-assessed performance. Furthermore, statistical analysis of this corpus enabled a first evaluation of the public speaking training tool developed in the framework of this thesis.