Soutenance de thèse de RISTORCELLI Marion
Titre de thèse
Formation à la prise de parole en public en RV : De la simulation de l'audience virtuelle à l'analyse d'indicateurs comportementaux multimodaux de la performance
Public speaking training in virtual reality: From virtual audience simulation to multimodal behavioral cues of performance
Résumé de la thèse
Concevoir un outil de formation pour la prise de parole en public en réalité virtuelle nécessite la simulation d'une audience virtuelle. Plusieurs facteurs, liés à l'audience, peuvent influencer la difficulté de la prise de parole en public. Afin de les étudier, nous avons tout d'abord construit une bibliothèque de 50 animations permettant de simuler différentes attitudes sociales à travers le comportement non-verbal des personnages virtuels composant l'audience. Une étude expérimentale en réalité virtuelle, menée auprès de 44 utilisateurs, a permis de mettre en évidence les modalités non verbales prépondérantes pour la simulation d'attitudes sociales variées, à la fois sur le plan affectif et épistémique.
Côté utilisateur, la performance oratoire dépend en grande partie de son comportement multimodal. L'un des enjeux majeurs d'un outil de formation à la prise de parole en public est de pouvoir fournir un retour approprié sur les axes d'amélioration du comportement après la simulation. Pour ce faire, la problématique réside dans l'identification des indicateurs comportementaux multimodaux liés à la performance oratoire. Dans le cadre de cette thèse, nous avons collecté un corpus multimodal de prise de parole en public auprès de 58 utilisateurs. Des mesures objectives du comportement verbal (e.g. débit, volume) et non verbal (e.g. direction du regard, posture) ont été enregistrées à l'aide d'un casque de réalité virtuelle, ainsi que des mesures physiologiques. La performance des participants a fait l'objet d'évaluations subjectives, réalisées à la fois par des experts et par les participants eux-mêmes au moyen de questionnaires standardisés et non standardisés. Des méthodes d'apprentissage automatique ont été appliquées, permettant de mettre en évidence les indicateurs multimodaux prédictifs de la performance auto-rapportée et évaluée par l'expert. L'analyse statistique de ce corpus a par ailleurs permis de réaliser une première évaluation de l'outil de formation à la prise de parole en public développé dans le cadre de cette thèse.
Thesis resume
Designing a training tool for public speaking in virtual reality requires the simulation of a virtual audience. Several audience-related factors can influence the difficulty of public speaking. To study these factors, we first developed a library of 50 animations designed to simulate different social attitudes through the nonverbal behavior of virtual audience members. A virtual reality experimental study, conducted with 44 participants, highlighted the predominant nonverbal modalities involved in simulating a range of social attitudes, both affective and epistemic.
On the user side, public speaking performance largely depends on multimodal behavior. One of the major challenges of a training tool for public speaking is the ability to provide appropriate feedback on behavioral improvement after the simulation. This requires identifying multimodal behavioral cues associated with public speaking performance. As part of this thesis, we collected a multimodal corpus of public speaking performances from 58 participants. Objective measures of verbal behavior (e.g., speech rate, volume) and nonverbal behavior (e.g., gaze direction, posture) were recorded using a virtual reality headset, alongside physiological measures. Participants' performance was subjectively evaluated both by experts and by the participants themselves, using standardized and non-standardized questionnaires. Machine learning methods were applied to identify multimodal cues predictive of both self-reported and expert-assessed performance. Furthermore, statistical analysis of this corpus enabled a first evaluation of the public speaking training tool developed in the framework of this thesis.