Soutenance de thèse de DELBOSC Alice
Titre de thèse
Génération de comportements faciaux non verbaux pour les Agents Socialement Interactifs : une approche générative par réseaux antagonistes convolutionnels
Generation of facial nonverbal behavior for Socially Interactive Agents: A convolutional generative adversarial approach
Résumé de la thèse
Pour communiquer, les humains combinent naturellement gestes, regards, mouvements de tête et expressions faciales lors d'interactions en face à face. Les Agents Socialement Interactifs (ASI) visent à reproduire ces comportements multimodaux afin de faciliter la communication humain-machine. Parmi les indices non verbaux, les comportements faciaux jouent un rôle particulièrement crucial : ils contribuent à l'intelligibilité, au naturel de l'interaction, à l'expression affective et à la formation des impressions, mais peuvent également susciter un sentiment d'étrangeté lorsqu'ils sont inappropriés ou mal synchronisés. Cette thèse porte sur la génération automatique de comportements faciaux non verbaux crédibles pour les ASI, avec les mouvements de tête, la direction du regard et les expressions faciales.
Plusieurs défis doivent être relevés pour atteindre cet objectif, à commencer par la génération conjointe de ces modalités faciales d'une manière cohérente avec leur coordination naturelle dans la communication humaine. La première contribution de cette thèse est FaceGen, un modèle encodeur-décodeur fondé sur des réseaux antagonistes génératifs convolutionnels, conçu pour synthétiser conjointement les mouvements de tête, le regard et les expressions faciales fondées sur le Facial Action Coding System (FACS) lors des phases de parole. FaceGen génère les signaux non verbaux directement à partir du signal de parole, avant de les utiliser pour animer un agent virtuel. Entraîné et évalué sur le corpus TRUENESS, impliquant des acteurs professionnels jouant des interactions dyadiques mettant en scène des situations ordinaires de sexisme et de racisme, le modèle est validé au moyen d'évaluations objectives et subjectives. Les résultats montrent que nos choix de modélisation améliorent significativement la crédibilité perçue de l'agent et sa coordination avec la parole.
Un second défi consiste à modéliser la manière dont les facteurs affectifs et interactionnels façonnent les comportements faciaux, tout en permettant un contrôle explicite de l'attitude affective exprimée par l'agent. La thèse répond à cet enjeu avec FaceAttGen, une extension de FaceGen capable de produire des comportements faciaux non verbaux affectifs durant les phases de parole et d'écoute. FaceAttGen se distingue par sa capacité à être conditionné sur des attitudes sociales tout en générant des comportements faciaux appropriés au contexte interactionnel. En s'appuyant sur une stratégie d'apprentissage semi-supervisée, le modèle apprend à reproduire deux attitudes sociales contrastées : la colère chaude et la conciliation. Des évaluations objectives valident les extensions architecturales du modèle, tandis que des études perceptives confirment sa capacité à moduler l'expression affective des comportements générés.
Une autre contribution de cette thèse concerne le développement d'une méthodologie d'évaluation objective mieux alignée sur les jugements perceptifs humains de crédibilité et de coordination que les métriques habituellement utilisées dans le domaine. À cette fin, nous proposons une approche qui combine plusieurs métriques objectives en un score composite. Les résultats d'une étude perceptive, comparés aux mesures objectives, montrent que ce score composite corrèle plus fortement avec les jugements humains que les métriques existantes et qu'il permet de guider l'optimisation des architectures et hyperparamètres des modèles.
Enfin, la thèse examine la dimension éthique de la génération de comportements faciaux, en se concentrant particulièrement sur les biais de genre. Après avoir démontré la persistance de tels biais autant dans les données réelles que dans les sorties des modèles génératifs, la thèse introduit FairGenderGen, un modèle qui génère des comportements faciaux non verbaux à partir de la parole tout en atténuant les biais de genre grâce à une méthode d'adaptation de domaine fondée sur l'inversion du gradient.
Thesis resume
To communicate, humans naturally combine gestures, gaze, head movements, and facial expressions during face-to-face interaction. Socially Interactive Agents (SIAs) aim to reproduce these multimodal behaviors to facilitate human–machine communication. Among nonverbal cues, facial behaviors are particularly critical: they contribute to intelligibility, naturalness, affective expression, and impression formation, but can also trigger uncanniness when inappropriate or poorly synchronized. This thesis focuses on the automatic generation of believable facial nonverbal behaviors for SIAs, encompassing head movements, gaze direction, and facial expressions.
Several challenges must be addressed to achieve this goal, beginning with the joint generation of facial modalities in a manner consistent with their natural coordination in human communication. The first contribution of this thesis is FaceGen, an encoder–decoder model based on convolutional generative adversarial networks, designed to jointly synthesize head motion, gaze, and FACS-based facial expressions during speaking phases. FaceGen generates facial nonverbal signals directly from the speech signal, which are then used to animate a virtual agent. Trained and evaluated on the TRUENESS corpus, featuring professional actors enacting dyadic interactions involving ordinary sexism and racism, the model is validated using both objective and subjective evaluations. Results show that our modeling choices significantly enhance the perceived believability of the agent and its coordination with speech.
A second challenge lies in modeling how affective and interactional factors shape facial behavior, while enabling explicit control over the affective attitude expressed by the agent. The thesis addresses this through FaceAttGen, an extension of FaceGen formulated as a conditional generative model that produces affective facial nonverbal behaviors during both speaking and listening phases. FaceAttGen is original in its ability to be conditioned on social attitudes while generating facial behaviors that remain affectively appropriate to the unfolding interaction context. Using a semi-supervised learning strategy, the model learns to reproduce two contrasted social attitudes: hot anger and conciliation. Objective evaluations validate the architectural extensions introduced in this model, and subjective studies confirm its ability to shape the affective variability of the generated behaviors.
A further contribution of the thesis concerns the development of an objective evaluation framework that better aligns with human perceptual judgments of believability and appropriateness than the commonly used objective metrics in the field. To this end, we propose an evaluation methodology that combines multiple metrics into a composite score. Results from a perceptual study, compared with the objective measures, show that this composite framework correlates more strongly with human judgments than existing metrics and supports the optimization of model architectures and hyperparameters.
Finally, the ethical dimension of generated behaviors is examined, with a particular focus on gender bias. After demonstrating the persistence of such biases both in real data and in the outputs of generative models, the thesis introduces FairGenderGen, a model that generates facial nonverbal behaviors from speech while attenuating gender bias through gradient-reversal domain adaptation.