Soutenance de thèse de OUCHERIF Sabrine Djedjiga
Titre de thèse
La reconnaissance d'expressions faciales par imagerie
plénoptique et multimodale
Facial Expression Recognition through Light Field and Multimodal Imaging
Résumé de la thèse
Cette thèse porte sur la reconnaissance des expressions faciales à partir d'un système
d'imagerie plénoptique. L'objectif est d'évaluer la richesse et la complémentarité des
informations fournies par les caméras plénoptiques et de déterminer dans quelle
mesure elles améliorent la détection des expressions émotionnelles par rapport aux
capteurs conventionnels (RGB et RGB-D).
Les caméras plénoptiques capturent simultanément les informations spatiales et
angulaires grâce à une matrice de microlentilles placée entre l'objectif principal et
le capteur. Cette technologie génère plusieurs modalités complémentaires : vues de
sous-ouverture (SO), images à mise au point totale (AiF) et cartes de profondeur.
Deux questions structurent ce travail : « Qu'apporte chaque modalité plénoptique
individuellement et comment leur fusion influence-t-elle la précision ? » ; « Dans
quelle mesure une caméra plénoptique améliore-t-elle la reconnaissance par rapport
à un capteur RGB-D tel que Kinect ? ».
Une architecture hybride combinant EfficientNetV2-S pour l'extraction spatiale et
LSTM pour l'analyse angulaire a été développée. Sur la base IST-EURECOM Light Field
Face Database (LFFD), la fusion multimodale atteint 95,18 % ± 5,06 % sous Évaluation
Indépendante aux Sujets.
Deux nouvelles bases ont été créées : Facial Expression Detection using Light Field
Imaging (FED-LFI) et Facial Expression Detection using Kinect (FED-K), permettant
une comparaison directe. Sur FED-LFI, la fusion précoce AiF+profondeur atteint une
macro-F1 de 92,01 % ± 2,30 %. La comparaison révèle l'avantage net des caméras
plénoptiques : +6,28 % en image, +19,07 % en profondeur et +14,29 % pour la fusion
précoce par rapport à Kinect.
Thesis resume
This thesis focuses on facial expression recognition using light field (LF) imaging
systems. The objective is to evaluate the richness and complementarity of information
provided by LF cameras and to determine to what extent they improve emotional
expression detection compared to conventional sensors (RGB and RGB-D).
Light field cameras simultaneously capture spatial and angular information through
a microlens array placed between the main lens and the sensor. This technology
generates several complementary modalities : sub-aperture (SA) views, all-in-focus
(AiF) images, and depth maps.
Two questions structure this work : "What does each light field modality contribute
individually and how does their fusion influence accuracy ?" ; "To what extent does a
LF camera improve recognition compared to an RGB-D sensor such as Kinect ?".
A hybrid architecture combining EfficientNetV2-S for spatial extraction and LSTM
for angular analysis was developed. On the IST-EURECOM Light Field Face Database
(LFFD), multimodal fusion achieves 95.18% ± 5.06% under Subject-Independent
Evaluation.
Two new databases were created : Facial Expression Detection using Light Field
Imaging (FED-LFI) and Facial Expression Detection using Kinect (FED-K), enabling
direct comparison. On FED-LFI, AiF+depth early fusion achieves a macro-F1 of 92.01%
± 2.30%. The comparison reveals the clear advantage of LF cameras : +6.28% in image
quality, +19.07% in depth, and +14.29% for early fusion compared to Kinect.