Soutenance de thèse de OUCHERIF Sabrine Djedjiga


Titre de thèse

La reconnaissance d'expressions faciales par imagerie
plénoptique et multimodale

Facial Expression Recognition through Light Field and Multimodal Imaging

Date

24 November 2025 à 14h00

Adresse

163 Av. de Luminy, 13009 Marseille IUT Réseaux et Télécoms (R&T) Marseille Luminy, Amphi

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

caméras plénoptiques,reconnaissance d'expressions faciales,fusion multimodale,apprentissage profond,

Keywords

light field cameras,facial expression recognition,multimodal fusion,deep learning,

Jury

Jury de thèse
Qualité Nom Etablissement
Professeur M. TORRESANI Bruno Aix-Marseille Université
Professeur M. CUDEL Christophe Université de Haute Alsace
Professeur M. DJERABA Chaabane Université de Lille
Maître de conférences M. ANDRADE-MIRANDA Gustavo Ecoles des mines d'Ales
Maître de conférences Mme MALLOR Elodie Aix-Marseille Université
Maître de conférences M. NAWAF Mohamad Motasem Aix-Marseille Université
Professeur M. NICOD Lionel Aix-Marseille Université
Professeur M. NGUYEN Thanh Phuong Université Côte d'Azur

Résumé de la thèse

Cette thèse porte sur la reconnaissance des expressions faciales à partir d'un système
d'imagerie plénoptique. L'objectif est d'évaluer la richesse et la complémentarité des
informations fournies par les caméras plénoptiques et de déterminer dans quelle
mesure elles améliorent la détection des expressions émotionnelles par rapport aux
capteurs conventionnels (RGB et RGB-D).
Les caméras plénoptiques capturent simultanément les informations spatiales et
angulaires grâce à une matrice de microlentilles placée entre l'objectif principal et
le capteur. Cette technologie génère plusieurs modalités complémentaires : vues de
sous-ouverture (SO), images à mise au point totale (AiF) et cartes de profondeur.
Deux questions structurent ce travail : « Qu'apporte chaque modalité plénoptique
individuellement et comment leur fusion influence-t-elle la précision ? » ; « Dans
quelle mesure une caméra plénoptique améliore-t-elle la reconnaissance par rapport
à un capteur RGB-D tel que Kinect ? ».
Une architecture hybride combinant EfficientNetV2-S pour l'extraction spatiale et
LSTM pour l'analyse angulaire a été développée. Sur la base IST-EURECOM Light Field
Face Database (LFFD), la fusion multimodale atteint 95,18 % ± 5,06 % sous Évaluation
Indépendante aux Sujets.
Deux nouvelles bases ont été créées : Facial Expression Detection using Light Field
Imaging (FED-LFI) et Facial Expression Detection using Kinect (FED-K), permettant
une comparaison directe. Sur FED-LFI, la fusion précoce AiF+profondeur atteint une
macro-F1 de 92,01 % ± 2,30 %. La comparaison révèle l'avantage net des caméras
plénoptiques : +6,28 % en image, +19,07 % en profondeur et +14,29 % pour la fusion
précoce par rapport à Kinect.


Thesis resume

This thesis focuses on facial expression recognition using light field (LF) imaging
systems. The objective is to evaluate the richness and complementarity of information
provided by LF cameras and to determine to what extent they improve emotional
expression detection compared to conventional sensors (RGB and RGB-D).
Light field cameras simultaneously capture spatial and angular information through
a microlens array placed between the main lens and the sensor. This technology
generates several complementary modalities : sub-aperture (SA) views, all-in-focus
(AiF) images, and depth maps.
Two questions structure this work : "What does each light field modality contribute
individually and how does their fusion influence accuracy ?" ; "To what extent does a
LF camera improve recognition compared to an RGB-D sensor such as Kinect ?".
A hybrid architecture combining EfficientNetV2-S for spatial extraction and LSTM
for angular analysis was developed. On the IST-EURECOM Light Field Face Database
(LFFD), multimodal fusion achieves 95.18% ± 5.06% under Subject-Independent
Evaluation.
Two new databases were created : Facial Expression Detection using Light Field
Imaging (FED-LFI) and Facial Expression Detection using Kinect (FED-K), enabling
direct comparison. On FED-LFI, AiF+depth early fusion achieves a macro-F1 of 92.01%
± 2.30%. The comparison reveals the clear advantage of LF cameras : +6.28% in image
quality, +19.07% in depth, and +14.29% for early fusion compared to Kinect.