Soutenance de thèse de JEREMIE Jean-Nicolas

Titre de thèse

Foveal Retinotopy and Dual Pathways: A Computational Model for Active Visual Search

Rétinotopie fovéale et traitement visuel par les voies dorsale et ventrale : un modèle pour la recherche visuelle active

Date

10 October 2025 à 13h30

Adresse

Faculté de Médecine de la Timone 27 Boulevard Jean Moulin, 13005 Marseille 5ème, Salle Henri Gastaut, (INT)

Ecole doctorale

Sciences du Vivant

Specialité

SCIENCES DU VIVANT Neurosciences

Etablissement

Aix-Marseille Université

Mots clés

Recherche visuelle,Voie visuel ventrale,Voie visuel dorsale,Réseau neuronal convolutifs profonds,Rétinotopie fovéale,Vision active,

Keywords

Visual search,Dual visual pathways,Deep Convolutional Neuronal Network,Foveal retinotopy,Active vision,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Directeur de recherche	M. PERRINET Laurent	INT (UMR 7289) Aix Marseille Université
Chaire de professeur junior	M. SICRE Ronan	IRIT (UMR5505) Université de Toulouse III
Directeur de recherche	M. AUCOUTURIER Jean-Julien	FEMTO-ST (UMR 6174) Université de Bourgogne Franche-Comté
Directeur de recherche	M. RUFFIER Franck	Lab-STICC (UMR6285) Université de Brest Occidentale
Chaire de professeur junior	M. GILSON Matthieu	INT (UMR 7289) Aix Marseille Université
Directrice de recherche	Mme SERRANO-GOTARREDONA Teresa	IMSE-CNM-CSIC Universidad de Sevilla
Maître de conférences	M. DAUCé Emmanuel	Centrale Méditerranée

Résumé de la thèse

Cette thèse étudie la recherche visuelle à travers le prisme des deux voies visuelles
identifiées dans les systèmes biologiques : la voie ventrale, impliquée dans la recon-
naissance des objets, et la voie dorsale, responsable de la localisation spatiale et de
la planification des saccades. S'inspirant à la fois des neurosciences et de la vision
artificielle, nous proposons un cadre computationnel intégrant des réseaux neuronal
convolutifs profonds (DCNN) dans une architecture biologiquement plausible, fondée
sur la rétinotopie fovéale.
Des travaux antérieurs ont démontré que l'intégration de la planification des sac-
cades améliorait les performances de catégorisation de chiffres dans un environ-
nement contrôlé. S'appuyant sur cette base, l'objectif principal de cette thèse est
d'étendre ce cadre théorique à des images naturelles dans des contextes plus écologi-
quement valides.
Nos contributions sont les suivantes : (1) Nous proposons un nouveau cadre de
travail pour l'entraînement et l'évaluation des DCNN, basé sur la sémantique sous-
jacente aux labels initialement définis dans la communauté de la recherche compu-
tationnelle, ce qui permet de définir des tâches écologiques spécifiques ; (2) nous
rapprochons les modèles artificiels des substrats biologiques en soulignant le rôle
crucial de la retinotopie fovéales pour une catégorisation robuste et une localisation
précise. (3) Nous approfondissons la connaissance de l'interaction entre la catégori-
sation et la localisation en proposant un ensemble de résultats structuré autour de
cette relation, afin de guider la conception d'un modèle plausible de la voie dorsale ;
(4) Enfin, en nous appuyant sur ces résultats, nous proposons une première modé-
lisation de la voie dorsale visant à développer des systèmes de vision active à la fois
interprétables, grâce à des représentations modulables et spatialement structurées,
et efficaces, grâce à la planification de saccades permettant de réduire les coûts de
calcul liés à l'inférence.
Dans l'ensemble, cette thèse apporte plusieurs éléments : elle enrichit le modèle
de vision artificielle des deux voies majeures impliquées dans la recherche visuelle, elle
permet de développer des outils de vision active interprétables et elle fournit un cadre
pour étudier les hypothèses biologiques relatives à la spécialisation fonctionnelle des
aires cérébrales dédiées à la vision chez l'être humain.

Thesis resume

This thesis investigates visual search through the lens of the dual visual pathways
found in biological systems : the ventral (“what”) pathway, involved in object recog-
nition, and the dorsal (“where”) pathway, responsible for spatial localisation and
saccadic planning. Drawing from both neuroscience and computer vision, we pro-
pose a computational framework that integrates deep convolutional neural networks
(DCNNs) within a biologically inspired architecture grounded in foveal retinotopy.
As a proof of concept, prior work has demonstrated that incorporating saccadic
planning improves digit categorisation performance in a controlled environment.
Building upon this foundation, the primary objective of this thesis is to extend the
computational framework to natural images in more ecologically valid settings.
Our contributions are as follows : (1) We introduce a novel framework for training
and evaluating DCNNs using semantically grounded, task-specific labels ; (2) We
bridge the gap between artificial models and biological substrates by emphasizing the
role of foveal retinotopy in robust object categorisation and precise localisation ; (3)
We disentangle the interplay between categorisation and localisation by proposing
a novel "localisation-frame" dataset, aimed at guiding the design of a biologically
plausible dorsal stream model ; and (4) We present an initial model of the dorsal
pathway, leveraging the new dataset to develop interpretable and efficient active
vision systems—where interpretability is achieved through modular and spatially
structured representations, and efficiency is reflected in reduced computational cost
during inference with saccade planning.
Overall, this thesis extends the dual-stream computational paradigm for visual
search, contributes tools for explainable active vision, and offers a platform to explore
hypotheses about functional specialisation in the human visual cortex.