Soutenance de thèse de JEREMIE Jean-Nicolas
Titre de thèse
Foveal Retinotopy and Dual Pathways: A Computational Model for Active Visual Search
Rétinotopie fovéale et traitement visuel par les voies dorsale et ventrale : un modèle pour la recherche visuelle active
Résumé de la thèse
Cette thèse étudie la recherche visuelle à travers le prisme des deux voies visuelles
identifiées dans les systèmes biologiques : la voie ventrale, impliquée dans la recon-
naissance des objets, et la voie dorsale, responsable de la localisation spatiale et de
la planification des saccades. S'inspirant à la fois des neurosciences et de la vision
artificielle, nous proposons un cadre computationnel intégrant des réseaux neuronal
convolutifs profonds (DCNN) dans une architecture biologiquement plausible, fondée
sur la rétinotopie fovéale.
Des travaux antérieurs ont démontré que l'intégration de la planification des sac-
cades améliorait les performances de catégorisation de chiffres dans un environ-
nement contrôlé. S'appuyant sur cette base, l'objectif principal de cette thèse est
d'étendre ce cadre théorique à des images naturelles dans des contextes plus écologi-
quement valides.
Nos contributions sont les suivantes : (1) Nous proposons un nouveau cadre de
travail pour l'entraînement et l'évaluation des DCNN, basé sur la sémantique sous-
jacente aux labels initialement définis dans la communauté de la recherche compu-
tationnelle, ce qui permet de définir des tâches écologiques spécifiques ; (2) nous
rapprochons les modèles artificiels des substrats biologiques en soulignant le rôle
crucial de la retinotopie fovéales pour une catégorisation robuste et une localisation
précise. (3) Nous approfondissons la connaissance de l'interaction entre la catégori-
sation et la localisation en proposant un ensemble de résultats structuré autour de
cette relation, afin de guider la conception d'un modèle plausible de la voie dorsale ;
(4) Enfin, en nous appuyant sur ces résultats, nous proposons une première modé-
lisation de la voie dorsale visant à développer des systèmes de vision active à la fois
interprétables, grâce à des représentations modulables et spatialement structurées,
et efficaces, grâce à la planification de saccades permettant de réduire les coûts de
calcul liés à l'inférence.
Dans l'ensemble, cette thèse apporte plusieurs éléments : elle enrichit le modèle
de vision artificielle des deux voies majeures impliquées dans la recherche visuelle, elle
permet de développer des outils de vision active interprétables et elle fournit un cadre
pour étudier les hypothèses biologiques relatives à la spécialisation fonctionnelle des
aires cérébrales dédiées à la vision chez l'être humain.
Thesis resume
This thesis investigates visual search through the lens of the dual visual pathways
found in biological systems : the ventral (“what”) pathway, involved in object recog-
nition, and the dorsal (“where”) pathway, responsible for spatial localisation and
saccadic planning. Drawing from both neuroscience and computer vision, we pro-
pose a computational framework that integrates deep convolutional neural networks
(DCNNs) within a biologically inspired architecture grounded in foveal retinotopy.
As a proof of concept, prior work has demonstrated that incorporating saccadic
planning improves digit categorisation performance in a controlled environment.
Building upon this foundation, the primary objective of this thesis is to extend the
computational framework to natural images in more ecologically valid settings.
Our contributions are as follows : (1) We introduce a novel framework for training
and evaluating DCNNs using semantically grounded, task-specific labels ; (2) We
bridge the gap between artificial models and biological substrates by emphasizing the
role of foveal retinotopy in robust object categorisation and precise localisation ; (3)
We disentangle the interplay between categorisation and localisation by proposing
a novel "localisation-frame" dataset, aimed at guiding the design of a biologically
plausible dorsal stream model ; and (4) We present an initial model of the dorsal
pathway, leveraging the new dataset to develop interpretable and efficient active
vision systems—where interpretability is achieved through modular and spatially
structured representations, and efficiency is reflected in reduced computational cost
during inference with saccade planning.
Overall, this thesis extends the dual-stream computational paradigm for visual
search, contributes tools for explainable active vision, and offers a platform to explore
hypotheses about functional specialisation in the human visual cortex.