Soutenance de thèse de UTEZA Paul

Titre de thèse

Réseaux neuronaux pour la représentation d'environnements 3D

Neural networks for the representation of 3D environments

Date

24 septembre 2025 à 14h00

Adresse

Centre de Physique Théorique Campus de Luminy, Case 907 163 Avenue de Luminy 13288 Marseille Cedex 9, France, Amphi 5

Ecole doctorale

Physique et Sciences de la Matière

Specialité

PHYSIQUE & SCIENCES DE LA MATIERE - Spécialité : BIOPHYSIQUE

Etablissement

Aix-Marseille Université

Mots clés

Environnements 3D,Réseaux neuronaux,IA,Neurosciences,Navigation,

Keywords

3D environments,Neural networks,AI,Neuroscience,Navigation,

Jury

Jury de thèse
Qualité	Nom	Etablissement
Chargé de recherche	M. ROUAULT Hervé	CPT, CNRS
Chargé de recherche	M. MONGILLO Gianluigi	Institut de la Vision, CNRS, Paris
Senior Group Leader	M. COMPTE Albert	IDIBAPS, Barcelone
Professeur	M. RAYMOND Laurent	CPT, Aix Marseille Université
Directrice de recherche	Mme MONTAGNINI Anna	Institut de Neurosciences de la Timone, CNRS
Chargé de recherche	M. DUGUé Guillaume	Institut de biologie de l'Ecole Normale Supérieure, CNRS, Paris

Résumé de la thèse

Les animaux construisent des représentations internes de leur environnement pour accomplir des tâches parfois complexes. Par exemple, lors de la navigation spatiale, ils sont capables d'effectuer des calculs sophistiqués afin d'optimiser leur trajectoire. Pourtant, les mécanismes cérébraux sous-jacents à ces opérations restent largement inexplorés et constituent un champ de recherche actif. Jusqu'à présent, la majorité des études s'est concentrée sur des environnements bidimensionnels simplifiés. Cette approche a permis d'identifier plusieurs types de cellules impliquées dans le codage spatial, telles que les cellules de lieu, les cellules de grille ou les cellules de direction de la tête. Toutefois, il demeure essentiel de comprendre comment le cerveau encode des environnements tridimensionnels, plus proches de la réalité naturelle et présentant des défis supplémentaires. En effet, si l'on prend l'exemple de l'intégration angulaire de l'orientation de la tête, dans un environnement 2D additionner les angles suffit pour suivre l'orientation. En 3D, l'ordre des rotations compte: tourner un livre de 90° autour de l'axe Y puis de l'axe X ne donne pas le même résultat que l'inverse.
Pour répondre à cette question, nous proposons d'utiliser des techniques d'apprentissage profond capables de générer des représentations adaptées à des environnements 3D complexes. Nous analysons la manière dont un réseau récurrent peut résoudre une tâche analogue à la rotation mentale, en détaillant son architecture ainsi que la dynamique de ses représentations internes. Nous introduisons également un modèle de rendu différentiable, permettant de transformer un objet 3D dans une orientation choisie puis de projetter le résultat en une image 2D. Un tel modèle peut ainsi être utilisé pendant l'entraînement de l'architecture globale car il est compatible avec l'optimisation par gradient.
Dans un second volet, nous étudions la navigation d'animaux dans un environnement de réalité virtuelle, semi-naturel et de grande taille, où l'accès aux récompenses est incertain et soumis à une distribution aléatoire, simulant ainsi les défis rencontrés dans un contexte écologique réel. Nous proposons une mesure quantitative de l'information visuelle disponible à chaque instant de la navigation afin d'évaluer comment cette information guide ses choix. Par l'analyse de la dynamique pupillaire, nous explorons également les variations attentionnelles au cours de la tâche.
Enfin, nos résultats suggèrent que l'animal ne se contente pas de mémoriser des emplacements, mais construit une représentation schématique de l'environnement, lui permettant d'adapter efficacement sa recherche de récompenses à des situations nouvelles.
En conclusion, ce travail met en lumière l'importance de croiser observations expérimentales et modélisation computationnelle pour progresser dans la compréhension des mécanismes de représentation et de manipulation de l'espace chez les agents, qu'ils soient biologiques ou artificiels. L'analyse des rotations mentales et de la navigation dans des environnements complexes, à partir de données comportementales, neuronales et de modèles computationels, permet d'éclairer la diversité des stratégies spatiales et d'affiner les hypothèses sur les processus sous-jacents. Cette approche intégrée souligne l'utilité de lier neurosciences et apprentissage automatique pour mieux appréhender la cognition spatiale dans toute sa richesse.

Thesis resume

Animals form internal representations of their environment to perform complex tasks. For example, during spatial navigation, they carry out sophisticated operations to optimize their trajectories. Yet, understanding the brain activity underlying these computations remains an active and open area of research. Most investigations to date have been conducted in simplified 2D environments. While such studies have identified several environment-encoding cells (e.g., place cells, grid cells), it is still crucial to decipher how more complex 3D environments are encoded.
To address this, we propose leveraging deep learning techniques capable of forming the representations required for such environments. We examine how a recurrent network performs tasks analogous to mental rotation, analyze the architecture of such networks, and characterize their dynamics. Additionally, we introduce a differentiable rendering model that enables the transformation of a 3D object to a specified orientation and the projection of the result onto a 2D image. This model can be integrated into the training of the overall architecture, as it is compatible with gradient-based optimization.
Next, we focus on a navigation task in a large-scale, semi-natural virtual reality environment with stochastic reward distributions. By incorporating uncertainty, we aim to capture the exploratory challenges of natural environments, where food sources may be depleted or relocated. We propose a metric to quantify the instantaneous information available during navigation and analyze its relationship with animal behavior. By segmenting the animal's pupil, we also study changes in attentional state during navigation. Finally, we demonstrate that the animal can infer the underlying structure of the task. Moreover, we show that the animal adopts a schema-based representation strategy, encoding generalized patterns rather than specific environmental zones, and refines its reward-seeking strategy over time.
In conclusion, this work highlights the value of integrating experimental observations with computational modeling to advance understanding of how agents—both biological and artificial—represent and manipulate space. By analyzing mental rotation and navigation in complex environments through behavioral, neural, and computational models, we shed light on the diversity of spatial strategies and refine hypotheses about the underlying processes. This integrated approach underscores the importance of bridging neuroscience and machine learning to gain deeper insights into the richness of spatial cognition.