Soutenance de thèse de YAO GREKOU

Titre de thèse

Génération automatique de modèles 3D guidée par apprentissage à partir de données éparses multi-vues

Automatic learning-driven 3D model generation from sparse multi-view data

Date

16 December 2025 à 14h00

Adresse

Polytech Campus de Luminy 163 avenue de Luminy 13288 Marseille cedex 9, Salle de réunion du batîment A

Ecole doctorale

Mathématiques et Informatique de Marseille

Specialité

Informatique

Etablissement

Aix-Marseille Université

Mots clés

Modélisation géométrique,Reconstruction 3D,Représentation 3D hybride,Apprentissage automatique,Fusion de données,Données 2D éparses

Keywords

Geometric modeling,3D reconstruction,3D hybride representation,Deep learning,data merging,2D sparse multi-view

Jury

Jury de thèse
Qualité	Nom	Etablissement
Professeur des universités	M. MARI JEAN-LUC	Aix-Marseille Université
Professeure des universités	Mme BOUAKAZ Saïda	Université Claude Bernard Lyon 1
Professeur des universités	M. CRESPIN Benoît	Université de Limoges
Professeur des universités	M. MAVROMATIS Sébastien	Aix-Marseille Université
Maître de conférences	M. GONZALEZ-LORENZO Aldo	Aix-Marseille Université
Professeure des universités	Mme MORIN Géraldine	Institut National Polytechnique de Toulouse

Résumé de la thèse

Depuis 2018, l'entreprise Retail VR développe une plateforme destinée à la création d'environnements virtuels pour les acteurs de la distribution. Cette plateforme repose sur la génération et le stockage de contenus 3D, mais la plupart des utilisateurs ne sont pas des spécialistes de la 3D et ne disposent pas d'équipes dédiées. Les données les plus accessibles restent les photos de produits, ce qui rend nécessaire le développement d'outils automatiques capables de produire des modèles 3D réalistes à partir de ces seules informations.

Or, aucune solution existante ne permet aujourd'hui de reconstruire automatiquement, et à faible coût, des produits complexes à partir d'un nombre limité d'images (une dizaine au maximum). Cette thèse s'inscrit dans ce contexte et vise à concevoir un système de génération de modèles 3D à partir de données visuelles partielles et limitées, en s'appuyant sur des approches d'apprentissage automatique.

Nos travaux portent sur la conception d'une représentation 3D hybride combinant modélisation explicite et implicite, permettant d'améliorer la précision et la généralisation des reconstructions. Deux pipelines de réseaux de neurones ont été développés : le premier, basé sur une approche de reconstruction 3D par parties, vise à générer des formes cohérentes à partir de la structure des objets ; le second, fondé sur des modèles de diffusion 3D, améliore la capacité de généralisation.

Les résultats expérimentaux, validés sur un ensemble de données, montrent des performances supérieures aux méthodes de l'état de l'art. Ces travaux de thèse mettent également en évidence les limites actuelles de ces approches et propose des perspectives pour la reconstruction 3D multi-vues plus réaliste.

Thesis resume

Since 2018, the company Retail VR has been developing a platform dedicated to the creation of virtual environments for retail stakeholders. This platform relies on the generation and storage of 3D content, but most users are not 3D specialists and do not have dedicated teams. The most accessible data remain product photographs, which makes it necessary to develop automatic tools capable of producing realistic 3D models from this limited information.

However, no existing solution currently allows the automatic and low-cost reconstruction of complex products from a small number of images (at most around ten). This thesis is set within this context and aims to design a system for generating 3D models from partial and limited visual data, relying on machine learning approaches.

Our work focuses on the design of a hybrid 3D representation combining explicit and implicit modeling, thereby improving both the accuracy and generalization of reconstructions. Two neural network pipelines have been developed: the first, based on a part-based 3D reconstruction approach, seeks to generate coherent shapes by leveraging object structure; the second, based on 3D diffusion models, enhances generalization capabilities.

Experimental results, validated on benchmark datasets, demonstrate superior performance compared to state-of-the-art methods. This thesis also highlights the current limitations of such approaches and proposes perspectives toward more realistic multi-view 3D reconstruction.