Soutenance de thèse de YAO GREKOU
Titre de thèse
Génération automatique de modèles 3D guidée par apprentissage à partir de données éparses multi-vues
Automatic learning-driven 3D model generation from sparse multi-view data
Résumé de la thèse
Depuis 2018, l'entreprise Retail VR développe une plateforme destinée à la création d'environnements virtuels pour les acteurs de la distribution. Cette plateforme repose sur la génération et le stockage de contenus 3D, mais la plupart des utilisateurs ne sont pas des spécialistes de la 3D et ne disposent pas d'équipes dédiées. Les données les plus accessibles restent les photos de produits, ce qui rend nécessaire le développement d'outils automatiques capables de produire des modèles 3D réalistes à partir de ces seules informations.
Or, aucune solution existante ne permet aujourd'hui de reconstruire automatiquement, et à faible coût, des produits complexes à partir d'un nombre limité d'images (une dizaine au maximum). Cette thèse s'inscrit dans ce contexte et vise à concevoir un système de génération de modèles 3D à partir de données visuelles partielles et limitées, en s'appuyant sur des approches d'apprentissage automatique.
Nos travaux portent sur la conception d'une représentation 3D hybride combinant modélisation explicite et implicite, permettant d'améliorer la précision et la généralisation des reconstructions. Deux pipelines de réseaux de neurones ont été développés : le premier, basé sur une approche de reconstruction 3D par parties, vise à générer des formes cohérentes à partir de la structure des objets ; le second, fondé sur des modèles de diffusion 3D, améliore la capacité de généralisation.
Les résultats expérimentaux, validés sur un ensemble de données, montrent des performances supérieures aux méthodes de l'état de l'art. Ces travaux de thèse mettent également en évidence les limites actuelles de ces approches et propose des perspectives pour la reconstruction 3D multi-vues plus réaliste.
Thesis resume
Since 2018, the company Retail VR has been developing a platform dedicated to the creation of virtual environments for retail stakeholders. This platform relies on the generation and storage of 3D content, but most users are not 3D specialists and do not have dedicated teams. The most accessible data remain product photographs, which makes it necessary to develop automatic tools capable of producing realistic 3D models from this limited information.
However, no existing solution currently allows the automatic and low-cost reconstruction of complex products from a small number of images (at most around ten). This thesis is set within this context and aims to design a system for generating 3D models from partial and limited visual data, relying on machine learning approaches.
Our work focuses on the design of a hybrid 3D representation combining explicit and implicit modeling, thereby improving both the accuracy and generalization of reconstructions. Two neural network pipelines have been developed: the first, based on a part-based 3D reconstruction approach, seeks to generate coherent shapes by leveraging object structure; the second, based on 3D diffusion models, enhances generalization capabilities.
Experimental results, validated on benchmark datasets, demonstrate superior performance compared to state-of-the-art methods. This thesis also highlights the current limitations of such approaches and proposes perspectives toward more realistic multi-view 3D reconstruction.