ICML 2024｜Génération de scènes 3D à combinaison complexe, cadre de génération et d'édition contrôlable en 3D conversationnelle LLM est ici-IA-php.cn

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Le premier auteur et l'auteur correspondant de cet article sont tous deux issus du laboratoire VDIG (Interprétation et génération de données visuelles) de l'Institut informatique de Wangxuan de l'Université de Pékin, le premier L'auteur est le doctorant Zhou Xiaoyu et l'auteur correspondant est le directeur de thèse Wang Yongtao. Ces dernières années, le laboratoire VDIG a publié un certain nombre de résultats représentatifs lors de conférences de premier plan telles que IJCV, CVPR, AAAI, ICCV, ICML, ECCV, etc. et a remporté les prix de championnat et de deuxième place dans les compétitions des poids lourds au niveau national. et dans le domaine des CV étrangers à plusieurs reprises. Il a également remporté des prix d'universités renommées au pays et à l'étranger. Les instituts de recherche scientifique coopèrent largement.

Ces dernières années, les méthodes de conversion texte-3D pour objets uniques ont réalisé une série de percées, mais la génération de scènes 3D multi-objets complexes, contrôlables et de haute qualité à partir de texte reste confrontée à d'énormes défis. Les méthodes précédentes présentaient des défauts majeurs en termes de complexité, de qualité géométrique, de cohérence des textures, d'interaction multi-objets, de contrôlabilité et d'édition de la scène générée.

Récemment, l'équipe de recherche VDIG de l'Institut d'informatique Wangxuan de l'Université de Pékin et ses collaborateurs ont annoncé les derniers résultats de la recherche GALA3D. Pour la génération de scènes 3D complexes multi-objets, ce travail propose un cadre de génération contrôlable guidé par LLM pour des scènes 3D complexes, GALA3D, qui peut générer des scènes 3D de haute qualité et de haute cohérence avec plusieurs objets et des relations interactives complexes, et prend en charge interaction conversationnelle. Éditeur de contrôle, l'article a été accepté par ICML 2024.

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

Titre de l'article : GALA3D : Vers une génération de scènes complexes de type texte en 3D via un éclaboussement gaussien génératif guidé par la mise en page
Lien de l'article : https://arxiv.org/pdf/2402.07207
Code papier : https://github.com/VDIGPKU/GALA3D
Site Web du projet : https://gala3d.github.io/

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

GALA3D est un complexe Text-to-3D de haute qualité Génération de scène combinée et cadre d'édition contrôlable. L'utilisateur saisit un texte de description et GALA3D peut générer par tir zéro la scène tridimensionnelle correspondante avec plusieurs objets et interactions complexes. Tout en garantissant que la scène 3D générée est parfaitement alignée avec le texte, GALA3D démontre ses excellentes performances en matière de génération de qualité de scène, d'interaction complexe de plusieurs objets et de cohérence de la géométrie de la scène. De plus, GALA3D prend en charge une génération conviviale de bout en bout et une édition contrôlée, permettant aux utilisateurs ordinaires de personnaliser et d'éditer facilement des scènes 3D dans des conversations conversationnelles. En communiquant avec les utilisateurs, GALA3D peut réaliser avec précision une édition conversationnelle et contrôlable de scènes 3D complexes et répondre à des besoins d'édition contrôlables diversifiés tels que la transformation de la mise en page de scènes 3D complexes, l'intégration d'actifs numériques et les changements de style de décoration basés sur le dialogue de l'utilisateur.

Introduction à la méthode

L'architecture globale de GALA3D est présentée dans la figure ci-dessous :

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

GALA3D utilise de grands modèles de langage (LLM) pour générer des mises en page initiales et propose une représentation gaussienne 3D générative guidée par la mise en page pour construire des Scènes 3D. GALA3D Design optimise la forme et la distribution des Gaussiennes 3D grâce à un contrôle géométrique adaptatif pour générer des scènes 3D avec une géométrie, une texture, une échelle et des interactions précises cohérentes. De plus, GALA3D propose également un mécanisme d'optimisation combiné qui combine les a priori de diffusion conditionnelle et les modèles de graphes vincentiens pour générer de manière collaborative des scènes multi-objets 3D avec des styles cohérents, tout en optimisant de manière itérative les priors de mise en page initiaux extraits des LLM pour obtenir une scène réelle plus réaliste et plus précise. aménagement de l'espace. Des expériences quantitatives approfondies et des études qualitatives démontrent que GALA3D obtient des résultats significatifs dans la génération de scènes 3D texte-complexes, surpassant les méthodes de scène 3D Vincent existantes.

a, mise en scène préalable basée sur les LLM

Les grands modèles de langage démontrent d'excellentes capacités de compréhension et de raisonnement du langage naturel.Cet article explore plus en détail les capacités de raisonnement et de génération de mise en page des grands modèles de langage LLM dans des scènes complexes en 3D. Comment obtenir une mise en page relativement raisonnable au préalable sans conception manuelle peut aider à réduire le coût de modélisation et de génération de scènes. Pour cela, nous utilisons des LLM (tels que GPT-3.5) pour extraire les instances de saisie de texte et leurs relations spatiales, et générer les priorités de mise en page correspondantes. Il existe cependant un certain écart entre la disposition spatiale 3D et le Layout préalable de la scène interprétée par les LLM et la scène réelle, ce qui se traduit généralement par la génération d'objets suspendus/passants, de combinaisons d'objets aux proportions excessivement différentes, etc. De plus, nous proposons un module de raffinement de la mise en page pour ajuster et optimiser la mise en page brute générée ci-dessus grâce à une diffusion préalable basée sur la vision et à une gaussienne 3D générative guidée par la mise en page.

b, Layout Refinement

GALA3D utilise le module d'optimisation de la mise en page basé sur Diffusion avant d'optimiser la mise en page préalablement générée par les LLM ci-dessus. Plus précisément, nous avons ajouté l'optimisation du gradient de la disposition de l'espace gaussien 3D guidée par la mise en page dans le processus de génération 3D et ajusté la position spatiale, l'angle de rotation et le rapport de taille des mises en page générées par LLM via ControlNet. La figure montre la scène 3D et la mise en page avant et. après optimisation. La mise en page optimisée a une position spatiale et une échelle plus précises et rend l'interaction entre plusieurs objets dans la scène 3D plus raisonnable.

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

c, Représentation gaussienne 3D générative guidée par la mise en page

Nous introduisons pour la première fois des contraintes de mise en page 3D dans la représentation gaussienne 3D et proposons une gaussienne 3D générative guidée par la mise en page pour les scènes 3D complexes de Vincent. La représentation gaussienne 3D guidée par la mise en page contient plusieurs objets d'instance extraits sémantiquement, où la mise en page avant de chaque objet d'instance peut être paramétrée comme :

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

où, N représente le nombre total d'objets d'instance dans la scène. Plus précisément, chaque gaussienne 3D d'instance est optimisée grâce à un contrôle géométrique adaptatif pour obtenir une représentation gaussienne 3D d'objet au niveau de l'instance. De plus, nous combinons plusieurs Gaussiennes d'objets dans la scène entière en fonction de relations de position relative, générons des Gaussiennes 3D globales guidées par la mise en page et rendons la scène entière via un Splatting Gaussien global.

d, contrôle de géométrie adaptatif

Afin de mieux contrôler la distribution spatiale et la forme géométrique des Gaussiennes 3D pendant le processus de génération, nous proposons une méthode de contrôle de géométrie adaptative pour les Gaussiennes 3D génératives. Premièrement, étant donné un ensemble de gaussiennes initiales, afin de contraindre les gaussiennes 3D dans la plage de disposition, GALA3D utilise un ensemble de fonctions de distribution de densité pour contraindre la position spatiale de l'ellipsoïde gaussien. Nous échantillonnons ensuite les Gaussiennes près de la surface de mise en page pour ajuster la fonction de distribution. Ensuite, nous proposons de contrôler la géométrie des Gaussiennes 3D en utilisant la régularisation de forme. Pendant le processus de génération 3D, le contrôle adaptatif de la géométrie optimise en permanence la distribution et la géométrie des gaussiennes pour générer des multi-objets et des scènes 3D avec plus de détails de texture et une géométrie régulière. Le contrôle de la géométrie adaptative garantit également une plus grande contrôlabilité et cohérence des gaussiennes 3D génératives guidées par la mise en page.

Résultats expérimentaux

Par rapport aux méthodes de génération Text-to-3D existantes, GALA3D montre une meilleure qualité et cohérence de génération de scènes 3D. Les résultats expérimentaux quantitatifs sont présentés dans le tableau suivant :

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

Nous avons également une analyse approfondie et approfondie. Une enquête auprès des utilisateurs efficaces a été menée et 125 participants (dont 39,2 % étaient des experts et des praticiens dans des domaines connexes) ont été invités à mener une évaluation multi-angle des scénarios de génération de cette méthode et des méthodes existantes. Les résultats sont présentés dans le tableau suivant. :

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

Les résultats expérimentaux montrent que GALA3D surpasse les méthodes existantes dans les indicateurs d'évaluation multidimensionnels tels que la qualité de la scène, la fidélité géométrique, la cohérence du texte et la cohérence de la scène, et atteint la qualité de génération optimale.

Comme le montrent les résultats expérimentaux qualitatifs de la figure ci-dessous, GALA3D peut générer des scènes 3D complexes de combinaisons multi-objets en plan zéro avec une bonne cohérence :

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了