Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der Erstautor und der korrespondierende Autor dieses Artikels stammen beide vom VDIG-Labor (Visual Data Interpreting and Generation) des Wangxuan Computer Institute der Universität Peking 1. Der Autor ist der Doktorand Zhou Xiaoyu und der korrespondierende Autor ist der Doktorvater Wang Yongtao. In den letzten Jahren hat das VDIG-Labor eine Reihe repräsentativer Ergebnisse auf Top-Konferenzen wie IJCV, CVPR, AAAI, ICCV, ICML, ECCV usw. veröffentlicht und in nationalen Schwergewichtswettbewerben die Meisterschaft und den zweiten Platz gewonnen und ausländischer Lebenslaufbereich wurde mehrfach von namhaften Universitäten im In- und Ausland ausgezeichnet, wissenschaftliche Forschungseinrichtungen kooperieren intensiv.
In den letzten Jahren haben Text-zu-3D-Methoden für einzelne Objekte eine Reihe von Durchbrüchen erzielt, aber die Generierung kontrollierbarer, hochwertiger komplexer 3D-Szenen mit mehreren Objekten aus Text steht immer noch vor großen Herausforderungen. Bisherige Methoden weisen große Mängel in Bezug auf Komplexität, geometrische Qualität, Texturkonsistenz, Interaktion mehrerer Objekte, Steuerbarkeit und Bearbeitbarkeit der generierten Szene auf.
Kürzlich haben das VDIG-Forschungsteam vom Wangxuan-Institut für Informatik an der Universität Peking und seine Mitarbeiter die neuesten Forschungsergebnisse von GALA3D bekannt gegeben. Für die Generierung komplexer 3D-Szenen mit mehreren Objekten schlägt diese Arbeit ein LLM-gesteuertes steuerbares Generierungsframework für komplexe 3D-Szenen, GALA3D, vor, das hochwertige, hochkonsistente 3D-Szenen mit mehreren Objekten und komplexen interaktiven Beziehungen generieren und unterstützen kann Konversationsinteraktion, das Papier wurde von ICML 2024 angenommen.
Papiertitel: GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
Papierlink: https://arxiv.org/pdf/2402.07207
Papiercode: https://github.com/VDIGPKU/GALA3D
Projektwebsite: https://gala3d.github.io/
GALA3D ist ein hochwertiger Text-zu-3D-Komplex Kombinierte Szenengenerierung und steuerbares Bearbeitungsframework. Der Benutzer gibt einen Beschreibungstext ein und GALA3D kann die entsprechende dreidimensionale Szene mit mehreren Objekten und komplexen interaktiven Beziehungen im Nulldurchgang generieren. GALA3D demonstriert seine hervorragende Leistung bei der Generierung von Szenenqualität, der komplexen Interaktion mehrerer Objekte und der geometrischen Konsistenz der Szene und stellt gleichzeitig sicher, dass die generierte 3D-Szene genau auf den Text abgestimmt ist. Darüber hinaus unterstützt GALA3D eine benutzerfreundliche End-to-End-Generierung und kontrollierte Bearbeitung, sodass normale Benutzer 3D-Szenen in Konversationsgesprächen einfach anpassen und bearbeiten können. Durch die Kommunikation mit Benutzern kann GALA3D die konversationelle und steuerbare Bearbeitung komplexer 3D-Szenen präzise realisieren und verschiedene steuerbare Bearbeitungsanforderungen wie die Layouttransformation komplexer 3D-Szenen, die Einbettung digitaler Assets und Änderungen des Dekorationsstils basierend auf dem Benutzerdialog realisieren.
Einführung in die Methode
Die Gesamtarchitektur von GALA3D ist in der folgenden Abbildung dargestellt:
GALA3D verwendet große Sprachmodelle (LLMs), um anfängliche Layouts zu generieren, und schlägt eine Layout-gesteuerte generative 3D-Gaußsche Darstellung zur Konstruktion komplexer vor 3D-Szenen. GALA3D Design optimiert die Form und Verteilung von 3D-Gaußkurven durch adaptive Geometriesteuerung, um 3D-Szenen mit konsistenter Geometrie, Textur, Skalierung und präzisen Interaktionen zu generieren. Darüber hinaus schlägt GALA3D auch einen kombinierten Optimierungsmechanismus vor, der bedingte Diffusions-Priors und Vincentian-Graph-Modelle kombiniert, um gemeinsam 3D-Multiobjektszenen mit konsistenten Stilen zu generieren und gleichzeitig die aus LLMs extrahierten anfänglichen Layout-Prioritäten iterativ zu optimieren, um realistischere und genauere reale Szenen zu erhalten Raumaufteilung. Umfangreiche quantitative Experimente und qualitative Studien zeigen, dass GALA3D signifikante Ergebnisse bei der Generierung von Text-zu-komplexen 3D-Szenen erzielt und die bestehenden Vincent-3D-Szenenmethoden übertrifft.
a, Szenenlayout vorab basierend auf LLMs
Große Sprachmodelle zeigen hervorragende Fähigkeiten zum Verstehen natürlicher Sprache und zum Argumentieren. In diesem Artikel werden die Argumentations- und Layoutgenerierungsfähigkeiten der großen Sprachmodelle von LLM in komplexen 3D-Szenen weiter untersucht. Wie Sie ohne manuellen Entwurf im Vorfeld ein relativ vernünftiges Layout erhalten, kann dazu beitragen, die Kosten für die Szenenmodellierung und -generierung zu senken. Hierzu verwenden wir LLMs (wie GPT-3.5), um Instanzen von Texteingaben und deren räumliche Beziehungen zu extrahieren und entsprechende Layout-Prioritäten zu generieren. Es besteht jedoch eine gewisse Lücke zwischen dem räumlichen 3D-Layout und dem Layout vor der Szene, die von LLMs interpretiert wird, und der tatsächlichen Szene, was normalerweise zur Erzeugung schwebender/vorbeiziehender Objekte, Kombinationen von Objekten mit übermäßig unterschiedlichen Proportionen usw. führt. Darüber hinaus schlagen wir ein Layout-Verfeinerungsmodul vor, um das oben generierte grobe Layout durch visionsbasierte Diffusion Prior und Layout-gesteuertes generatives 3D-Gaußsches anzupassen und zu optimieren.
b, Layout-Verfeinerung
GALA3D verwendet das auf Diffusion basierende Layout-Layout-Optimierungsmodul, um das zuvor von den oben genannten LLMs generierte Layout zu optimieren. Insbesondere haben wir die Gradientenoptimierung des Layout-gesteuerten 3D-Gaußschen Raumlayouts in den 3D-Generierungsprozess integriert und die räumliche Position, den Rotationswinkel und das Größenverhältnis des LLM-generierten Layouts über ControlNet angepasst. Die Abbildung zeigt die 3D-Szene und das Layout vor und nach der Korrespondenz. Das optimierte Layout verfügt über eine genauere räumliche Position und Skalierung und macht die Interaktion zwischen mehreren Objekten in der 3D-Szene sinnvoller.
c, Layout-gesteuerte generative 3D-Gauß-Darstellung
Wir führen zum ersten Mal 3D-Layout-Einschränkungen in die 3D-Gauß-Darstellung ein und schlagen eine Layout-gesteuerte generative 3D-Gauß-Darstellung für komplexe Vincent-3D-Szenen vor. Die Layout-gesteuerte 3D-Gaußsche Darstellung enthält mehrere semantisch extrahierte Instanzobjekte, wobei das vorherige Layout jedes Instanzobjekts wie folgt parametrisiert werden kann:
wobei N die Gesamtzahl der Instanzobjekte in der Szene darstellt. Insbesondere wird jede 3D-Gaußsche Instanz durch adaptive Geometriesteuerung optimiert, um eine 3D-Gaußsche Darstellung des Objekts auf Instanzebene zu erhalten. Darüber hinaus kombinieren wir mehrere Objekt-Gauß-Funktionen entsprechend den relativen Positionsbeziehungen in der gesamten Szene, generieren Layout-gesteuerte globale 3D-Gauß-Funktionen und rendern die gesamte Szene durch globales Gauß-Splatting.
d, adaptive Geometriesteuerung
Um die räumliche Verteilung und die geometrische Form von 3D-Gaußkurven während des Generierungsprozesses besser zu steuern, schlagen wir eine adaptive Geometriesteuerungsmethode für generative 3D-Gaußkurven vor. Um die 3D-Gaußschen Funktionen innerhalb des Layoutbereichs einzuschränken, verwendet GALA3D zunächst eine Reihe von Dichteverteilungsfunktionen, um die räumliche Position des Gaußschen Ellipsoids anhand einer Reihe anfänglicher Gaußscher Funktionen einzuschränken. Anschließend probieren wir Gaußsche Werte in der Nähe der Layout-Oberfläche aus, um sie an die Verteilungsfunktion anzupassen. Anschließend schlagen wir vor, die Geometrie von 3D-Gaußschen mithilfe der Formregularisierung zu steuern. Während des 3D-Generierungsprozesses optimiert die adaptive Geometriesteuerung kontinuierlich die Verteilung und Geometrie der Gaußschen Verteilung, um 3D-Mehrfachobjekte und -Szenen mit mehr Texturdetails und regelmäßiger Geometrie zu erzeugen. Die adaptive Geometriesteuerung sorgt außerdem für eine bessere Steuerbarkeit und Konsistenz von Layout-gesteuerten generativen 3D-Gaußkurven.
Experimentelle Ergebnisse
Im Vergleich zu bestehenden Text-zu-3D-Generierungsmethoden zeigt GALA3D eine bessere Qualität und Konsistenz der 3D-Szenengenerierung Es wurde eine effektive Benutzerbefragung durchgeführt und 125 Teilnehmer (von denen 39,2 % Experten und Praktiker in verwandten Bereichen waren) wurden eingeladen, eine Multi-Angle-Bewertung der Generierungsszenarien der Methode dieses Artikels und bestehender Methoden durchzuführen. Die Ergebnisse werden im Folgenden dargestellt Tabelle:
Experimentelle Ergebnisse zeigen, dass GALA3D bestehende Methoden bei mehrdimensionalen Bewertungsindikatoren wie Szenenqualität, geometrischer Wiedergabetreue, Textkonsistenz, Szenenkonsistenz usw. übertrifft und die optimale Generierungsqualität erreicht.
Wie in den qualitativen experimentellen Ergebnissen in der folgenden Abbildung gezeigt, kann GALA3D komplexe 3D-Szenen mit mehreren Objektkombinationen in Nullaufnahme und mit guter Konsistenz erzeugen:
Die folgende Abbildung zeigt, dass GALA3D benutzerfreundliche, konversationelle Inhalte unterstützen kann Steuerbare Generierung und Bearbeitung:
Weitere Forschungsdetails finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonICML 2024|Komplexe Kombination aus 3D-Szenengenerierung und LLMs konversationsgesteuertem 3D-Generierungs- und Bearbeitungsframework ist da. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!