SIGGRAPH, die weltweit führende akademische Konferenz mit Schwerpunkt auf Computergrafik, zeichnet sich durch einen neuen Trend aus.
Auf der SIGGRAPH 2024-Konferenz, die letzte Woche stattfand, erhielt das Team vom MARS-Labor der Shanghai University of Science and Technology neben den besten Papers und anderen Auszeichnungen gleichzeitig zwei Ehrennominierungen für das beste Paper und seine Forschungsergebnisse sind Auch die Industrialisierung schreitet rasch voran.
Der Autor nutzt die Methode generativer Modelle, um einen neuen Weg zu eröffnen, Fantasie direkt in komplexe 3D-Modelle umzuwandeln. „Clay“ und „Dresscode“, die für die besten Beiträge nominiert sind, sind 3D-Generierung und 3D-Kleidungsgenerierung.
In der Real-Time Live-Sitzung von SIGGARPH demonstrierte das Team der Shanghai University of Science and Technology eine Reihe von Anwendungsszenarien basierend auf diesen beiden Aufgaben in Echtzeit.Zhang Qixuan, der Autor des Papiers, ein Doktorand im zweiten Jahr und CTO des Startups Yingmo Technology, demonstrierte erstmals die auf CLAY basierende 3D-Generierungslösung. Letztes Jahr erstellte das Shadow Eye-Team mithilfe einfacher Texteingabeaufforderungen (Prompt) realistische 3D-Modelle für Zuckerberg und Jen-Hsun Huang und war damit das erste chinesische Team, das an SIGGRAPH Real-Time Live teilnahm. In diesem Jahr verwendet ihre 3D-Generierungslösung ein einzelnes Bild als Eingabe, um Cartoon-Bilder von Xiao Zha und Lao Huang in verschiedenen Stilen zu generieren.
Hinter diesen generierten Inhalten verbirgt sich die 3D-KI-Engine Rodin der neuen Generation, die eine Hommage an den berühmten Bildhauer Rodin darstellt. Der auf der Website angezeigte 3D-Inhalt wird direkt aus einem einzelnen vom Benutzer hochgeladenen Bild generiert, und Rodin kann außerdem PBR-Texturen und viereckige Oberflächen generieren, um weitere Änderungen und Verwendung durch Künstler zu erleichtern.
Mit 3D ControlNet kann Rodin KI-generierte Formen steuern. Einfach als Leitfaden bereitgestellt, können einfache geometrische Elemente in Voxel umgewandelt und basierend auf den semantischen Informationen des Referenzbilds in die erforderlichen 3D-Assets umgewandelt werden.
Rodin unterstützt auch direkte handgezeichnete Bilder, sogar einfache Graffiti. Zur Generierung von 3D-Figuren wurden einige Fotos verwendet, und als Hintergrund wurden Kindergraffiti-Bäume verwendet. Die Entwickler arbeiteten vor Ort in Echtzeit und erstellten in einer Minute eine vollständige 3D-Modellierungsszene. Als der Moderator fragte, wer das kleine Monster in der Mitte sei, sagte Zhang Qixuan humorvoll, dass es sich um KI handele.
Apropos, das letzte Mal, dass die 3D-Modellgenerierung aus dem Kreis gerissen wurde, war tatsächlich bei SIGGRAPH: Im Jahr 2021 stellte NVIDIA auf dieser Bühne die Methode zur Erstellung von 3D-Modellen für Huang Renxun vor und schockierte die Welt mit Fälschung und Echtheit Effekte.
Damals galt die 3D-Modellgenerierung als entscheidend für Technologien wie den digitalen Menschen und die virtuelle Realität. Es besteht jedoch kein Zweifel daran, dass die hohen Kosten für hochpräzises Körperscannen und Deep-Learning-Rekonstruktion dazu führen, dass es nicht in die Massenproduktion geht.
Der Einsatz von KI-Generierung könnte ein besserer Weg sein. In der Vergangenheit wurden die von Menschen in dieser Richtung vorgeschlagenen Technologien jedoch immer „mit Beifall begrüßt, waren aber nicht beliebt“.
Für praktische Anwendungen stellen diese Methoden einige Herausforderungen dar:3D ist ein industrielles Problem. Es reicht nicht aus, dass ein Modell visuell gut funktioniert, sondern auch bestimmte Industriestandards einhalten müssen, z. B. wie Materialien dargestellt werden Planung, wie sinnvoll die Struktur ist. Wenn es nicht an menschliche Industriestandards angepasst werden kann, erfordern die generierten Ergebnisse zahlreiche Anpassungen und lassen sich nur schwer auf die Produktion übertragen.
So wie große Sprachmodelle (LLM) an menschlichen Werten ausgerichtet werden müssen, müssen 3D-generierte KI-Modelle an komplexen 3D-Industriestandards ausgerichtet werden.
Eine praktischere Lösung ist entstanden: 3D nativEine der besten Paper-Nominierungen für das MARS-Labor an der Shanghai University of Science and Technology – CLAY hat es der Branche ermöglicht, eine praktikable Lösung für die oben genannten Probleme zu sehen, nämlich 3D einheimisch.
Wir wissen, dass die technischen Wege zur 3D-Generierung in den letzten zwei Jahren grob in zwei Kategorien unterteilt werden können: 2D-Dimensionalitätsverbesserung und natives 3D.
2D-Dimensionalitätsverbesserung ist ein Prozess zur Erzielung einer dreidimensionalen Rekonstruktion durch ein 2D-Diffusionsmodell in Kombination mit Methoden wie NeRF. Da sie mit großen Mengen an 2D-Bilddaten trainiert werden können, führen solche Modelle tendenziell zu unterschiedlichen Ergebnissen. Aufgrund der unzureichenden 3D-Vorhergehenden Fähigkeiten des 2D-Diffusionsmodells ist diese Art von Modell jedoch nur begrenzt in der Lage, die 3D-Welt zu verstehen, und neigt dazu, Ergebnisse mit unangemessenen geometrischen Strukturen (z. B. Menschen oder Tiere mit mehreren Köpfen) zu generieren.
Eine Reihe neuerer Rekonstruktionsarbeiten mit mehreren Ansichten haben dieses Problem bis zu einem gewissen Grad gemildert, indem den Trainingsdaten des 2D-Diffusionsmodells 2D-Bilder mit mehreren Ansichten von 3D-Assets hinzugefügt wurden. Die Einschränkung besteht jedoch darin, dass der Ausgangspunkt solcher Methoden 2D-Bilder sind. Sie konzentrieren sich daher auf die Qualität der generierten Bilder und nicht auf die Wahrung der geometrischen Genauigkeit. Daher sind die generierten Geometrien häufig unvollständig und weisen keine Details auf.
Mit anderen Worten: 2D-Daten erfassen nur eine Seite oder Projektion der realen Welt und können daher einen dreidimensionalen Inhalt nicht vollständig beschreiben. und die generierten Ergebnisse sind immer noch. Es sind viele Änderungen erforderlich und es ist schwierig, Industriestandards zu erfüllen.
Angesichts dieser Einschränkungen wählte das Forschungsteam von CLAY einen anderen Weg – 3D-nativ.
Diese Route trainiert generative Modelle direkt aus 3D-Datensätzen und extrahiert umfangreiche 3D-Priors aus einer Vielzahl von 3D-Geometrien. Dadurch kann das Modell geometrische Merkmale besser „verstehen“ und bewahren.
Allerdings muss dieser Modelltyp groß genug sein, um mit leistungsstarken Generierungsfunktionen „entstehen“ zu können, und größere Modelle müssen auf größeren Datensätzen trainiert werden. Wie wir alle wissen, sind hochwertige 3D-Datensätze sehr knapp und teuer, was das erste Problem ist, das die native 3D-Route lösen muss.
In diesem CLAY-Artikel verwenden Forscher maßgeschneiderte Datenverarbeitungspipelines, um mehrere 3D-Datensätze zu durchsuchen, und schlagen effektive Techniken zur Skalierung des generativen Modells vor.
Konkret beginnt ihr Datenverarbeitungsprozess mit einem maßgeschneiderten Neuvernetzungsalgorithmus, um 3D-Daten in wasserdichte Netze umzuwandeln und dabei Dinge wie harte Kanten und flache Oberflächen sorgfältig zu bewahren. Darüber hinaus nutzten sie GPT-4V, um detaillierte Anmerkungen zu erstellen, die wichtige geometrische Merkmale hervorheben.
Nachdem der obige Verarbeitungsprozess durchlaufen wurde, werden viele Datensätze zu dem extrem großen 3D-Modelldatensatz kombiniert, der für das CLAY-Modelltraining verwendet wird. Bisher wurden diese Datensätze aufgrund unterschiedlicher Formate und mangelnder Konsistenz nie zusammen zum Trainieren generativer 3D-Modelle verwendet. Der verarbeitete kombinierte Datensatz behält eine konsistente Darstellung und kohärente Anmerkungen bei, was die Verallgemeinerung generativer Modelle erheblich verbessern kann.
CLAY, das mit diesem Datensatz trainiert wurde, enthält ein generatives 3D-Modell mit bis zu 1,5 Milliarden Parametern. Um sicherzustellen, dass der Informationsverlust von der Datensatzkonvertierung über den impliziten Ausdruck bis zur Ausgabe so gering wie möglich ist, haben sie lange Zeit mit der Überprüfung und Verbesserung verbracht und schließlich eine neue und effiziente 3D-Ausdrucksmethode erforscht. Insbesondere haben sie das neuronale Felddesign in 3DShape2VecSet übernommen, um eine kontinuierliche und vollständige Oberfläche zu beschreiben, und es mit einem speziell entwickelten geometrischen VAE mit mehreren Auflösungen kombiniert, um Punktwolken unterschiedlicher Auflösung zu verarbeiten und so eine Anpassung an die latente Vektorgröße (latent) zu ermöglichen Größe).
Um die Modellerweiterung zu erleichtern, verwendet CLAY einen minimalistischen Latent Diffusion Transformer (DiT). Es besteht aus einem Transformator, kann sich an die Größe des latenten Vektors anpassen und verfügt über eine große Modellskalierbarkeit. Darüber hinaus führt CLAY auch ein progressives Trainingsschema ein, indem die latente Vektorgröße und die Modellparameter schrittweise erhöht werden.
Schließlich erreicht CLAY eine präzise Steuerung der Geometrie, und Benutzer können die Komplexität, den Stil usw. (sogar Zeichen) der Geometriegenerierung steuern, indem sie Eingabeaufforderungswörter anpassen. Im Vergleich zu früheren Methoden kann CLAY schnell detaillierte Geometrie erzeugen und wichtige geometrische Merkmale wie flache Oberflächen und strukturelle Integrität gewährleisten.
Einige Ergebnisse in der Arbeit demonstrieren vollständig die Vorteile nativer 3D-Pfade. Die folgende Abbildung zeigt die ersten drei Proben des nächsten Nachbarn, die der Forscher aus dem Datensatz abgerufen hat. Die von CLAY generierte hochwertige Geometrie stimmt mit den Eingabeaufforderungswörtern überein, unterscheidet sich jedoch von den Beispielen im Datensatz und weist eine ausreichende Fülle und die Fähigkeit auf, aus großen Modellen hervorzugehen.
Untuk membolehkan aset digital yang dijana digunakan secara langsung dalam saluran paip pengeluaran CG sedia ada, para penyelidik seterusnya menggunakan penyelesaian dua peringkat:
1. Pengoptimuman geometri memastikan integriti dan keserasian struktur sambil mengekalkan estetika dan memperhalusi fungsi. bentuk model, seperti segi empat, pengembangan UV, dsb.
2. Sintesis bahan memberikan model tekstur yang realistik. Bersama-sama, langkah-langkah ini mengubah jaringan kasar menjadi aset yang lebih boleh digunakan dalam persekitaran digital.
Antaranya, peringkat kedua melibatkan model penyebaran bahan berbilang pandangan dengan hampir 1 bilion parameter. Selepas kuadrifikasi mesh dan pembongkaran UV, ia menghasilkan bahan PBR melalui pendekatan berbilang pandangan, yang kemudian diunjurkan semula ke peta UV. Model ini menghasilkan bahan PBR yang lebih realistik daripada kaedah sebelumnya, menghasilkan pemaparan realistik.
Untuk membolehkan CLAY menyokong lebih banyak tugas, penyelidik juga mereka bentuk ControlNet versi 3D. Seni bina minimalis membolehkannya menyokong kawalan keadaan pelbagai mod berbeza dengan cekap. Mereka melaksanakan beberapa contoh syarat yang boleh diberikan oleh pengguna dengan mudah, termasuk teks (disokong secara asli), serta imej/lakaran, voxel, imej multiview, awan titik dan kotak sempadan ) dan awan titik separa dengan kotak sempadan. Syarat-syarat ini boleh digunakan secara individu atau gabungan, membenarkan model menjana kandungan dengan jujur berdasarkan satu syarat, atau menggabungkan berbilang syarat untuk mencipta kandungan 3D dengan gaya dan kawalan pengguna, menawarkan pelbagai kemungkinan kreatif.
Selain itu, CLAY juga secara langsung menyokong Penyesuaian Peringkat Rendah (LoRA) pada lapisan perhatian DiT. Ini membolehkan penalaan halus yang cekap supaya kandungan 3D yang dihasilkan boleh disesuaikan dengan gaya tertentu.
Tidak sukar untuk melihat daripada reka bentuk ini bahawa reka bentuk CLAY telah menyasarkan senario aplikasi dari awal, yang sangat berbeza daripada beberapa penyelidikan akademik semata-mata.
Ini juga membolehkan model dilaksanakan dengan cepat: Rodin kini telah menjadi penjana 3D yang biasa digunakan untuk banyak pembangun 3D.文 Anda boleh mengklik untuk membaca teks asal dan mengakses produk pengalaman Rodin (disyorkan untuk membuka bahagian PC).
Ramai pengguna industri di dalam dan luar negara telah melaporkan bahawa aset 3D yang dijana oleh Rodin mempunyai geometri saintifik, peraturan pendawaian dan peta bahan yang indah, dan boleh diimport terus ke dalam enjin pemaparan arus perdana yang sedia ada dekat dengan Pengeluaran -Aplikasi penjanaan 3D.Pasukan makmal MARS Universiti Sains dan Teknologi Shanghai, yang menyumbang kepada CLAY, menjadi pasukan China pertama yang dipilih untuk sesi Langsung Masa Nyata dalam tempoh 50 tahun sejak SIGGRAPH ditubuhkan pada 2023. Ia telah berdiri di atas pentas ini untuk tahun kedua berturut-turut.
Teknologi Shadow Eye sedang meneroka jalan AI asli 3D dan membina produk 3D yang hampir dengan Sedia Pengeluaran, dengan ketara menurunkan ambang untuk penciptaan 3D.
Teknologi penjanaan 3D berasaskan CLAY bukan sahaja membimbing hala tuju industri, tetapi juga akan memainkan peranan positif dalam penjanaan imej dan video. Kerana dari perspektif entropi maklumat, semakin sedikit maklumat yang anda berikan, semakin besar ruang untuk model dimainkan. Pemodelan 3D boleh menambat arah penumpuan dan meningkatkan kebolehkawalan penjanaan imej dan video.
Walau bagaimanapun, medan 3D itu sendiri tidak semudah imej dan video Hanya dengan melengkapkan rangkaian lengkap pengguna benar-benar mula menerima keupayaan 3D + AI. Bahagian kerja ini boleh dilakukan melalui API rakan kongsi, atau oleh pasukan mereka sendiri.
Mengharapkan pelaksanaan selanjutnya teknologi baharu pada masa hadapan.
Das obige ist der detaillierte Inhalt vonZwei Arbeiten wurden gleichzeitig für die „Best Paper Honourable Mention' nominiert. Das erste Real-Time Live Chinese-Team bei SIGGRAPH nutzt generative KI, um eine 3D-Welt zu erschaffen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!