兩篇論文同時獲得最佳論文榮譽提名，SIGGRAPH上首個Real-Time Live的中國團隊以生成式AI創作3D世界-人工智慧-PHP中文網

專注於電腦圖形學的全球學術頂會 SIGGRAPH，正在出現新的趨勢。

在上週舉行的 SIGGRAPH 2024 大會上，最佳論文等獎項中，來自上海科技大學 MARS 實驗室的團隊同時拿到兩篇最佳論文榮譽提名，其研究成果亦在快速走向產業化。

作者使用生成模型的方法，開啟了將想像直接轉化為複雜 3D 模型的新路。

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

^{中接中對中下為止時所拿到最佳主題提名的兩篇論文－3.D 30 2013 213 月拿到最佳主題的標題。}

在 SIGGARPH 的 Real-Time Live 環節，上科大這一團隊更即時展示了基於這兩項工作的一系列應用場景。

論文作者，研究生二年級學生，同時也是新創公司影眸科技的 CTO 張啟煊首先演示了基於 CLAY 的 3D 生成解決方案。影眼團隊去年用簡單的文字提示詞（Prompt）為祖克柏和黃仁勳建構了真實風格的 3D 模型，成為第一個登上 SIGGRAPH Real-Time Live 的中國團隊。今年他們的 3D 生成方案，透過單張圖片作為輸入，可以產生小札和老黃不同風格的卡通形象。

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

這些生成內容的背後是新一代 3D AI 引擎 Rodin，致敬著名雕塑家羅丹。現場展示的 3D 內容都是由使用者上傳的單張圖片直接產生的，Rodin 可以進一步產生 PBR 紋理和四角面，以方便藝術家進一步修改和使用。

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

透過 3D ControlNet，Rodin 可以控制 AI 產生的形狀。只需提供簡單的幾何元素作為指導，就可以將其轉換為體素，並根據參考圖片的語義資訊將其轉換為所需的 3D 資產。

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Rodin 也支援直接手繪的圖片，甚至是簡單塗鴉。幾張照片生成 3D 人物，兒童塗鴉生成樹木作為背景，開發人員現場即時操作，一分鐘內便搭建了一個完整的 3D 建模的場景。當主持人問到中間的小怪物是誰時，張啟煊風趣的說，這就是 AI。

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

說起來，3D 模型生成的上一次出圈其實也是在 SIGGRAPH 上：在 2021 年，英偉達在這個舞台上介紹了給黃仁勳製作 3D 模型的方法，以假亂真的效果震撼了世界。

彼時的 3D 模型生成被認為對於數位人、虛擬實境等技術至關重要。但毫無疑問，高精度人體掃描 + 深度學習重建方式的高成本，決定了它注定不會成為投入大規模生產的方式。

使用 AI 產生或許才是更好的路徑。然而先前在這個方向上，人們提出的技術一直「叫好不叫座」。

對實際應用而言，這些方法存在一些挑戰：3D 是一個工業問題，模型僅在視覺上表現好是不夠的，還需要符合特定的工業標準，比如材質如何表現，面片規劃、結構如何合理。如果無法和人類工業標準對齊，那麼產生結果就需要大量調整，難以應用於生產端。

就像大語言模型（LLM）需要對齊人類的價值觀，3D 產生的 AI 模型需要對齊複雜的 3D 工業標準。

更實用的方案已經出現：3D 原生

上科大 MARS 實驗室獲得最佳論文提名的工作之一——CLAY 讓業界看到了上述問題的一個可行的解決想法，即 3D 原生。

我們知道，最近兩年，3D 產生的技術路線大致可以分為兩類：2D 升維和原生 3D。

2D-Dimensionalitätsverbesserung ist ein Prozess zur Erzielung einer dreidimensionalen Rekonstruktion durch ein 2D-Diffusionsmodell in Kombination mit Methoden wie NeRF. Da sie mit großen Mengen an 2D-Bilddaten trainiert werden können, führen solche Modelle tendenziell zu unterschiedlichen Ergebnissen. Aufgrund der unzureichenden 3D-Vorhergehenden Fähigkeiten des 2D-Diffusionsmodells ist diese Art von Modell jedoch nur begrenzt in der Lage, die 3D-Welt zu verstehen, und neigt dazu, Ergebnisse mit unangemessenen geometrischen Strukturen (z. B. Menschen oder Tiere mit mehreren Köpfen) zu generieren.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Eine Reihe neuerer Rekonstruktionsbemühungen mit mehreren Ansichten haben dieses Problem bis zu einem gewissen Grad gemildert, indem den Trainingsdaten des 2D-Diffusionsmodells 2D-Bilder mit mehreren Ansichten von 3D-Assets hinzugefügt wurden. Die Einschränkung besteht jedoch darin, dass der Ausgangspunkt solcher Methoden 2D-Bilder sind. Sie konzentrieren sich daher auf die Qualität der generierten Bilder und nicht auf die Wahrung der geometrischen Genauigkeit. Daher sind die generierten Geometrien häufig unvollständig und weisen keine Details auf.

Mit anderen Worten: 2D-Daten erfassen nur eine Seite oder Projektion der realen Welt und können daher einen dreidimensionalen Inhalt nicht vollständig beschreiben. und die generierten Ergebnisse sind immer noch. Es sind viele Änderungen erforderlich und es ist schwierig, Industriestandards zu erfüllen.

Angesichts dieser Einschränkungen wählte das Forschungsteam von CLAY einen anderen Weg – 3D-nativ.

Diese Route trainiert generative Modelle direkt aus 3D-Datensätzen und extrahiert umfangreiche 3D-Priors aus einer Vielzahl von 3D-Geometrien. Dadurch kann das Modell geometrische Merkmale besser „verstehen“ und bewahren.

Allerdings muss dieser Modelltyp groß genug sein, um mit leistungsstarken Generierungsfunktionen „entstehen“ zu können, und größere Modelle müssen auf größeren Datensätzen trainiert werden. Wie wir alle wissen, sind hochwertige 3D-Datensätze sehr knapp und teuer, was das erste Problem ist, das die native 3D-Route lösen muss.

In diesem CLAY-Artikel verwenden Forscher maßgeschneiderte Datenverarbeitungspipelines, um mehrere 3D-Datensätze zu analysieren und effektive Techniken zur Skalierung des generativen Modells vorzuschlagen.

Konkret beginnt ihr Datenverarbeitungsprozess mit einem maßgeschneiderten Neuvernetzungsalgorithmus, um 3D-Daten in wasserdichte Netze umzuwandeln und dabei Dinge wie harte Kanten und flache Oberflächen sorgfältig zu bewahren. Darüber hinaus nutzten sie GPT-4V, um detaillierte Anmerkungen zu erstellen, die wichtige geometrische Merkmale hervorheben.

Nachdem der obige Verarbeitungsprozess durchlaufen wurde, werden viele Datensätze zu dem extrem großen 3D-Modelldatensatz kombiniert, der für das CLAY-Modelltraining verwendet wird. Bisher wurden diese Datensätze aufgrund unterschiedlicher Formate und mangelnder Konsistenz nie zusammen zum Trainieren generativer 3D-Modelle verwendet. Der verarbeitete kombinierte Datensatz behält eine konsistente Darstellung und kohärente Anmerkungen bei, was die Verallgemeinerung generativer Modelle erheblich verbessern kann.

CLAY, das mit diesem Datensatz trainiert wurde, enthält ein generatives 3D-Modell mit bis zu 1,5 Milliarden Parametern. Um sicherzustellen, dass der Informationsverlust von der Datensatzkonvertierung über den impliziten Ausdruck bis zur Ausgabe so gering wie möglich ist, haben sie lange Zeit mit der Überprüfung und Verbesserung verbracht und schließlich eine neue und effiziente 3D-Ausdrucksmethode erforscht. Insbesondere haben sie das neuronale Felddesign in 3DShape2VecSet übernommen, um eine kontinuierliche und vollständige Oberfläche zu beschreiben, und es mit einem speziell entwickelten geometrischen VAE mit mehreren Auflösungen kombiniert, um Punktwolken unterschiedlicher Auflösung zu verarbeiten und so eine Anpassung an die latente Vektorgröße (latent) zu ermöglichen Größe).

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Um die Modellerweiterung zu erleichtern, verwendet CLAY einen minimalistischen Latent Diffusion Transformer (DiT). Es besteht aus einem Transformator, kann sich an die Größe des latenten Vektors anpassen und verfügt über eine große Modellskalierbarkeit. Darüber hinaus führt CLAY auch ein progressives Trainingsschema ein, indem die latente Vektorgröße und die Modellparameter schrittweise erhöht werden. 两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Schließlich erreicht CLAY eine präzise Kontrolle der Geometrie, und Benutzer können die Komplexität, den Stil usw. (sogar Zeichen) der Geometriegenerierung steuern, indem sie Eingabeaufforderungswörter anpassen. Im Vergleich zu früheren Methoden kann CLAY schnell detaillierte Geometrie erzeugen und wichtige geometrische Merkmale wie flache Oberflächen und strukturelle Integrität gewährleisten.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Einige Ergebnisse in der Arbeit demonstrieren vollständig die Vorteile nativer 3D-Pfade. Die folgende Abbildung zeigt die ersten drei Proben des nächsten Nachbarn, die der Forscher aus dem Datensatz abgerufen hat. Die von CLAY generierte hochwertige Geometrie stimmt mit den Eingabeaufforderungswörtern überein, unterscheidet sich jedoch von den Beispielen im Datensatz und weist einen ausreichenden Reichtum und die Fähigkeit auf, aus großen Modellen hervorzugehen.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

생성된 디지털 자산을 기존 CG 제작 파이프라인에서 직접 사용할 수 있도록 연구원들은 2단계 솔루션을 추가로 채택했습니다.

1 기하학적 최적화는 미학을 유지하면서 구조적 무결성과 호환성을 보장하고 기능적으로 개선합니다. 사각형화, UV 확장 등과 같은 모델의 모양

2. 재료 합성은 실제 질감을 통해 모델에 사실적인 질감을 제공합니다. 이러한 단계를 통해 대략적인 메시를 디지털 환경에서 더욱 유용한 자산으로 변환할 수 있습니다.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

그 중 두 번째 단계에는 거의 10억 개의 매개변수가 있는 다중 뷰 재료 확산 모델이 포함됩니다. 메시 사각형화 및 UV 언래핑 후 다중 뷰 접근 방식을 통해 PBR 재료를 생성한 다음 UV 맵에 역투영합니다. 이 모델은 이전 방법보다 더 사실적인 PBR 재질을 생성하여 사실적인 렌더링을 제공합니다.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

CLAY가 더 많은 작업을 지원할 수 있도록 연구원들은 ControlNet의 3D 버전도 설계했습니다. 미니멀리스트 아키텍처를 통해 다양한 모드의 상태 제어를 효율적으로 지원할 수 있습니다. 텍스트(기본적으로 지원됨), 이미지/스케치, 복셀, 다중 뷰 이미지, 포인트 클라우드, 경계 상자 등 사용자가 쉽게 제공할 수 있는 몇 가지 예제 조건과 경계 상자가 있는 부분 포인트 클라우드를 구현했습니다. 이러한 조건은 개별적으로 또는 조합하여 적용할 수 있어 모델이 단일 조건을 기반으로 콘텐츠를 충실하게 생성하거나 여러 조건을 결합하여 스타일과 사용자 제어가 포함된 3D 콘텐츠를 생성하여 광범위한 창의적 가능성을 제공할 수 있습니다.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

또한 CLAY는 DiT의 Attention Layer에서 LoRA(Low-Rank Adaptation)도 직접 지원합니다. 이를 통해 생성된 3D 콘텐츠를 특정 스타일에 맞게 조정할 수 있도록 효율적인 미세 조정이 가능합니다.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

이러한 디자인을 보면 CLAY의 디자인이 처음부터 응용 시나리오를 목표로 삼았음을 쉽게 알 수 있는데, 이는 순수 학문적 연구와는 매우 다릅니다.

이를 통해 모델을 빠르게 구현할 수도 있습니다. Rodin은 이제 많은 3D 개발자가 일반적으로 사용하는 3D 생성기가 되었습니다.文 클릭하시면 원문도 읽어보실 수 있으며, 로댕 체험상품에 접속하실 수 있습니다. (PC측으로 열어보시는 것을 권장합니다.)

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

국내외 많은 업계 사용자들은 Rodin이 생성한 3D 자산이 과학적인 기하학, 배선 규칙 및 정교한 재료 맵을 가지며 기존 주류 렌더링 엔진으로 직접 가져올 수 있다고 보고했습니다. -제작에 가깝습니다. -3D 생성 응용 프로그램이 준비되어 있습니다.

CLAY에 기여한 상하이 과학 기술 대학의 MARS 실험실 팀은 2023년 SIGGRAPH가 창설된 이후 50년 만에 실시간 라이브 세션에 선정된 최초의 중국 팀이 되었습니다. 2년 연속 이 무대에 섰다.

两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 Shadow Eye Technology는 3D 네이티브 AI의 길을 모색하고 생산 준비에 가까운 3D 제품을 구축하여 3D 제작의 문턱을 크게 낮추고 있습니다.

CLAY 기반 3D 생성 기술은 산업의 방향을 제시할 뿐만 아니라 이미지와 영상 생성에도 긍정적인 역할을 할 것입니다. 정보 엔트로피의 관점에서 볼 때 제공하는 정보가 적을수록 모델이 재생할 수 있는 여지가 더 커지기 때문입니다. 3D 모델링은 융합의 방향을 정하고 이미지 및 비디오 생성의 제어 가능성을 향상시킬 수 있습니다.

그러나 3D 분야 자체는 이미지와 비디오만큼 간단하지 않습니다. 완전한 체인을 완성해야만 사용자는 3D + AI의 기능을 진정으로 받아들이기 시작할 것입니다. 이 작업 부분은 파트너의 API를 통해 수행하거나 팀 자체에서 수행할 수 있습니다. 两篇论文同时获最佳论文荣誉提名，SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

앞으로 새로운 기술의 추가 구현을 기대합니다.

以上是兩篇論文同時獲得最佳論文榮譽提名，SIGGRAPH上首個Real-Time Live的中國團隊以生成式AI創作3D世界的詳細內容。更多資訊請關注PHP中文網其他相關文章！