ICML 2024|複雜組合3D場景生成,LLMs對話式3D可控生成編輯框架來了

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
該論文的第一作者和通訊作者均來自北京大學王選計算機研究所的VDIG (Visual Data Interpreting and Generation) 實驗室,第一計算機研究所的第一個作者為博士生週嘯宇,通訊作者為博士生導師王勇濤。 VDIG 實驗室近年來在IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項代表性成果發表,多次榮獲國內外CV 領域重量級競賽的冠亞軍獎項,和國內外知名高校、科研機構廣泛開展合作。
近年來,針對單個物體的 Text-to-3D 方法取得了一系列突破性進展,但是從文本生成可控的、高質量的複雜多物體 3D 場景仍然面臨巨大挑戰。先前的方法在生成場景的複雜度、幾何品質、紋理一致性、多物件互動關係、可控制性和編輯性等方面均存在較大缺陷。
最近,來自北京大學王選計算機研究所的 VDIG 研究團隊與其合作者公佈了最新研究成果 GALA3D。針對多物體複雜3D 場景生成,該工作提出了LLM 引導的複雜三維場景可控生成框架GALA3D,能夠生成高質量、高一致性、具有多物體和複雜交互關係的3D 場景,支持對話式交互的可控編輯,論文已被ICML 2024 錄用。
論文標題:GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
-
.pdf/
論文程式碼:https://github.com/VDIGPKU/GALA3D - 專案網站:https://gala3d.github.io/
GALA3D 是一個高品質的複雜複雜度組合場景生成與可控編輯框架。使用者輸入一段描述文本,GALA3D 能夠 zero-shot 地產生相應的具有多物體和複雜交互關係的三維場景。 GALA3D 在保證產生 3D 場景與文字高度對齊的同時,展現了其在生成場景品質、多物體複雜互動、場景幾何一致性等方面的卓越表現。此外,GALA3D 還支援用戶友好的端到端生成和可控編輯,使得普通用戶能夠在對話式的交談中輕鬆自訂和編輯 3D 場景。在與使用者的交流中,GALA3D 可以精準地實現複雜三維場景對話式的可控編輯,並根據使用者的對話實現複雜三維場景的佈局變換、數位資產嵌入、裝修風格改變等多樣化的可控編輯需求。
方法介紹
GALA3D 的整體架構如下圖所示:
GALA3D 利用大型語言模型(LLMs)產生初始高斯佈局,並提出引導的生成複雜式 3D 表示場景。 GALA3D 設計透過自適應幾何控制優化 3D 高斯的形狀和分佈,以產生具有一致幾何、紋理、比例和精確交互作用的 3D 場景。此外,GALA3D 還提出了一種組合優化機制,結合條件擴散先驗和文生圖模型,協作生成具有一致風格的3D 多物體場景,同時迭代優化從LLMs 提取的初始佈局先驗,以獲得更加逼真和準確的真實場景空間佈置。廣泛的定量實驗和定性研究表明 GALA3D 在文本到複雜三維場景生成方面取得了顯著效果,超越現有文生 3D 場景方法。
a、基於 LLMs 的場景佈局先驗
Large language models demonstrate excellent natural language understanding and reasoning capabilities. This article further explores the reasoning and layout generation capabilities of LLMs large language models in 3D complex scenes. How to obtain a relatively reasonable layout prior without manual design can help reduce the cost of scene modeling and generation. For this, we use LLMs (such as GPT-3.5) to extract instances of text input and their spatial relationships, and generate corresponding layout priors. However, there is a certain gap between the 3D spatial layout and Layout prior of the scene interpreted by LLMs and the actual scene, which usually results in the generation of suspended/passing objects, combinations of objects with excessively different proportions, etc. Furthermore, we propose a Layout Refinement module to adjust and optimize the rough layout prior generated above through vision-based Diffusion prior and Layout-guided generative 3D Gaussian.
b, Layout Refinement
GALA3D uses the Layout layout optimization module based on Diffusion prior to optimize the layout prior generated by the above LLMs. Specifically, we added the gradient optimization of Layout-guided 3D Gaussian space layout into the 3D generation process, and adjusted the spatial position, rotation angle and size ratio of LLM-generated Layouts through ControlNet. The figure shows the 3D scene and Layout before and after optimization. Correspondence. The optimized Layout has a more accurate spatial position and scale, and makes the interaction between multiple objects in the 3D scene more reasonable.
c, Layout-guided generative 3D Gaussian representation
We introduce 3D-Layout constraints into 3D Gaussian representation for the first time, and propose a layout-guided generative 3D Gaussian for complex Vincent 3D scenes. Layout-guided 3D Gaussian representation contains multiple semantically extracted instance objects, where the Layout prior of each instance object can be parameterized as:
where, N represents the total number of instance objects in the scene. Specifically, each instance 3D Gaussian is optimized through adaptive geometry control to obtain an instance-level object 3D Gaussian representation. Furthermore, we combine multiple object Gaussians into the whole scene according to relative position relationships, generate layout-guided global 3D Gaussians and render the entire scene through global Gaussian Splatting.
d, adaptive geometry control
In order to better control the spatial distribution and geometric shape of 3D Gaussians during the generation process, we propose an adaptive geometry control method for generative 3D Gaussians. First, given a set of initial Gaussians, in order to constrain the 3D Gaussians within the layout range, GALA3D uses a set of density distribution functions to constrain the spatial position of the Gaussian ellipsoid. We then sample Gaussians near the Layout surface to fit the distribution function. Afterwards, we propose to control the geometry of 3D Gaussians using shape regularization. During the 3D generation process, adaptive geometry control continuously optimizes the distribution and geometry of Gaussians to generate 3D multi-objects and scenes with more texture details and regular geometry. Adaptive geometry control also ensures greater controllability and consistency of layout-guided generative 3D Gaussians.
Experimental results
Compared with existing Text-to-3D generation methods, GALA3D shows better 3D scene generation quality and consistency. The quantitative experimental results are shown in the following table:
We also An extensive and effective user survey was conducted, and 125 participants (39.2% of whom were experts and practitioners in related fields) were invited to conduct a multi-angle evaluation of the generation scenarios of this article's method and existing methods. The results are shown in the following table:
Experimental results show that GALA3D surpasses existing methods in multi-dimensional evaluation indicators such as scene quality, geometric fidelity, text consistency, scene consistency, etc., and achieves the optimal generation quality.
As shown in the qualitative experimental results in the figure below, GALA3D can generate complex multi-object combination 3D scenes in zero-shot with good consistency:
The figure below shows that GALA3D can support user-friendly, conversational Controllable generation and editing:
For more research details, please refer to the original paper.
以上是ICML 2024|複雜組合3D場景生成,LLMs對話式3D可控生成編輯框架來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示
