為了回應元宇宙對於3D創意工具需求的持續成長,最近人們對三維內容生成(3D AIGC)表現出了極大的興趣。同時,3D內容創作在品質和速度方面也取得了明顯的進步。
儘管當前的前饋式生成模型可以在幾秒鐘內生成3D 對象,但它們的分辨率受到訓練期間所需密集計算的限制,進而導致生成低質量的內容。這就產生了一個問題,能否只用 5 秒鐘來產生高解析度高品質的 3D 物件?
本文中,來自北京大學、南洋理工大學S-Lab 和上海人工智慧實驗室的研究者提出了一個新的框架LGM,即Large Gaussian Model,實現了從單視角圖片或文字輸入只需5 秒鐘即可產生高解析度高品質三維物件。
目前,程式碼和模型權重都已開源。研究者也提供了一個線上 Demo 供大家試玩。
#想要達成這樣的目標,研究者面臨以下兩個挑戰:
為此,本文提出了一個全新的方法來從四個視角圖片中合成高解析度三維表徵,進而透過現有的文字到多視角影像或單圖到多視角影像的模型來支援高品質的Text-to-3D 和Image-to-3D 任務。
在技術上,LGM 核心模組是 Large Multi-View Gaussian Model。受到高斯濺射的啟發,該方法使用一個高效輕量的非對稱 U-Net 作為骨幹網絡,直接從四視角圖片中預測高分辨率的高斯基元,並最終渲染為任意視角下的圖片。
具體而言,骨幹網路 U-Net 接受四個視角的圖像和對應的普呂克座標,輸出多重視角下的固定數量高斯特徵。這一組高斯特徵被直接融合為最終的高斯基元並透過可微渲染得到各個視角下的影像。
在這個過程中,使用了跨視角的自註意力機制在低解析度的特徵圖上實現了不同視角之間的相關性建模,同時保持了較低的計算開銷。
值得注意的是,在高解析度下高效訓練這樣的模型並非易事。為達到穩健的訓練,研究者仍面臨以下兩個問題。
一是由於訓練階段使用 objaverse 資料集中渲染出的三維一致的多視角圖片,而在推理階段直接使用已有的模型來從文字或圖像中合成多視角圖片。而由於基於模型合成的多視角圖片總是會存在多視角不一致的問題,為了彌補這一域差距,本文提出了基於網格畸變的資料增強策略:在影像空間中對三個視角的圖片施加隨機畸變來模擬多重視角不一致性。
二是由於推理階段產生的多視角圖片並不嚴格保證相機視角三維幾何的一致,因此本文也對三個視角的相機位姿進行隨機擾動來模擬這現象,使得模型在推理階段更穩健。
最後,透過可微分渲染將產生的高斯基元渲染為對應影像,透過監督學習直接端到端地在二維影像上來學習。
訓練完成後,LGM 透過現有的圖像到多視角或文字到多視角擴散模型,即可實現高品質的Text-to-3D 和Image-to-3D任務。
給定同樣的輸入文字或圖像,該方法能夠產生多樣化的高品質三維模型。
為了更進一步支持下游圖形學任務,研究者也提出了一個高效的方法來將產生的高斯表徵轉換為平滑且帶紋理的Mesh:
更多細節內容請參閱原始論文。
以上是大型多視角高斯模型LGM:5秒產出高品質3D物體,可試玩的詳細內容。更多資訊請關注PHP中文網其他相關文章!