一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景-人工智慧-PHP中文網

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

專案首頁：https://scene-dreamer.github.io/
程式碼：https://github.com/FrozenBurning/SceneDreamer
論文：https://arxiv.org/abs/2302.01330
線上Demo：https://huggingface.co/spaces/FrozenBurning/SceneDreamer

為滿足元宇宙中對3D 創意工具不斷增長的需求，三維場景生成最近受到了相當多的關注。 3D 內容創作的核心是逆向圖形學，旨在從 2D 觀測中恢復 3D 表徵。考慮到創建 3D 資產所需的成本和勞動力，3D 內容創作的最終目標將是從海量的網路二維圖像中學習三維生成模型。最近關於三維感知生成模型的工作在一定程度上解決了這個問題，多數工作利用 2D 影像資料來產生以物體為中心的內容（例如人臉、人體或物體）。然而，這類生成任務的觀測空間處於有限域中，生成的目標佔據了三維空間的有限區域。這就產生了一個問題，我們是否能從海量互聯網 2D 影像中學習到無界場景的 3D 生成模型？例如能夠覆蓋任意大區域，且無限拓展的生動自然景觀（如下圖）。

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

本文，來自南洋理工大學S-Lab 的研究者提出了一個新的框架SceneDreamer，專注於從海量無標註自然圖片中學習無界三維場景的生成模型。透過取樣場景噪音和風格噪聲，SceneDreamer 能夠渲染多樣風格的自然場景，同時保持極高的三維一致性，支援相機自由地在場景中漫遊。

想要達成這樣的目標，我們面臨著以下三個挑戰：

1）無界場景缺乏高效三維表徵：無邊界場景常常佔據了一個任意大的歐氏空間，這凸顯了高效且具備表現力的底層三維表徵的重要性。

2）缺乏內容對齊：已有三維生成工作使用具備對齊性質的資料集（如人臉、人體、常用物體等），這些有界場景中的目標物體通常具備類似的語意、相近的尺度位置和方向。然而，在海量的無標註二維影像中，不同物體或場景常具備迥異的語義，且擁有多變的尺度、位置和方向。這樣缺乏對齊的性質會帶來生成模型訓練的不穩定性。

3）缺乏相機位姿先驗：三維生成模型依賴於準確相機位姿或相機位姿分佈的先驗來實現影像到三維表徵的逆向渲染過程。但網路自然影像來自不同的場景和像源，讓我們無法取得其相機位姿準確資訊或先驗。

為此我們提出了一個原則性的對抗學習框架 SceneDreamer，從海量的無標註自然圖像中學習生成無界三維場景。該框架包含三個主要模組：1）高效且高表現力的鳥瞰（BEV）三維場景表徵；2）學習場景通用表徵的生成式神經哈希網格；3）由風格驅動的體積渲染器，並經過對抗學習的方式直接從二維影像中進行訓練。

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

上圖展示了 SceneDreamer 的主要結構。在推理過程中，我們可以隨機取樣一個代表場景結構的單純形雜訊一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景和代表場景風格的高斯雜訊作為輸入，我們的模型能夠渲染大尺度三維場景，同時支援相機自由移動。首先我們從場景雜訊中獲得由高度圖和語意圖組成的 BEV 場景表徵。然後，利用 BEV 表徵明確地建構局部三維場景視窗來執行相機取樣，同時將 BEV 表徵編碼為場景特徵一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景 ##。我們使用採樣點的座標和場景特徵來查詢由生成式的神經哈希網格編碼的高維空間，以獲得空間差異和場景差異的隱變數。最後我們透過由風格雜訊調製的體積渲染器將相機光線上的隱變數進行整合，最終得到渲染的二維影像。

為了學習無邊界三維場景生成，我們希望場景應被高效率高品質進行表達。我們提出使用由語意圖和高度圖組成的 BEV 表徵來表達一個大尺度三維場景。具體而言，我們透過無參建圖的方法從場景噪音中獲得俯瞰視角下高度圖和語義圖。高度圖記錄了場景表麵點的高度信息，而語義圖則記錄了對應點的語義標籤。而我們使用的由語意圖和高度圖組成的 BEV 表徵能夠：1）在 n^2 複雜度上表示三維場景；2）能夠得到三維點對應的語意，從而解決內容對齊的問題。 3）支持使用滑動視窗的方式來合成無限大場景，避免了訓練時固定場景解析度導致泛化性的問題。

為了編碼能夠泛化於場景之間的三維表徵，我們需要將空間三維場景表徵編碼至隱空間以便於對抗學習的訓練。值得注意的是，對於一個大尺度的無界場景，通常只有其表面可見點對於渲染時是有意義的，這意味著其參數化形式應是緊湊且稀疏的。已有方法如 tri-plane 或三維卷積等將空間建模為一個整體，模型能力會大量的浪費在建模不可見表麵點上。受到神經哈希網格在三維重建任務上成功的啟發，我們將其空間緊湊和高效的性質推廣到生成任務上，提出使用生成式神經哈希網格來建模跨場景的三維空間特徵。具體而言是使用雜湊函數F_theta 來將場景特徵f_s 和空間點座標x 映射到多尺度混合的可學習參數：

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景