請注意,上述動圖完全是由多張照片渲染出來的 3D 場景。人類很難發現它們的破綻。 網格和點是最常見的三維場景表示法,因為它們是顯式的,非常適合基於 GPU/CUDA 的快速光柵化。相較之下,最新的神經輻射場(NeRF)方法建立在連續場景表徵的基礎上,通常使用體積光線渲染優化多層感知器(MLP),對捕捉到的場景進行新視角合成。雖然這些方法的連續性有助於最佳化,但渲染所需的隨機取樣成本很高,而且會產生雜訊。 來自法國蔚藍海岸大學的研究者引入了一種新方法,能夠結合這兩種方法的優點:3D 高斯表徵有著SOAT 視覺質量,並且在訓練時間上也進行了最佳化,而基於tile 的拋雪球演算法(tile-based splatting)在幾個資料集上以1080p 解析度實現SOTA 即時渲染。 論文地址:https://huggingface.co/papers/2308.04079研究團隊下目標:對多張照片拍攝的場景進行即時渲染,並在典型真實場景中實現時間最優化。先前,Fridovich-Kei 等人提出的方法雖然實現了快速訓練,但難以達到目前 SOTA NeRF 方法所獲得的視覺質量,而後者需要長達 48 小時的訓練時間。還有研究提出快速但品質較低的輻射場方法,可以根據場景實現互動式渲染(每秒 10-15 幀),但這種方法無法實現高解析度下的即時渲染。 團隊的解決方案主要由三個部分組成。
第一,引入 3D 高斯作為一種靈活而富有表現力的場景表徵。輸入與 NeRF 方法類似,即使用結構 - 運動(SfM)校準像機,並且使用稀疏點雲初始化 3D 高斯集合,點雲來自 SfM 過程。此外,研究只用 SfM 點作為輸入就能獲得高品質的結果。需要注意的是,對於 NeRF 合成資料集,即使採用隨機初始化,本文方法也能獲得高品質的結果。研究表明,3D 高斯是一個很好的選擇。
第二,最佳化 3D 高斯屬性,即 3D 位置、不透明度?、各向異性協方差和球諧波(SH)係數。最佳化過程產生了一個相當緊湊、非結構化和精確的場景表徵。
第三,即時渲染解決方案,研究使用快速 GPU 排序演算法。不過,由於採用了3D 高斯表徵,可以在遵循可見度排序的情況下進行各向異性拼接,這要歸功於排序和?- blending— 並通過跟踪所需的盡可能多排序拼接的遍歷,實現快速準確的向後傳遞。
方法概覽綜上,本文做出了以下貢獻:
-
引入各向異性3D 高斯作為輻射場的高品質、非結構化表徵;
-
3D高斯屬性的最佳化方法,與自適應密度控制交織在一起,為捕捉到的場景創建高品質的表徵;
- 針對GPU 的快速可微分渲染方法,該方法具有可視性感知功能,允許各向異性拼接和快速反向傳播,以實現高品質的新視圖合成。
場景自上而下依序為來自Mip-NeRF360 資料集的自行車、花園、櫃檯和房間;來自深度混合資料集的遊戲室(更多比較請閱讀原文)。圖中把不同方法產生的顯著差異已經標出,如自行車的輻條、花園遠處的房屋玻璃、鐵籃子的桿子以及玩具小熊。 可以觀察出,本文的方法相比以往的方法在細節上更具優勢。 影片中可以看到更明顯的差異除此之外,在圖6 中我們可以看到,即使迭代7K 次(∼ 5 分鐘),本文方法也能很好地捕捉列車的細節。在迭代 30K 次(∼35 分鐘)時,背景偽影明顯減少。對於花園場景,差異幾乎不明顯,7K 次迭代(∼8 分鐘)已經是非常高的品質了。 研究團隊採用Mip-NeRF360 建議的方法,將資料集分為訓練/ 測試兩部分,每隔8 張照片進行測試,以便進行一致且有意義的比較,從而產生誤差指標,並使用文獻中最常使用的標準PSNR、L-PIPS 和SSIM 指標,詳細資料見表1。 表 1 展現了透過三個資料集計算得出的新方法與先前的工作相比的定量評估。標有“†”的結果直接採用了原論文,其他結果均為該實驗團隊的實驗結果。 合成 NeRF 的 PSNR 分數。可以看到本文方法在多數情況下分數都較好,甚至達到最優。 消融實驗
消融實驗所做的不同貢獻和演算法選擇分離出來,並建立了一組實驗來衡量它們的效果。對演算法的以下幾個方面進行了測試:從 SfM 初始化、緻密化策略、各向異性協方差、允許無限數量的斑塊具有梯度以及球諧波的使用。下表總結了每種選擇的定量效果。 我們來看看更直觀的效果。 使用 SfM 點初始化會產生更好的效果。 Clone 和Split 兩種情況下的消融緻密化策略限制接受漸變的點的數量,對視覺品質影響是顯著的。左圖:限制接收梯度的 10 個高斯點。右圖:本文的完整方法。 想了解更多詳細內容,請閱讀原文。
以上是高畫質影片竟不是真的,幾張照片渲染的3D場景讓你難辨真偽的詳細內容。更多資訊請關注PHP中文網其他相關文章!