CVPR 2024滿分論文:浙大提出基於可變形三維高斯的高品質單目動態重建新方法
單眼動態場景(Monocular Dynamic Scene)是指使用單眼相機觀察和分析的動態環境,其中物件可以在場景中自由移動。單眼動態場景重建在理解環境中的動態變化、預測物件運動軌跡以及產生動態數位資產等任務中具有關鍵意義。利用單眼視覺技術,可以實現動態場景的三維重建和模型估計,幫助我們更好地理解和處理動態環境中的各種情況。這種技術不僅可應用於電腦視覺領域,還可以在自動駕駛、擴增實境和虛擬實境等領域發揮重要作用。透過單眼動態場景重建,我們可以更準確地捕捉環境中物體的運動
隨著以神經輻射場(Neural Radiance Field, NeRF)為代表的神經渲染的興起,越來越多的工作開始使用隱式表徵(implicit representation)進行動態場景的三維重建。儘管基於 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已經取得了令人滿意的渲染質量,他們仍然距離真正的照片級真實渲染(photo-realistic rendering)存在一定的距離。
來自浙江大學和位元組跳動的研究團隊指出,上述問題的核心在於基於光線投射(ray casting)的NeRF pipeline 透過逆向映射(backward-flow)將觀測空間(observation space)映射到規範空間(canonical space)時出現了準確性和清晰度方面的挑戰。逆向映射對於學習結構的收斂並不理想,導致目前的方法在 D-NeRF 資料集上僅能達到 30 等級的 PSNR 渲染指標。
為了解決這個挑戰,研究團隊提出了一個基於光柵化的單眼動態場景建模流程。他們首次將變形場與3D高斯結合,創造了一種新的方法,實現了高品質的重建和新視角渲染。這項研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被電腦視覺領域頂尖國際學術會議CVPR 2024接受。這項工作中獨特的地方在於,它是第一個將變形場應用於3D高斯以拓展到單眼動態場景的研究。
專案首頁:https://ingra14m.github.io/Deformable-Gaussians/
論文連結:https://arxiv.org/abs/2309.13101
程式碼:https://github.com/ingra14m/Deformable-3D-Gaussians
實驗結果表明,變形場能夠有效地將規範空間中的3D高斯前向映射精確地映射到觀測空間。在D-NeRF資料集上,實現了10%以上的PSNR提升。此外,在真實場景中即使相機位姿不夠準確,也能夠增加渲染細節。
之後上使用範例 1 HyperNeRF 真實情境的實驗結果。
相關工作
動態場景重建一直以來都是三維重建的熱門議題。隨著以 NeRF 為代表的神經渲染實現了高品質的渲染,動態重建領域湧現了一系列以隱式表徵作為基礎的工作。 D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎上引入了變形場,實現了穩健的動態場景重建。 TiNeuVox,K-Planes 和 Hexplanes 在此基礎上引入了網格結構,大大加速了模型的訓練過程,渲染速度有一定的提高。然而這些方法都基於逆向映射,無法真正實現高品質的規範空間和變形場的解耦。
3D 高斯潑濺是一種基於光柵化的點雲渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創新的緻密化使得 3D 高斯不僅實現了 SOTA 的渲染質量,還實現了即時渲染。 Dynamic 3D 高斯首先將靜態的 3D 高斯拓展到了動態領域。然而,其只能處理多目場景非常嚴重地限制了其應用於更通用的情況,例如手機拍攝等單眼場景。
研究想法
Deformable-GS 的核心在於將靜態的 3D 高斯拓展到單眼動態場景。每一個 3D 高斯攜帶位置,旋轉,縮放,不透明度和 SH 係數用於影像層級的渲染。根據 3D 高斯 alpha-blend 的公式,不難發現,隨時間變化的位置,以及控制高斯形狀的旋轉和縮放是決定動態 3D 高斯的決定性參數。然而,不同於傳統的基於點雲的渲染方法,3D 高斯在初始化之後,位置,透明度等參數會隨著最佳化而不斷更新。這給動態高斯的學習增加了難度。
該研究創新地提出了變形場與 3D 高斯聯合優化的動態場景渲染框架。具體來說,該研究將COLMAP 或隨機點雲初始化的3D 高斯視為規範空間,隨後透過變形場,以規範空間中3D 高斯的座標資訊作為輸入,預測每一個3D 高斯隨時間變化的位置和形狀參數。利用變形場,研究可以將規範空間的 3D 高斯變換到觀測空間以進行光柵化渲染。此策略並不會影響 3D 高斯的可微光柵化 pipeline,而經過計算後的梯度可用於更新規範空間 3D 高斯的參數。
此外,引入變形場有利於動作幅度較大部分的高斯緻密化。這是因為動作幅度較大的區域變形場的梯度也會相對較高,從而指導相應區域在緻密化的過程中得到更精細的調控。即使規範空間 3D 高斯的數量和位置參數在初期也在不斷更新,但實驗結果表明,這種聯合優化的策略可以最終得到穩健的收斂結果。大約經過 20000 輪迭代,規範空間的 3D 高斯的位置參數幾乎不再改變。
研究團隊發現真實場景的相機位姿往往不夠準確,而動態場景更加劇了這個問題。這對於基於神經輻射場的結構來說並不會產生較大的影響,因為神經輻射場是基於多層感知機(Multilayer Perceptron,MLP),是一個非常平滑的結構。但 3D 高斯是基於點雲的顯式結構,略微不準確的相機位姿很難透過高斯潑濺得到較為穩健地矯正。
為了緩解這個問題,該研究創新地引入了退火平滑訓練(Annealing Smooth Training,AST)。此訓練機制旨在初期平滑 3D 高斯的學習,在後期增加渲染的細節。這機制的引入不僅提高了渲染的質量,而且大幅提高了時間插值任務的穩定性與平滑性。
圖 2 展示了本研究的 pipeline,詳情請參考論文原文。
作用中使用 2 此研究研究中的 pipeline。
結果展示
該研究首先在動態重建領域被廣泛使用的D-NeRF 資料集上進行了合成資料集的實驗。從圖 3 的可視化結果中不難看出,Deformable-GS 相比之前的方法有著非常巨大的渲染品質提升。
中對資料集 RF 1.
本研究提出的方法不僅在視覺效果上取得了大幅度的提升,在渲染的量化指標上也有相應的改進。值得注意的是,研究團隊發現 D-NeRF 資料集的 Lego 場景存在錯誤,即訓練集和測試集的場景具有微小的差異。這體現在 Lego 模型鏟子的翻轉角度不一致。這也是為什麼先前方法在 Lego 場景的指標無法提高的根本原因。為了實現有意義的比較,研究使用了 Lego 的驗證集作為指標測量的基準。
作用中使用 4 合成資料集的定量比較。
如圖4 所示,該研究在全解析度(800x800)下比較了SOTA 方法,其中包括了CVPR 2020 的D-NeRF,Sig Asia 2022 的TiNeuVox 和CVPR2023的Tensor4D,K-planes。研究提出的方法在各個渲染指標(PSNR、SSIM、LPIPS),各個場景下都取得了大幅的提升。
該研究提出的方法不僅能夠適用於合成場景,在相機位姿不夠準確的真實場景也取得了 SOTA 結果。如圖 5 所示,該研究在 NeRF-DS 資料集上與 SOTA 方法進行了比較。實驗結果表明,即使沒有對高光反射表面進行特殊處理,該研究提出的方法依舊能夠超過專為高光反射場景設計的 NeRF-DS,取得了最佳的渲染效果。
之後上之後之後整合資料 5 個動態方式。
圖6中視覺中使用。
作者簡介
論文通訊作者為浙江大學電腦科學與技術學院金小剛教授。
Email: jin@cad.zju.edu.cn
個人主頁:http://www.cad.zju.edu. cn/home/jin/
以上是CVPR 2024滿分論文:浙大提出基於可變形三維高斯的高品質單目動態重建新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序
