新標題:即時渲染進化!基於射線的三維重建創新方法
圖片
論文連結:https://arxiv.org/pdf/2310.19629
程式碼連結:https://github.com/vLAR-group/RayDF
首頁:需要進行改寫的內容是:https://vlar-group.github.io/RayDF.html
重新撰寫的內容: 實作方法:
RayDF的整體流程與組成部分如下所示(見圖1)
一、Introduction
在機器在視覺和機器人領域的許多前沿應用中,學習準確且高效的三維形狀表達是非常重要的。然而,現有的基於三維座標的隱式表達在表示三維形狀或是渲染二維影像時,需要耗費昂貴的計算成本;相較之下,基於射線的方法能夠有效率地推斷出三維形狀。然而,已有的基於射線的方法沒有考慮到多視角下的幾何一致性,導致在未知視角下難以恢復出準確的幾何形狀
針對這些問題,本論文提出一個全新的維護了多視角幾何一致性的基於射線的隱式表達方法RayDF。此方法基於簡單的射線-表面距離場(ray-surface distance field),透過引入全新的雙射線可見性分類器(dual-ray visibility classifier)和多視角一致性優化模組(multi-view consistency optimization module),學習得到滿足多視角幾何一致的射線-表面距離。實驗結果表明,改方法在三個資料集上實現了優越的三維表面重建效能,並達到了比基於座標的方法快1000倍的渲染速度(見Table 1)。
以下是主要的貢獻:
- #採用射線-表面距離場來表示三維形狀,這個表達比現有的基於座標的表達更有效率。
- 設計了全新的雙射線可見性分類器,透過學習任意一對射線的空間關係,使得所學的射線-表面距離場能夠在多視角下保持幾何一致性。
- 在多個資料集上證明了該方法在三維形狀重建上的準確性和高效性。
二、Method
2.1 Overview
#如圖1所示,RayDF包含兩個網路及一個最佳化模組。對於主網路ray-surface distance network,只需輸入一條射線,即可得到射線起點到射線打到的幾何表面點之間的距離值。其中,如圖2所示,RayDF使用一個包圍三維場景的球對輸入的射線進行參數化,將參數化得到的四維球座標(入射點和出射點)作為網路輸入。對於輔助網dual-ray visibility classifier,輸入一對射線和一個幾何表麵點,預測兩條射線之間的相互可見性。這個輔助網絡在訓練好之後,將在後續multi-view consistency optimization module中發揮關鍵作用。
圖2 射線-表面距離場的射線參數化及網路結構
2.2 Dual-ray Visibility Classifier
該方法中的輔助網路是一個預測輸入的兩條射線是否能同時看到一個表麵點的二元分類器。如圖3所示,將輸入的兩條射線所得特徵取平均值,以確保預測的結果不受兩條射線的順序影響。同時,將表麵點進行單獨編碼所得的特徵拼接在射線特徵之後,以增強射線特徵,從而提升分類器的準確性。
雙射線可見性分類器的框架結構如圖3所示
2.3 Multi-view Consistency Optimization
以設計的主網絡ray-surface distance network和輔助網絡dual-ray visibility classifier為鋪墊,引入多視角一致性優化這一關鍵模組,對兩個網絡進行two-stage訓練。
(1) 首先為輔助網路dual-ray visibility classifier建構用於訓練的射線對。對於一張圖片中的一條射線(對應圖中的一個像素),透過其ray-surface distance可知對應的空間表麵點,將其投影到訓練集中的剩餘視角下,即得到另一個射線;而該射線有其對應的ray- surface distance,文章設定閾值10毫米來判斷兩條射線是否相互可見。
(2) 第二階段是訓練主網路ray-surface distance network使其預測的距離場滿足多視角一致性。如圖4所示,對於一條主射線及其表麵點,以此表麵點為球心均勻採樣,得到若干條multi-view ray。將主射線與這些multi-view ray一一配對,透過訓練好的dual-ray visibility classifier即可得到其相互可見性。再透過ray-surface distance network預測這些射線的ray-surface distance;若主射線與某一條採樣射線是相互可見的,那麼兩條射線的ray-surface distances計算得到的表麵點應是同一個點;依此設計了對應的損失函數,並對主網路進行訓練,最終可以使ray-surface distance field滿足多視角一致性。
2.4 Surface Normal Derivation and Outlier Points Removal
由於在場景表面邊緣處的深度值往往存在突變(存在不連續性),而神經網路又是連續函數,上述ray-surface distance field在表面邊緣處容易預測出不夠準確的距離值,從而導致邊緣處的幾何表面存在雜訊。還好,設計的ray-surface distance field有一個很好的特性,如圖5所示,每個估計的三維表麵點的法向量都可以透過網路的自動微分以閉合形式輕鬆求出。因此,可以在網路推理階段計算表麵點的法向量歐氏距離,若該距離值大於閾值,則該表麵點被視為離群點並剔除,從而得到乾淨的三維重建表面。
圖5 Surface normal計算
三、Experiments
為了驗證所提出方法的有效性,我們在三個資料集上進行了實驗。這三個資料集分別是object-level的合成資料集Blender [1]、scene-level合成資料集DM-SR [2]以及scene-level真實資料集ScanNet [3]。我們選擇了七個baselines進行效能比較。其中,OF [4]/DeepSDF [5]/NDF [6]/NeuS [7]是基於座標的level-set方法,DS-NeRF [8]是有depth監督的NeRF-based方法,LFN [9]和PRIF [10]是基於射線的兩個baselines
由於RayDF方法的易於直接增加一個radiance分支來學習紋理,因此可以與支援預測radiance field的基準模型進行比較。因此,本論文的對比實驗分為兩組,第一組(Group 1)僅預測距離(幾何),第二組(Group 2)同時預測距離和輻射度(幾何和紋理)
3.1 Evaluation on Blender Dataset
從Table 2和圖6可以看出,在Group 1和2中,RayDF在表面重建上取得了更優的結果,尤其是在最重要的ADE 指標上明顯優於基於座標和射線的baselines。同時在radiance field rendering上,RayDF也取得了與DS-NeRF相當的效能,並且優於LFN和PRIF。
圖6 Blender資料集視覺化對比
3.2 Evaluation on DM-SR Dataset
從Table 3可以看出,在最關鍵的ADE 指標上,RayDF超越了所有baselines。同時,在Group 2的實驗中,RayDF能夠在獲得高品質的新視圖合成的同時,確保恢復出準確的表面形狀(見圖7)。
圖 7 DM-SR資料集視覺化對比
3.3 Evaluation on ScanNet Dataset
表4比較了RayDF和baselines在具有挑戰性的真實世界場景中的表現。在第一組和第二組中,RayDF在幾乎所有評估指標上都明顯優於baselines,展現出在恢復複雜的真實世界三維場景方面的明顯優勢
以下是圖8 ScanNet資料集視覺化對比的重寫內容: 在圖8中,我們展示了ScanNet資料集的可視化對比結果
3.4 Ablation Study
在Blender資料集上進行了消融實驗,論文中的Table 5展示了對於關鍵的雙光線可見性分類器的消融實驗結果
- 如Table 5 (1)所示,如果沒有dual-ray visibility classifier的幫助,ray-surface distance field則會無法對新視角下的射線預測出合理的距離值(見圖9)。
- 在classifier的輸入中,選擇了輸入表麵點座標來作為輔助,如Table 5 (2)和(3)所示,若選擇輸入表麵點距離值作為輔助或是不提供輔助訊息,分類器會獲得較低的準確率和F1分數,導致為ray-surface distance network提供的可見性資訊不夠準確,進而預測出錯誤的距離值。
- 如Table 5 (4)所示,以非對稱的方式輸入一對射線,所訓練得到的分類器準確率較高,但F1分數較低。這表明,這種分類器的穩健性明顯低於用對稱輸入射線訓練的分類器。
其他的切除操作可以在論文和論文附錄中查看
#需要重新寫的內容是: 圖9展示了使用分類器和不使用分類器的可視化對比
四、Conclusion
在使用基於射線的多視角一致性框架進行研究時,論文得出了一個結論,可以透過這種方法高效、準確地學習三維形狀表示。論文中使用了簡單的射線-表面距離場來表示三維形狀的幾何圖形,並利用新穎的雙射線可見性分類器進一步實現了多視角幾何一致性。透過在多個資料集上的實驗證明,RayDF方法具有極高的渲染效率和出色的效能。歡迎對RayDF框架進行進一步擴展。您可以在主頁上查看更多的視覺化結果
需要進行改寫的內容是:https://vlar-group.github.io/RayDF.html
需要重新寫作的內容是:原文連結:https://mp.weixin.qq.com/s/dsrSHKT4NfgdDPYcKOhcOA
以上是新標題:即時渲染進化!基於射線的三維重建創新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

一先導與重點文章主要介紹自動駕駛技術中幾種常用的座標系統,以及他們之間如何完成關聯與轉換,最終建構出統一的環境模型。這裡重點理解自車到相機剛體轉換(外參),相機到影像轉換(內參),影像到像素有單位轉換。 3d向2d轉換會有對應的畸變,平移等。重點:自車座標系相機機體座標系需要被重寫的是:平面座標系像素座標系難點:要考慮影像畸變,去畸變和加畸變都是在像平面上去補償二簡介視覺系統一共有四個座標系:像素平面座標系(u,v)、影像座標系(x,y)、相機座標系()與世界座標系()。每種座標系之間均有聯繫,

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

突然發現了一篇19年的論文GSLAM:AGeneralSLAMFrameworkandBenchmark開源程式碼:https://github.com/zdzhaoyong/GSLAM直接上全文,感受這項工作的品質吧~1摘要SLAM技術最近取得了許多成功,並吸引了高科技公司的關注。然而,如何同一現有或新興演算法的介面,一級有效地進行關於速度、穩健性和可移植性的基準測試仍然是問題。本文,提出了一個名為GSLAM的新型SLAM平台,它不僅提供評估功能,還為研究人員提供了快速開發自己的SLAM系統的有用

作者的一些個人思考在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高品質的多視圖訓練資料和相應的模擬場景建立愈發重要。針對當下任務的痛點,「高品質」可以解耦成三個面向:不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準的朝向角,以及車道線資料中不同曲率的彎道或較難收集的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。 3D真值-影像的高度一致:當下的BEV資料取得往往受到感測器安裝/標定,高精地圖以及重建演算法本身的誤差影響。這導致了我

23年9月國防科大、京東和北理工的論文「DeepModelFusion:ASurvey」。深度模型整合/合併是一種新興技術,它將多個深度學習模型的參數或預測合併為一個模型。它結合了不同模型的能力來彌補單一模型的偏差和錯誤,以獲得更好的性能。而大規模深度學習模型(例如LLM和基礎模型)上的深度模型整合面臨一些挑戰,包括高運算成本、高維度參數空間、不同異質模型之間的干擾等。本文將現有的深度模型融合方法分為四類:(1)“模式連接”,透過一條損失減少的路徑將權重空間中的解連接起來,以獲得更好的模型融合初

請留意,這個方塊人正在緊鎖眉頭,思考著面前幾位「不速之客」的身份。原來她陷入了危險境地,意識到這一點後,她迅速展開腦力搜索,尋找解決問題的策略。最終,她決定先逃離現場,然後儘快尋求幫助,並立即採取行動。同時,對面的人也在進行著與她相同的思考……在《我的世界》中出現了這樣一個場景,所有的角色都由人工智慧控制。他們每個人都有著獨特的身份設定,例如之前提到的女孩就是一個年僅17歲但聰明又勇敢的快遞員。他們擁有記憶和思考能力,在這個以《我的世界》為背景的小鎮中像人類一樣生活。驅動他們的,是一款全新的、
