速度提升24倍,30分鐘完成室內大場景逆渲染,如視研究成果入選CVPR 2023
針對逆渲染技術的研究成果連續兩年入選電腦視覺頂會CVPR,並從處理單張影像跨越到覆蓋整個室內大場景,如視在三維重建領域的視覺演算法技術底蘊得到了淋漓盡致的展現。
三維重建是電腦視覺(CV)和電腦圖形學(CG)的熱點主題之一,它透過CV 技術處理相機等感測器拍攝的真實物體和場景的二維影像,得到它們的三維模型。隨著相關技術的不斷成熟,三維重建越來越廣泛地應用於智慧家庭、AR 旅遊、自動駕駛與高精度地圖、機器人、城市規劃、文物重建、電影娛樂等多個不同領域。
典型的基於二維影像的三維人臉重建。圖源:10.1049/iet-cvi.2013.0220
傳統三維重建大致可分為光測度和幾何方法,前者分析像素點的亮度變化,後者依靠視差完成重建。近年來又開始採用機器學習尤其是深度學習技術,在特徵檢測、深度估計等方面取得很好的效果。雖然目前一些方法利用空間幾何模型與紋理貼圖,在場景的外觀還原度上與真實世界看起來幾乎相同。
但應看到,這些方法仍存在一些局限,僅能還原場景外觀特徵,無法實現場景內光照、反射率和粗糙度等更深層屬性的數位化,對這些深層資訊的查詢和編輯更無從談起了。這也導致無法將它們轉化為渲染引擎可用的 PBR 渲染資產,也就無法產生真實感十足的渲染效果。如何解決這些問題呢?逆渲染技術逐漸進入了人們的視野。
逆渲染任務最早是由老一輩電腦科學家Barrow 和Tenenbaum 於1978 年提出,在三維重建的基礎上,進一步恢復光照、反射率、粗糙度和金屬度等場景內在屬性,實現更具真實感的渲染。不過從影像中分解這些屬性極不穩定,不同的屬性配置往往導致相似的外觀。隨著可微分渲染和隱式神經表示的進展,一些方法在具有顯式或隱式先驗的以物體為中心的小場景中取得了較好效果。
然而大規模室內場景的逆渲染一直無法很好地解決,不僅難以在真實場景下恢復物理合理的材質,場景內多視角一致性也很難保證。 在國內有這樣一家深耕自主研發核心演算法,專註三維重建領域大規模產業應用的科技公司- 如視(Realsee),針對大規模室內場景的逆渲染這一難啃的課題,開創性地提出了高效的多視角逆渲染框架。論文已被 CVPR 2023 會議接收。
- 計畫網址:http://yodlee.top/TexIR/
- 論文網址:https ://arxiv.org/pdf/2211.10206.pdf
#具體來講,如視新方法可以基於精準的空間數據,反向推測獲取諸如光照、反射率、粗糙度等場景內在屬性,在三維重建的基礎上恢復出貼近真實場景的光照和材質表現,在重建效果、成本效率、應用範圍等維度實現全面提升。
本文將對如視大規模室內場景的多視角逆渲染技術進行詳細的解讀,並深入剖析其優勢所在。
面向大規模室內場景
如視全新逆渲染技術做到「準、細、快」
下圖2 為如視全新逆渲染方法的整體流程。給定一組經過校準的大規模室內場景的 HDR 影像,該方法旨在準確地恢復全局一致的光照和 SVBRDFs(雙向反射率分佈函數),從而方便地整合到影像 pipeline 和下游應用中。
為了實現這些目標,如視首先提出一種被稱為 TBL(Texture-based Lighting)的緊湊光照表示,它由3D 網格和HDR 紋理組成,高效建模了整個室內大場景任意位置內包含直接和無限次彈射間接光照的全局光照。基於 TBL,如視又進一步提出了具有預計算輻照度的混合光照表示,大幅提升了效率並減輕了材質優化中的渲染噪聲。最後如視引入了一種基於分割的三階段式材質優化策略,很好地處理了複雜大規模室內場景中材質物理上的模糊性。
基於紋理的光照(TBL)
在表示大規模室內場景的光照上,TBL 的優勢分別表現在神經表示的緊湊性、IBL 全局光照以及參量光的可解釋性和空間一致性。 TBL 是對整個場景的全局表示,定義了所有表面點的射出輻照度。而一個表麵點的射出輻照度通常等於 HDR 紋理的值,即輸入的 HDR 影像中對應像素觀察到的 HDR 輻照度。
如視使用自研的高品質三維重建技術來重建整個大場景的網格模型。最終基於輸入的 HDR 影像來重建 HDR 紋理,並透過 HDR 紋理從任意位置任意方向查詢全域光照。下圖 3(左)展示了 TBL 的可視化。
混合照明表示
在實務中,直接利用TBL 優化材質有弊端,蒙特卡羅高取樣數會導致很高的計算和記憶體成本。由於大多數雜訊存在於漫反射分量,如視對漫反射分量表面點的輻照度進行預計算。因此可以有效率地查詢輻照度,取代了成本高昂的線上計算,如圖 3(右)所示。基於 TBL 的渲染方程式由公式 (1) 改寫為公式 (2)。
如視提出了兩種表示法來建模預計算輻照度。一種是神經輻照度場(NIrF),它是一個淺層多層感知器(MLP),以表面點作為輸入並輸出輻照度 p。另一種是輻照度紋理(IrT),它類似於電腦圖形學中常用的光照貼圖。
可以看到,這種混合光照表示包含了用於漫反射分量的預計算輻照度和用於鏡面反射分量的源TBL,大大降低了渲染噪聲,實現了材質的高效優化。式 (2) 中的漫反射分量被建模為公式 (3) 所示。
基於分割的三階段式材質估計
#對於神經材質而言,很難用極其複雜的材質對大規模場景進行建模,不適配傳統的圖形引擎。如視選擇直接優化幾何的顯式材質紋理,使用了以 SV 反照率和 SV 粗糙度作為參數的簡化版 Disney BRDF 模型。不過由於觀察的稀疏性,直接優化顯式材質紋理導致不一致和未收斂的粗糙度。
對此,如視利用語義和房間分割先驗來解決這一問題,其中語義圖像透過基於學習的模型預測,房間分割透過佔用網格計算。在實現過程中,如視採取三階段式策略。
第一階段基於 Lambertian 假設來最佳化稀疏反照率,而不是像以物件為中心的小場景那樣將反照率初始化為常數。雖然可以透過公式 (3) 直接計算漫反射反照率,但在高光區域會使得反照過亮,導致下一階段的粗糙度過高。因此,如視使用語意平滑限制在相同的語意分割上激發類似的反照率,如下公式 (4) 所示。稀疏的反照率透過公式 (5) 來優化。
第二階段基於虛擬高光(VHL)的取樣和基於語意的傳播。在多視圖影像中,只能觀察到稀疏的鏡面反射線索會導致全局不一致的粗糙度,大規模場景尤甚。不過透過語意分割先驗,高光區域的合理粗糙度可以傳播到具有相同語意的區域。
如視首先基於粗糙度為 0.01 的輸入姿態來渲染圖像以找到每個語義類別的 VHL 區域,然後根據凍結的稀疏反照率和光照來優化這些 VHL 的粗糙度。合理的粗糙度可以透過公式 (6) 傳播到相同的語義分割中,並且該粗糙度可以透過公式 (7) 進行最佳化。
第三階段基於分割的微調。如視基於語意分割和房間分割先驗來微調所有的材質紋理。具體地,如視使用了與公式 (4) 類似的平滑約束以及用於粗糙度的房間平滑約束,使不同房間的粗糙度變得更柔和、平滑。房間平滑約束由公式 (8) 定義,同時不對反照率使用任何平滑約束,總損失被定義公式 (9) 所示。
實驗設定與效果比較
關於資料集,如視使用了兩個資料集:合成資料集和真實資料集。對於前者,如視使用路徑追蹤器創建一個具有不同材質和光源的合成場景,渲染了 24 個用於優化的視圖和 14 個新視圖,為每個視圖渲染 Ground Truth 材質圖像。對於後者,由於Scannet、Matterport3D 和Replica 等常用大規模場景的真實資料集缺乏full-HDR 影像,如視收集了10 個full-HDR 真實資料集,並透過合併7 個包圍式曝光捕捉10 到20個full-HDR 全景影像。
關於基線方法。對於從大規模場景的多視圖影像中恢復 SVBRDFs,目前逆渲染方法有基於單張影像學習的 SOTA 方法 PhyIR、以多視圖物件為中心的 SOTA 神經渲染方法 InvRender、NVDIFFREC 和 NeILF。關於評估指標,如視使用 PSNR、SSIM 和 MSE 來評估材質預測和重渲染影像以進行定量比較,並使用 MAE 和 SSIM 來評估由不同光照表示渲染的重打光影像。
首先來看合成資料集上的評估,如下表1 和圖4 所示,如視方法在粗糙度估計方面顯著優於SOTA 方法,且該粗糙度可以產生物理合理的鏡面反射率。此外相較於原來的隱式表示,具有如視混合光照表示的 NeILF 減少了材質與光照之間的模糊性。
接著在包含複雜材質和光照的挑戰性真實資料集上進行評估,下表2 的定量比較結果顯示出如視方法優於以往方法。儘管這些方法具有近似的重渲染誤差,但僅有如視方法解耦了全局一致和物理合理的材質。
下圖 5 和圖 6 分別展示了 3D 視圖和 2D 影像視圖的定性比較。 PhyIR 由於域間隙大導致泛化效能差,無法實現全域一致性預測。 InvRender、NVDIFFREC 和 NeILF 產生了帶有偽影的模糊預測,難以解耦正確的材質。 NVDIFFREC 雖能實現與如視方法類似的性能,但無法解耦反照率與粗糙度之間的模糊性,例如鏡面反射分量中的高光被錯誤地恢復為漫反射反照率。
消融實驗
為了展示其光錶表示和材質優化策略的有效性,如視針對TBL、混合光照表示、第一階段的反照率初始化、第二階段用於粗糙度估計的VHL 採樣和語義傳播、第三階段基於分割的微調進行了消融實驗。
首先將TBL 與以往方法中廣泛使用的SH 光照和SG 光照方法進行了比較,結果如下圖7 所示,如視TBL 在低頻和高頻特徵方面都表現出了高保真度。
其次驗證混合光照表示的有效性,將混合光照表示與原始 TBL 進行比較,結果如下圖 8 所示。如果沒有混合光照表示,反照率會導致雜訊並且收斂變慢。預計算輻照度的引入可以使用高解析度輸入來恢復精細的材質,並大大加速最佳化過程。同時與 NIrF 相比,IrT 產生了更精細和無偽影的反照率。
最後對三階段式策略的有效性進行了驗證,結果如下表 3 和圖 9 所示。基線粗糙度未能收斂且僅高光區域更新。第一階段如果沒有反照率初始化,則高光區域反照過亮並導致不正確的粗糙度。第二階段基於 VHL 的取樣和基於語意的傳播,對於恢復未觀察到鏡面反射高光區域的合理粗糙度至關重要。第三階段基於分割的微調產生了精細的反照率,使得最終的粗糙度更平滑,並阻止了不同材質之間粗糙度的錯誤傳播。
如視全新逆向渲染技術,強在哪裡?
其實,如視在其 CVPR 2022 論文《PhyIR: Physics-based Inverse Rendering for Panoramic Indoor Images》中透過提出神經網路訓練方法,在單張影像的逆渲染任務上取得了 SOTA 結果。現在全新逆向渲染框架不僅做到了多視角、整屋全空間全場景,而且解決了以往逆向渲染方法的多個關鍵缺陷。
首先以往基於合成資料訓練的方法在真實場景中表現不佳。如視全新深度逆渲染框架首次引入了「層級式場景先驗」,透過多階段的材質優化並結合全球最大三維空間資料庫如視數位空間中的居住空間數據,對空間內的光照、反射率和粗糙度等物理屬性實現了分層級的精準預測。
預測結果最終輸出為物理合理、全局一致的多類型材質貼圖,將如視設備真實拍攝的室內場景資料無縫轉化為數位化渲染資產,適配Unity、Blender 等目前所有主流渲染引擎,由此實現場景資產自動產生和基於實體的MR 應用,如材質編輯、新視圖合成、重打光、虛擬物件插入等。這種通用性很強的數位資產有利於支援後續更多不同的應用和產品。
材質編輯
#重打光
其次以往基於最佳化的可微渲染方法計算成本極高,效率極低。近年來,為了更好地解決逆渲染問題,同時減少對訓練資料的依賴,可微渲染方法被提出,即透過「微分求導」方式使正向渲染可微分,進而將梯度反向傳播至渲染參數,最終最佳化得到基於物理的待求解參數。這類方法包括球諧(spherical-harmonic, SH)光照 [1] 和三維球形高斯(Volumetric Spherical Gaussian, VSG)光照。
但是大規模室內場景存在遮蔽、陰影等大量複雜的光學效應,在可微渲染中建模全域光照會帶來高昂的運算成本。如視本次提出的TBL 在高效準確地表示室內場景全局光照的同時,只需要大約20MB 內存,而基於密集網格的VSG 光照[2] 大約需要1GB 內存,基於稀疏網格的SH 光照方法Plenoxels [3] 大約需要750MB 內存,資料內存容量實現了數十倍縮減。
不僅如此,如視新方法可以在 30 分鐘內完成整個室內場景的反向渲染,而傳統方法[4] 可能需要 12 小時左右,整整提升了 24 倍。計算速度的大幅提升意味著成本的降低,性價比優勢更加顯著,離大規模實際應用更近了一步。
最後以往的類 NeRF 神經逆渲染方法(如 PS-NeRF [5]、 NeRFactor [6] 等)主要面向以物體為中心的小規模場景,建模大規模室內場景似乎無能為力。基於如視精準數位空間模型以及高效準確的混合光照表示,全新逆渲染框架透過引入語意分割和房間分割先驗解決了這個問題。
對於此次的全新深度逆渲染框架,如視首席科學家潘慈輝表示,「真正意義上實現了對真實世界更深層的數位化,解決了以往逆渲染方法難以在真實場景下恢復物理合理的材質和光照以及多視角一致性的問題,為三維重建和MR 的落地應用帶來了更大想像空間。」
把握逆渲染技術優勢
在數位空間中創新VR 產業融合
一直以來,如視在三維重建領域擁有許多技術積累,投入大量精力打磨並致力於相關演算法的落地。同時對尖端技術的研發支援力道很大,非常看重業界領先技術的攻克。這些成為包括此次全新逆渲染技術在內如視三維實景模型重建和 MR 研究獲得國際學術界認可的重要基礎,並幫助如視演算法能力在理論研究、技術應用等層面步入國際領先水準。
這些演算法及技術優勢將實現對真實世界的更深層數位化,並藉此進一步加速實現數位空間的建置。目前,如視數位空間透過自研的採集設備,在不同國家、不同應用場景中的累計採集量已經超過 2,700 萬套、覆蓋面積達到 22.74 億平方公尺。如視數位空間將協助其VR 產業整合發展方向,為商業零售、工業設施、文博會展、公共事務、家居家裝、房產交易等產業帶來數位應用升級的全新發展機遇,如VR 看房、VR博物館等。
如視打造的AI行銷助理
對於VR 產業融合,如視的最大優勢在於不斷良性演化的數位化重建演算法和海量真實資料的積累,使其同時擁有了較高的技術壁壘和較大的資料壁壘。這些演算法和數據在某種程度上還能相互循環起來,不斷擴大優勢。同時數據和演算法的壁壘使如視更容易切入各行業的痛點問題,帶來一些技術解決方案,創新產業發展新模式。
逆渲染技術成果連續兩年入選 CVPR,主要脫胎於如視想要在 MR 方向上有所作為並在產業上實現一些落地。未來,如視希望打通實景 VR 與純虛擬模擬之間的 Gap,真正做到虛實融合,並建構更多產業應用。
以上是速度提升24倍,30分鐘完成室內大場景逆渲染,如視研究成果入選CVPR 2023的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

作者的一些個人思考在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高品質的多視圖訓練資料和相應的模擬場景建立愈發重要。針對當下任務的痛點,「高品質」可以解耦成三個面向:不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準的朝向角,以及車道線資料中不同曲率的彎道或較難收集的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。 3D真值-影像的高度一致:當下的BEV資料取得往往受到感測器安裝/標定,高精地圖以及重建演算法本身的誤差影響。這導致了我

請留意,這個方塊人正在緊鎖眉頭,思考著面前幾位「不速之客」的身份。原來她陷入了危險境地,意識到這一點後,她迅速展開腦力搜索,尋找解決問題的策略。最終,她決定先逃離現場,然後儘快尋求幫助,並立即採取行動。同時,對面的人也在進行著與她相同的思考……在《我的世界》中出現了這樣一個場景,所有的角色都由人工智慧控制。他們每個人都有著獨特的身份設定,例如之前提到的女孩就是一個年僅17歲但聰明又勇敢的快遞員。他們擁有記憶和思考能力,在這個以《我的世界》為背景的小鎮中像人類一樣生活。驅動他們的,是一款全新的、

行動攝影從根本上改變了我們捕捉和分享生活瞬間的方法。智慧型手機的出現,尤其是iPhone,在這一轉變中發揮了關鍵作用。 iPhone以其先進的相機技術和用戶友好的編輯功能而聞名,已成為業餘和經驗豐富的攝影師的首選。 iOS17的推出標誌著這趟旅程中的一個重要里程碑。 Apple的最新更新帶來了一套增強的照片編輯功能,為用戶提供了一個更強大的工具包,將他們的日常快照變成視覺上引人入勝且藝術豐富的圖像。這種技術的發展不僅簡化了攝影過程,還為創意表達開闢了新的途徑,使用戶能夠毫不費力地為他們的照片注入專業氣息

23年9月國防科大、京東和北理工的論文「DeepModelFusion:ASurvey」。深度模型整合/合併是一種新興技術,它將多個深度學習模型的參數或預測合併為一個模型。它結合了不同模型的能力來彌補單一模型的偏差和錯誤,以獲得更好的性能。而大規模深度學習模型(例如LLM和基礎模型)上的深度模型整合面臨一些挑戰,包括高運算成本、高維度參數空間、不同異質模型之間的干擾等。本文將現有的深度模型融合方法分為四類:(1)“模式連接”,透過一條損失減少的路徑將權重空間中的解連接起來,以獲得更好的模型融合初

寫在前面&筆者的個人理解基於圖像的3D重建是一項具有挑戰性的任務,涉及從一組輸入圖像推斷目標或場景的3D形狀。基於學習的方法因其直接估計3D形狀的能力而受到關注。這篇綜述論文的重點是最先進的3D重建技術,包括產生新穎的、看不見的視野。概述了高斯飛濺方法的最新發展,包括輸入類型、模型結構、輸出表示和訓練策略。也討論了尚未解決的挑戰和未來的方向。鑑於該領域的快速進展以及增強3D重建方法的眾多機會,對演算法進行全面檢查似乎至關重要。因此,本研究對高斯散射的最新進展進行了全面的概述。 (大拇指往上滑
