只要訓練一次,即可產生3D新場景!谷歌「光場神經渲染」演化史
視圖合成(view synthesis)是電腦視覺和電腦圖形學交叉領域的重點難題,指的是從一個場景的多張圖片中創建該場景的新視圖。
要準確地合成一個場景的新視圖,一個模型需要從一小部分參考圖片中捕捉多種類型的信息,例如詳細的三維結構、材料和光照等。
自2020年研究人員提出神經輻射場(NeRF)模型以來,這個問題也受到了越來越多的關注,大大推動了新視圖合成的性能。
其中一個超級大玩家就是Google,在NeRF領域也發表了許多論文,這篇文章將為大家介紹兩篇Google發表在CVPR 2022和ECCV 2022的論文,講述光場神經渲染模型的演化。
第一篇論文提出一個基於Transformer的兩階段模型來學習組合參考像素顏色,首先獲得沿對極線(epipolar lines)的特徵,然後獲得沿參考視圖的特徵以產生目標射線的顏色,極大地提升了視圖重現的準確率。
論文連結:https://arxiv.org/pdf/2112.09687.pdf
#經典光場渲染(Light Field Rendering)可以準確地再現與視圖相關的效應,如反射、折射和半透明,但需要對場景進行密集的視圖取樣。基於幾何重建的方法只需要稀疏的視圖,但不能準確地模擬non-Lambertian效應,即非理想散射。
文中提出的新模型結合了這兩個方向的優勢並緩解了其局限性,透過對光場的四維表示進行操作,模型可以學會準確地表示與視圖相關的效應。透過在訓練和推理過程中強制執行幾何約束,場景幾何被隱含地從一組稀疏的視圖中學習。
該模型在多個正向和360°資料集上的表現優於最先進的模型,並且在具有嚴重的視線依賴性變化的場景上有較大的空間。
另一篇論文透過使用具有規範化(canonicalized)位置編碼的Transformer序列來解決合成未見過的場景的泛化性問題。模型在一組場景上訓練後就可以用來合成新場景的視圖。
論文連結:https://arxiv.org/pdf/2207.10662.pdf
#文中提出了一個不同的範式,不需要深度特徵和類似NeRF的體積渲染,該方法只需從場景中取樣patch集合就能直接預測新場景中目標射線的顏色。
首先利用對極幾何學,沿著每個參考視圖的對極線提取patch,並將每個patch都線性地投射到一個一維特徵向量中,然後由一系列的Transformer處理這個集合。
對於位置編碼,研究人員採用和光場表示方法類似的方式對射線進行參數化,區別在於座標是相對於目標射線的規範化,也使得該方法獨立於參考框架並提高了通用性。
模型的創新點在於,它是進行基於圖像的渲染,結合參考圖像的顏色和特徵來渲染新的視圖,而且純粹是基於Transformer的,在影像patch集上操作。並且它們利用4D光場表示來進行位置編碼,有助於模擬與視圖相關的效果。
最後實驗結果表明,該方法在未見過的場景的新視圖合成方面優於其他方法,即使在用比少得多的數據進行訓練時也是如此。
光場神經渲染
模型的輸入包括一組參考影像、對應的相機參數(焦距、位置和空間方向),以及使用者想要確定其顏色的目標射線的座標。
為了產生一個新的影像,我們需要從輸入影像的相機參數開始,先得到目標射線的座標(每一個都對應一個像素),並為每個座標進行模型查詢。
研究人員的解決方法是,不完全處理每張參考影像,而只看可能影響目標像素的區域。這些區域可以透過對極幾何學來確定,將每個目標像素映射到每個參考框架上的一條線。
為了穩健起見,需要在對極線上的一些點周圍選取小區域,從而形成將被模型實際處理的patch集合,然後將Transformer作用於這組patch上以獲得目標像素的顏色。
Transformer在這種情況下特別有用,因為其中的自註意力機制可以自然地將patch集合作為輸入,注意力權重本身就可以用來結合參考視圖顏色和特徵來預測輸出像素的顏色。
在光場神經渲染(LFNR)中,研究人員使用兩個Transformer序列將patch集合對應到目標像素顏色。
第一個Transformer沿著每條對極線聚合訊息,第二個Transformer沿著每張參考影像聚合資訊。
這種方法可以把第一個Transformer解釋為在每個參考影格上尋找目標像素的潛在對應關係,而第二個Transformer則是對遮蔽和視線依賴效應的推理,這也是基於圖像的渲染的常見難題。
LFNR在最受歡迎的視圖合成基準(NeRF的Blender和Real Forward-Facing場景以及NeX的Shiny)上相比sota模型在峰值信噪比(PSNR)的提升幅度高達5dB,相當於像素級的誤差減少了1.8倍。
LFNR可以重現一些NeX/Shiny資料集中比較困難的視線依賴性效果,例如CD上的彩虹和反射,瓶子上的反射、折射和半透明。
與先前的方法如NeX和NeRF相比,它們就沒辦法重現與視線相關的效果,如NeX/Shiny資料集中的實驗室場景中的試管的半透明性和折射率。
一次訓練,泛化新場景
但LFNR也有限制。
第一個Transformer對每個參考影像獨立地沿每條對極線折疊訊息,這也意味著模型只能根據每個參考影像的輸出射線座標和patch來決定要保留哪些訊息,這在單一場景的訓練中效果很好(和大多數神經渲染方法一樣),但它無法泛化到不同場景中。
可通用的模型很重要,因為可以直接套用到新的場景而不需要重新訓練。
研究人員提出可通用的基於patch的神經渲染(GPNR)模型解決了LFNR的這個缺陷。
透過在模型中增加一個Transfomre,使其在其他兩個Transformer之前運行,並在所有參考圖像的相同深度的點之間交換資訊。
GPNR由三個Transformer序列組成,這些Transformer將沿著對極線提取的一組patch對應為像素顏色。影像patch透過線性投影層被映射到初始特徵,然後這些特徵被模型連續細化和聚合,最終形成特徵和顏色。
舉個例子,第一個Transformer從「公園長椅」上提取出patch序列後,新模型可以使用在兩個視圖中出現在對應深度的「花」這樣的線索,顯示存在潛在的匹配。
這項工作的另一個關鍵idea就是根據目標射線將位置編碼規範化,因為想要在不同的場景中進行泛化,就必須以相對而非絕對的參考系來表示quantities
為了評估模型的泛化性能,研究人員在一組場景上訓練GPNR,並在新場景上進行測試。
GPNR在幾個基準(遵照IBRNet和MVSNeRF協定)上平均提高了0.5-1.0 dB,尤其是在IBRNet基准上,GPNR 在只使用11%的訓練場景的情況下,就超過了基準模型。
GPNR在NeX/Shiny和LLFF的保持場景上產生的視圖細節,沒有進行任何微調。與IBRNet相比,GPNR可以更準確地再現葉片上的細節和透過鏡頭的折射。
以上是只要訓練一次,即可產生3D新場景!谷歌「光場神經渲染」演化史的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
