首頁 科技週邊 人工智慧 CVPR最佳論文候選 | NeRF新突破,以啟發式引導分割去除瞬態幹擾物,無需額外先驗知識

CVPR最佳論文候選 | NeRF新突破,以啟發式引導分割去除瞬態幹擾物,無需額外先驗知識

Jul 12, 2024 pm 05:41 PM
工程

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com  

論文第一任作者為中生山大學電腦研究研究院校研究專業導師,二維研究研究中心為中生山大學電腦研究研究人員。該論文是他的第一份工作。論文通訊作者為中山大學電腦學院、人機物智慧融合實驗室李冠彬教授,博士生導師,國家優秀青年基金得主。團隊主要研究領域為視覺感知、場景建模、理解與生成。迄今累計發表 CCF A 類 / 中科院一區論文 150 餘篇,Google Scholar 引用超過 12000 次,曾獲得吳文俊人工智能優秀青年獎等榮譽。

自被提出以來,神經輻射場(Neural Radiance Fields, NeRF)因其在新視角合成及三維重建中的出色表現而受到極大關注。

雖然大量工作都在嘗試改進NeRF 的渲染質量或運行速度,但一個現實的問題很少被人提及:如果待建模場景中出現了意想不到的瞬態幹擾物,我們應該如何消除它們對NeRF 造成的影響

本文中,來自中山大學、卡迪夫大學、賓州大學和思謀科技的研究人員對此展開了深入研究,並提出了一種解決該問題的新穎範式。

透過總結現有方法的優勢缺陷、拓寬已有技術的應用思路,該方法不僅可以在各類場景中準確區分靜瞬態元素、提高NeRF 的渲染質量,還入圍了CVPR 2024 最佳論文候選。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

  • 論文連結:https://arxiv.org/abs/2403.17537
  • 專案連結:https://www.sysu-hcp.net/projects///13331331335

    讓我們一起來了解下這項工作。

背景介紹
新視角合成是電腦視覺與圖形學的重要任務,演算法模型需要利用給定的多視角影像及相機位姿來產生目標位姿的影像。 NeRF 在該任務上取得了重要突破,但其有效性與靜態場景的假設有關。
具體來說,NeRF 要求待建模場景在拍攝過程中保持靜止、多視角影像內容必須一致。在現實中,我們很難滿足這種要求,例如在戶外拍攝時場景以外的車輛或路人可能會在鏡頭中隨機出現移動,在室內拍攝時某個物體或陰影會不經意間遮擋鏡頭。我們把這類場景以外的表現出動作或不一致的元素稱為瞬態幹擾物(Transient Distractors)。如果我們不能消除它們,它們會為 NeRF 的渲染結果帶來偽影。
                              瞬態中幹擾物(黃色方框)中造成大量的偽影。

目前解決瞬態幹擾物問題的方法大致可分為兩種。 第一種方法使用語意分割等已有分割模型明確地得到與幹擾物有關的遮罩,然後在訓練 NeRF 時屏蔽對應像素。雖然這類方法可以得到精確的分割結果,但它們並不通用。這是因為我們需要事先得知與幹擾物有關的先驗知識(如物體類別、初始掩膜等)、模型可以辨識這些幹擾物。

與第一種方法不同,第二種方法在訓練 NeRF 時使用啟發式演算法隱式地處理瞬態幹擾物,不要求先驗知識。雖然這類方法更為通用,但它們因設計複雜性和高度不適定性而無法準確分離瞬態幹擾物和靜態場景元素。例如,由於瞬態像素對應的顏色紋理在不同視角下不一致,在訓練 NeRF 時該像素的預測值和真值之間的顏色殘差往往大於靜態像素的殘差。然而,場景中的高頻靜態細節也會因難以擬合而有過大的殘差,因此一些透過設定殘差閾值來去除瞬態幹擾物的方法很容易丟失高頻靜態細節。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

現有方法與本文提出的啟發式引導分割(HuGS)之間的比較。當靜態場景被瞬態幹擾物幹擾時,(a)基於分割的方法依賴先驗知識,會因無法辨識意料之外的瞬態物體(例如比薩)而出現相關偽影;(b)基於啟發式的方法更具通用性但不夠準確(例如丟失了高頻靜態桌布紋理);(c)HuGS 結合了它們的優點,能夠精確地分離瞬態幹擾物和靜態場景元素,從而顯著改善NeRF 的結果。

方法概述

基於分割模型的方法準確但不通用、基於啟發式演算法的方法通用但不准確,那麼是否可以把它們結合起來既準確又通用呢?

因此,論文作者以「horses for courses」為動機,提出了一種名為啟發式引導分割(Heuristics-Guided Segmentation, HuGS)的新穎範式。透過巧妙結合手工設計的啟發式演算法和由提示驅動的分割模型,HuGS 可以在沒有額外先驗知識的情況下準確區分場景中的瞬態幹擾物和靜態元素。

具體來說,HuGS 首先使用啟發式演算法大致區分多視角影像中的靜瞬態元素並輸出粗糙提示,然後使用粗糙提示引導分割模型產生更精確的分割掩膜。在訓練 NeRF 時,這些掩膜會被用來屏蔽瞬態像素、消除瞬態幹擾物對 NeRF 的影響。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

                              HuGS 設計想法中。

在具體實現上,論文作者選用 Segment Anything Model (SAM) 作為 HuGS 的分割模型。 SAM 是目前最先進的基於提示驅動的分割模型,可以接受點、框、遮罩等不同類型的提示輸入並輸出對應的實例分割遮罩。

至於啟發式演算法,作者在深入分析後提出了一種組合啟發式:基於Structure-from-Motion (SfM) 的啟發式被用於捕獲場景的高頻靜態細節,而基於顏色殘差的啟發式被用來捕捉低頻靜態細節。兩種啟發式演算法輸出的粗糙靜態遮罩互不相同,而它們的並集會被用來引導 SAM 得到更精確的靜態遮罩。透過無縫結合這兩種啟發式演算法,HuGS 在面對不同紋理細節時可以穩健地識別各類靜態元素。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

HuGS 流程圖。 (a) 給定帶有瞬態幹擾物的靜態場景下的無序多視角影像,HuGS 首先獲得兩種啟發式資訊。 (b) 基於SfM 的啟發式演算法透過SfM 來取得區分靜態特徵點瞬態特徵點瞬態特徵點

生成稠密的靜態掩膜。 (c) 基於色彩殘差的啟發式演算法依賴於部分訓練(即只經過數千次迭代訓練)的 NeRF。其預測影像和真實影像之間的顏色殘差可以用於產生另一組靜態遮罩。 (d) 兩種不同遮罩的結合最終引導 SAM 產生 (e) 每個影像的準確靜態遮罩。

基於 SfM 的啟發式演算法

SfM 是一種從二維影像重建三維結構的技術。在提取影像的二維特徵後,SfM 會對特徵進行匹配和幾何驗證、重建稀疏三維點雲。 SfM 在 NeRF 中常被用來估計影像相機位姿,而論文作者發現 
SfM 也可以用來區分場景的靜瞬態元素
。設某個二維特徵點的匹配數量為與其對應相同三維點雲點的其他二維特徵點數量,那麼來自靜態區域的二維特徵點的匹配數量要大於來自瞬態區域的特徵點匹配數量。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

基於這個發現,我們可以在匹配數量上設定閾值來過濾得到靜態特徵點,再透過 SAM 將靜態特徵點轉換為靜態遮罩。為了驗證該發現的正確性,論文作者在 Kubric 資料集上進行了統計。如下圖所示,不同影像區域的特徵點匹配數量有顯著的差異。另一個視覺化結果表明合理的閾值設定可以在去除瞬態特徵點的同時保留靜態特徵點。 CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识
左圖為來自不同影像區域的特徵點在匹配數量上的數量分佈直方圖,其中靜態區域特徵點的匹配數量均勻分佈在[0,200] 區間內,而瞬態區域特徵點的配對數量趨近於0、集中分佈在[0,10] 區間內。右圖為經過過濾後不同影像區域的剩餘特徵點密度隨閾值變化的曲線圖,其中整張影像與靜態區域的剩餘特徵點密度隨著閾值上升呈線性下降,而瞬態區域的剩餘特徵點密度指數下降、且在閾值大於0.2 後幾乎為0。

兩個不同視角影像的剩餘特徵點隨閾值上升而變化的可視化分佈。位於瞬態區域內的剩餘特徵點被逐漸移除,而靜態區域的大部分特徵點仍被保留。

基於顏色殘差的啟發式演算法

雖然基於SfM 的啟發式在大部分場景中都很好地捕捉紋理平滑紋理缺乏顯著特徵、難以被SfM 的特徵提取演算法辨識。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

🎜🎜為了能夠識別低頻紋理,論文作者引入了基於顏色殘差的啟發式演算法:首先在原始多視角圖像上部分訓練NeRF(即只迭代數千次)、得到欠擬合模型,然後取得渲染影像和目標影像之間的色彩殘差。如背景介紹所述,低頻靜態紋理區域的顏色殘差要小於其他類型區域的殘差,因此可以在顏色殘差上設定閾值獲取與低頻靜態紋理相關的粗糙掩膜。透過顏色殘差得到的掩膜可以和透過 SfM 得到的掩膜互補,形成完整結果。 🎜🎜🎜🎜
兩種啟發式演算法的組合,其中(a)為輸入的目標影像,(d)為只迭代五千次的 NeRF 渲染結果。基於 SfM 的啟發式所得到的靜態遮罩 (b) 在捕捉高頻靜態細節(如盒子紋理)的同時遺漏了靜態平滑部分(如白色椅背)。基於色彩殘差的啟發式所得到的靜態遮罩(e)及其單獨引導 SAM 所得到的分割遮罩(f)取得了相反效果。它們的並集(c)在覆蓋所有靜態元素的同時區分了瞬態幹擾物(即粉紅色氣球)。

實驗結果

可視化結果
335533光,
可視化結果

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

335膜前後的渲染結果比較。在組合啟發式演算法和 SAM 的幫助下,HuGS 可以產生準確的靜態遮罩,而 Mip-NeRF 360 在應用靜態遮罩後消除了大量偽影,RGB 圖和深度圖的渲染品質有明顯提升。

定性 / 定量渲染結果比較

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

這裡展示了論文方法在三個資料集和兩個基準模型上的實驗結果,以及與現有方法的比較。現有方法要麼無法消除瞬態幹擾物帶來的偽影,要麼抹除過多的靜態紋理細節。相較之下,論文方法可以在有效消除偽影的同時更好地保留靜態細節。

定性 / 定量分割結果比較

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

論文作者同樣在 Kubric 資料集上與現有分割演算法進行了比較。實驗結果表明,即使提供了先驗知識,語義分割、視訊分割等現有分割模型依然表現不佳,這是因為現有分割模型都沒有針對該任務進行設計。現有基於啟發式的方法雖然可以大致定位瞬態幹擾物的位置,但無法得到更精確的分割結果。與之相比,HuGS 透過結合啟發式演算法和分割模型,在沒有額外先驗知識的情況下準確分離瞬態幹擾物和靜態場景元素。

消融實驗結果

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

論文作者也透過移除不同組件的方式來驗證各組件對 HuGS 造成的影響。結果表明,缺少基於SfM 的啟發式的模型(b) 無法很好地重建藍色方框中的低頻靜態紋理,而缺少基於顏色殘差的啟發式的模型(c) 和(d) 丟失了黃色方框中的高頻靜態細節。相較之下,完整方法 (f) 的數值指標和視覺化結果最佳。

全文總結
🎜🎜🎜論文提出了一種新穎的啟發式引導分割範式,有效解決了 NeRF 現實訓練中常見的瞬時幹擾問題。透過策略性地結合手工設計的啟發式和最先進的分割模型的互補優勢,該方法在沒有任何先驗知識的情況下實現了對不同場景中瞬時幹擾物的高度準確分割。透過精心設計的啟發式,論文方法能夠穩健地捕捉高頻和低頻的靜態場景元素。大量實驗證明了該方法的先進性。 🎜

以上是CVPR最佳論文候選 | NeRF新突破,以啟發式引導分割去除瞬態幹擾物,無需額外先驗知識的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1431
52
Laravel 教程
1334
25
PHP教程
1279
29
C# 教程
1257
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles