首頁 科技週邊 人工智慧 CVPR 2024 | 僅需文字或圖像提示,新框架CustomNeRF精準編輯3D場景

CVPR 2024 | 僅需文字或圖像提示,新框架CustomNeRF精準編輯3D場景

Apr 15, 2024 am 10:13 AM
git 工程 重繪

美圖影像研究院(MT Lab)與中國科學院資訊工程研究所、北京航空航天大學、中山大學共同提出了3D場景編輯方法——CustomNeRF。該研究成果已被CVPR 2024接收。 CustomNeRF不僅支援文字描述和參考圖片作為3D場景的編輯提示,還能根據使用者提供的資訊產生高品質的3D場景。

Neural Radiance Field (NeRF) 自 2020 年神經輻射場 (Neural Radiance Field, NeRF) 提出以來,將隱式表達推上了一個新的高度。作為當前最前沿的技術之一,NeRF 快速泛化應用在電腦視覺、電腦圖形、擴增實境、虛擬實境等領域,並持續受到廣泛關注。 NeRF 透過對場景中每個點的輻射和密度進行建模,從而實現高品質的影像合成,這使得它在電腦視覺、電腦圖形、擴增實境和虛擬實境等領域的應用廣泛關注。 NeRF 的獨特之處在於其能夠從輸入的場景中產生高品質的影像,而不需要複雜的 3D 掃描或密集的視角影像。這項特性使得 NeRF 在許多領域具有廣泛的應用前景,包括電腦視覺、電腦圖形、擴增實境和虛擬實境等領域,並持續受到廣泛關注。 NeRF 透過對場景中的每個點的輻射和密度進行建模,從而實現高品質的影像合成。 NeRF 還可以用於產生高品質的 3D 渲染,這使得它在虛擬實境和擴增實境等領域的應用非常有前景。 NeRF 的快速發展和廣泛應用將繼續受到廣泛關注,預計在未來將會有更多基於 NeRF 的創新和應用湧現。

NeRF(神經輻射場)是一種用於最佳化和連續表示的特點,在3D場景重建中具有許多應用。它甚至帶動了3D場景編輯領域的研究,例如3D對物或場景的紋理重繪、風格化等。為了進一步提高3D場景編輯的靈活性,近期基於預訓練模型的NeRF編輯方法也正在被大量探索,而且由於NeRF的隱式表徵以及3D場景的幾何特性可以獲得符合文字提示的編輯結果,這些都是非常容易實現的事情。

為了使文本驅動的3D場景編輯也能夠實現精準控制,美圖影像研究院(MT Lab)與中國科學院資訊工程研究所、北京航空航天大學、中山大學共同提出了一種將文字描述和參考圖像統一為編輯提供的CustomNeRF框架。該框架內建了特定視角主體V∗,嵌入到混合表示中,從而滿足一般化和客製化的3D場景編輯要求。該研究成果已被CVPR 2024記錄,程式碼也已開源。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

  • 論文連結:https://arxiv.org/abs/2312.01663

  • 程式碼連結: https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

##                  驅動(右)的編輯效果

CustomNeRF 解決的兩大挑戰

目前,基於預訓練擴散模型進行3D 場景編輯的主流方法主要分為兩類。

其一,是使用圖像編輯模型迭代地更新資料集中的圖像,但是受限於圖像編輯模型的能力,會在部分編輯情況下失效。其二,則是利用分數蒸餾採樣(SDS)損失對場景進行編輯,但由於文本和場景之間的對齊問題,這類方法在真實場景中無法直接適配,會對非編輯區域造成不必要的修改,往往需要mesh 或voxel 等顯式中間表達。

此外,目前的這兩類方法主要集中在由文字驅動的3D 場景編輯任務中,文字描述往往難以準確表達使用者的編輯需求,無法將圖像中的具體概念客製化到3D 場景中,只能對原始3D 場景進行一般化編輯,因此難以獲得使用者預期中的編輯結果。

事實上,獲得預期編輯結果的關鍵在於精確識別影像前景區域,這樣能夠在保持影像背景的同時促進幾何一致的影像前景編輯。

因此,為了實現僅對圖像前景區域進行準確編輯,該論文提出了一種局部- 全局迭代編輯(LGIE)的訓練方案,在圖像前景區域編輯和全圖像編輯之間交替進行。該方案能夠準確定位影像前景區域,並在保留影像背景的同時僅對影像前景進行操作。

此外,在由影像驅動的 3D 場景編輯中,存在因微調的擴散模型過度擬合到參考影像視角,所造成的編輯結果幾何不一致問題。對此,該論文設計了一種類引導的正則化,在局部編輯階段僅使用類詞來表示參考圖像的主體,並利用預訓練擴散模型中的一般類先驗來促進幾何一致的編輯。

CustomNeRF 的整體流程

如圖2 所示,CustomNeRF 透過3 個步驟,來實現在文字提示或參考影像的指導下精確編輯重建3D 場景這一目標。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   圖上使用中對列開始1#NeRF 的整體執行圖#D#1#311131131 月11313 月的原始流程# CustomNeRF 引入了額外的mask field 來估計除常規顏色和密度之外的編輯機率。如圖 2(a) 所示,對於一組需要重建 3D 場景的圖像,論文先使用 Grouded SAM 從自然語言描述中提取圖像編輯區域的掩碼,結合原始圖像集訓練 foreground-aware NeRF。在 NeRF 重建後,編輯機率用於區分要編輯的影像區域(即影像前景區域)和不相關的影像區域(即影像背景區域),以便於在影像編輯訓練過程中進行解耦合的渲染。 其次,為了統一圖像驅動和文字驅動的3D 場景編輯任務,如圖2(b)所示,該論文採用了Custom Diffusion 的方法在圖像驅動條件下針對參考圖進行微調,以學習特定主體的關鍵特徵。經過訓練後,特殊字 V∗可以作為常規的單字標記用於表達參考影像中的主體概念,從而形成一個混合提示,例如 “a photo of a V∗ dog”。透過這種方式,CustomNeRF 能夠對自適應類型的資料(包括圖像或文字)進行一致且有效的編輯。

在最終的編輯階段,由於 NeRF 的隱式表達,如果使用 SDS 損失對整個 3D 區域進行最佳化會導致背景區域發生顯著變化,而這些區域在編輯後理應與原始場景保持一致。如圖 2(c)所示,論文提出了局部 - 全局迭代編輯(LGIE)方案進行解耦合的 SDS 訓練,使其能夠在編輯佈局區域的同時保留背景內容。

具體而言,該論文將 NeRF 的編輯訓練過程進行了更精細的劃分。透過 foreground-aware NeRF,CustomNeRF 可以在訓練中靈活地控制 NeRF 的渲染過程,即在固定相機視角下,可以選擇渲染前景、背景、以及包含前景和背景的常規影像。在訓練過程中,透過迭代渲染前景和背景,並結合相應的前景或背景提示,可以利用 SDS 損失在不同層面編輯當前的 NeRF 場景。其中,局部的前景訓練使得在編輯過程中能夠只專注於需編輯的區域,簡化複雜場景中編輯任務的難度;而全局的訓練將整個場景考慮在內,能夠保持前景和背景的協調性。為了進一步保持非編輯區域不改變,論文還利用編輯訓練前的背景監督訓練過程中所新渲染的背景,來保持背景像素的一致性。

此外,影像驅動 3D 場景編輯中存在著加劇的幾何不一致問題。因為經過參考影像微調過的擴散模型,在推理過程中傾向於產生和參考影像視角相近的影像,造成編輯後 3D 場景的多個視角均是前視圖的幾何問題。為此,論文設計了一種類引導的正則化策略,在全局提示中使用特殊描述符V*,在局部提示中僅使用類詞,以利用預訓練擴散模型中包含的類先驗,使用更幾何一致的方式將新概念注入場景中。

實驗結果

如圖3 和圖4 展示了CustomNeRF 與基準方法的3D 場景重建結果對比,在參考影像和文字驅動的3D 場景編輯任務中,CustomNeRF 均取得了不錯的編輯結果,不僅與編輯提示達成了良好的對齊,且背景區域和原始場景保持一致。此外,表 1、表 2 展示了 CustomNeRF 在圖像、文字驅動下與基線方法的量化比較,結果顯示在文字對齊指標、圖像對齊指標和人類評估中,CustomNeRF 均超越了基線方法。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景                                 # 圖上與基準化方法的視覺化比較中與基準方法的視覺化比較## 圖

#圖片##11221#>

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                               圖4 文本驅動編輯下與基線的可視化比較

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   表1 影像驅動編輯下與基線之間的定量比較#o ## # #                 表2 文字驅動編輯下與基準的定量比較

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

總結本論文創新地提出了CustomNeRF 模型,同時支持文本描述或參考圖像的編輯提示,並解決了兩個關鍵性挑戰—— 精確的僅前景編輯以及在使用單視圖參考圖像時多個視圖的一致性。該方案包括局部- 全局迭代編輯(LGIE)訓練方案,使得編輯操作能夠在專注於前景的同時保持背景不變;以及類引導正則化,減輕圖像驅動編輯中的視圖不一致,通過大量實驗,也驗證了CustomNeRF 在各種真實場景中,能夠準確編輯由文字描述和參考圖像提示的3D 場景。

以上是CVPR 2024 | 僅需文字或圖像提示,新框架CustomNeRF精準編輯3D場景的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Go語言中用於浮點數運算的庫有哪些? Go語言中用於浮點數運算的庫有哪些? Apr 02, 2025 pm 02:06 PM

Go語言中用於浮點數運算的庫介紹在Go語言(也稱為Golang)中,進行浮點數的加減乘除運算時,如何確保精度是�...

h5項目怎麼運行 h5項目怎麼運行 Apr 06, 2025 pm 12:21 PM

運行 H5 項目需要以下步驟:安裝 Web 服務器、Node.js、開發工具等必要工具。搭建開發環境,創建項目文件夾、初始化項目、編寫代碼。啟動開發服務器,使用命令行運行命令。在瀏覽器中預覽項目,輸入開發服務器 URL。發布項目,優化代碼、部署項目、設置 Web 服務器配置。

Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Apr 04, 2025 pm 11:54 PM

GiteePages靜態網站部署失敗:404錯誤排查與解決在使用Gitee...

Beego ORM中如何指定模型關聯的數據庫? Beego ORM中如何指定模型關聯的數據庫? Apr 02, 2025 pm 03:54 PM

在BeegoORM框架下,如何指定模型關聯的數據庫?許多Beego項目需要同時操作多個數據庫。當使用Beego...

Go語言中哪些庫是由大公司開發或知名的開源項目提供的? Go語言中哪些庫是由大公司開發或知名的開源項目提供的? Apr 02, 2025 pm 04:12 PM

Go語言中哪些庫是大公司開發或知名開源項目?在使用Go語言進行編程時,開發者常常會遇到一些常見的需求,�...

H5頁面製作是否需要持續維護 H5頁面製作是否需要持續維護 Apr 05, 2025 pm 11:27 PM

H5頁面需要持續維護,這是因為代碼漏洞、瀏覽器兼容性、性能優化、安全更新和用戶體驗提升等因素。有效維護的方法包括建立完善的測試體系、使用版本控制工具、定期監控頁面性能、收集用戶反饋和製定維護計劃。

在Go語言中使用Redis Stream實現消息隊列時,如何解決user_id類型轉換問題? 在Go語言中使用Redis Stream實現消息隊列時,如何解決user_id類型轉換問題? Apr 02, 2025 pm 04:54 PM

Go語言中使用RedisStream實現消息隊列時類型轉換問題在使用Go語言與Redis...

如何提高jieba分詞在景區評論分析中的準確性? 如何提高jieba分詞在景區評論分析中的準確性? Apr 02, 2025 am 07:09 AM

如何解決jieba分詞在景區評論分析中的問題?當我們在進行景區評論分析時,往往會使用jieba分詞工具來處理文�...

See all articles