目錄
实验结果:
#總結:
首頁 科技週邊 人工智慧 CVPR 2024 | 面向真實感場景產生的光達擴散模型

CVPR 2024 | 面向真實感場景產生的光達擴散模型

Apr 24, 2024 pm 04:28 PM
git 模型 雷達 機器人技術

原標題:Towards Realistic Sc​​ene Generation with LiDAR Diffusion Models

論文連結:https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

程式碼連結:https://lidar-diffusion.github.io

作者單位:CMU 豐田研究院南加州大學

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

#論文想法:

擴散模型(DMs)在逼真的影像合成方面表現出色,但將其適配到雷射雷達場景生成中存在著重大挑戰。這主要是因為在點空間運作的DMs 難以保持雷射雷達場景的曲線樣式和三維特性,這消耗了它們大部分的表徵能力。本文提出了光達擴散模型(LiDMs),這一模型透過在學習流程中融入幾何壓縮來模擬現實世界的光達場景。本文引入了曲線壓縮來模擬現實世界的雷射雷達模式,以及區塊級(patch-wise)編碼以獲取完整的三維物體上下文。借助這三個核心設計,本文在無條件雷射雷達生成場景中建立了新的SOTA,並同時與基於點的DMs相比保持了高效率(最高可快107倍)。此外,透過將雷射雷達場景壓縮到隱空間,本文使DMs能夠在各種條件下控制,例如語義地圖、相機視圖和文字提示。

主要貢獻:

本文提出了一種新穎的雷射達擴散模型(LiDM),這是一種生成模型,能夠基於任意輸入條件的逼真光達場景生成。據本文所知,這是第一個能夠從多模態條件產生雷射雷達場景的方法。

本文引入了曲線級壓縮以保持逼真的雷射達模式,點級座標監督以規範場景級幾何的模型,並且引入了區塊級編碼以完全捕捉3D物體的上下文。

本文引入了三個指標,用於在感知空間中全面且定量地評估生成的雷射達場景質量,比較包括距離影像、稀疏體積和點雲等多種表現形式。

本文的方法是利用64線雷射雷達場景的無條件場景合成上實現了最新水平,並且相比於基於點的擴散模型實現了高達107倍的速度提升。

網頁設計:

近年來,條件生成模型的發展迅速,這些模型能夠產生視覺上吸引人且高度逼真的圖像。在這些模型中,擴散模型(DMs)憑藉其無可挑剔的性能,已成為最受歡迎的方法之一。為了實現任意條件下的生成,隱擴散模型(LDMs)[51] 結合了交叉注意力機制和卷積自編碼器,以生成高解析度影像。其後續擴展(例如,Stable Diffusion [2], Midjourney [1], ControlNet [72])進一步增強了其條件影像合成的潛力。

這一成功引發了本文的思考:我們能否將可控的擴散模型(DMs)應用於自動駕駛和機器人技術中的光達場景生成?例如,給定一組邊界框,這些模型能否合成相應的雷射雷達場景,從而將這些邊界框轉化為高品質且昂貴的標註資料?或者,是否有可能僅從一組影像生成一個3D場景?甚至更有野心地,我們能設計出一個由語言驅動的光達產生器來進行可控模擬嗎?為了回答這些交織在一起的問題,本文的目標是設計出能夠結合多種條件(例如,佈局、相機視角、文字)來產生逼真光達場景的擴散模型。

為此,本文從最近自動駕駛領域的擴散模型(DMs)工作中獲得了一些見解。在[75]中,介紹了一種基於點的擴散模型(即LiDARGen),用於無條件的雷射雷達場景產生。然而,這個模型往往會產生吵雜的背景(如道路、牆壁)和模糊的物體(如汽車),導致生成的雷射雷達場景與現實情況相去甚遠(參見圖1)。此外,在沒有任何壓縮的情況下對點進行擴散,會使得推理過程計算速度變慢。而且,直接應用 patch-based 擴散模型(即 Latent Diffusion [51])到雷射雷達場景生成,無論是在質量上或數量上,都未能達到令人滿意的性能(參見圖1)。

为了实现条件化的逼真激光雷达场景生成,本文提出了一种基于曲线的生成器,称为激光雷达扩散模型(LiDMs),以回答上述问题并解决近期工作中的不足。LiDMs 能够处理任意条件,例如边界框、相机图像和语义地图。LiDMs 利用距离图像作为激光雷达场景的表征,这在各种下游任务中非常普遍,如检测[34, 43]、语义分割[44, 66]以及生成[75]。这一选择是基于距离图像与点云之间可逆且无损的转换,以及从高度优化的二维卷积操作中获得的显著优势。为了在扩散过程中把握激光雷达场景的语义和概念本质,本文的方法在扩散过程之前,将激光雷达场景的编码点转换到一个感知等效的隐空间(perceptually equivalent latent space)中。

为了进一步提高真实世界激光雷达数据的逼真模拟效果,本文专注于三个关键组成部分:模式真实性、几何真实性和物体真实性。首先,本文利用曲线压缩在自动编码过程中保持点的曲线图案,这一做法受到[59]的启发。其次,为了实现几何真实性,本文引入了点级坐标监督,以教会本文的自编码器理解场景级别的几何结构。最后,本文通过增加额外的块级下采样策略来扩大感受野,以捕捉视觉上较大物体的完整上下文。通过这些提出的模块增强,所产生的感知空间使得扩散模型能够高效地合成高质量的激光雷达场景(参见图1),同时在性能上也表现出色,与基于点的扩散模型相比速度提升了107倍(在一台NVIDIA RTX 3090上评估),并支持任意类型的基于图像和基于 token 的条件。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图1. 本文的方法(LiDM)在无条件的激光雷达逼真场景生成方面确立了新的SOTA,并标志着从不同输入模态生成条件化激光雷达场景方向上的一个里程碑。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图2. 64线数据上 LiDMs 的概览,包括三个部分:激光雷达压缩(参见第3.3节和3.5节)、多模态条件化(参见第3.4节)以及激光雷达扩散(参见第3.5节)。

实验结果:

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图3. 在64线场景下,来自 LiDARGen [75]、Latent Diffusion [51] 以及本文的 LiDMs 的例子。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图4. 在32线场景下,来自本文 LiDMs 的例子。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图5. 在SemanticKITTI [5]数据集上,用于语义地图到激光雷达生成的本文的 LiDM 的例子。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图6. 在KITTI-360 [37]数据集上,用于条件相机到激光雷达生成的 LiDM 的例子。橙色框表示输入图像所覆盖的区域。对于每个场景,KITTI-360提供一个视角,它只覆盖了场景的一部分。因此,LiDM 对相机覆盖的区域执行条件生成,对其余未观测到的区域执行无条件生成。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图7. 在64线场景下,用于 zero-shot 文本到激光雷达生成的 LiDM 的例子。橙色虚线框起的区域表示受条件影响的区域,绿色框突出显示了可能与提示词相关联的物体。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

图8. 总体缩放因子()与采样质量(FRID和FSVD)的对比。本文在KITTI-360 [37]数据集上比较了不同规模的曲线级编码(Curve)、块级编码(Patch)以及带有一(C 1P)或两(C 2P)阶段块级编码的曲线级编码。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

圖9. LiDM 的例子,包括有或沒有點級監督,如第3.3節所提出的。

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

#總結:

##本文提出了光達擴散模型(LiDMs),這是一個用於雷射雷達場景產生的通用條件化框架。本文的設計著重於保留曲線狀的圖案以及場景層級和物體層級的幾何結構,為擴散模型設計了一個高效的隱空間,以實現雷射雷達逼真生成。這種設計使得本文的LiDMs 在64線場景下能夠在無條件生成方面取得有競爭力的性能,並在條件生成方面達到了最先進的水平,可以使用多種條件對LiDMs 進行控制,包括語義地圖、相機視圖和文字提示。據本文所知,本文的方法是首次成功將條件引入雷射雷達生成的方法。

引用:

@inproceedings{ran2024towards,

title={Towards Realistic Sc​​ene Generation with LiDAR Diffusion Models},
author={ Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2024}
}

##

以上是CVPR 2024 | 面向真實感場景產生的光達擴散模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Go語言中用於浮點數運算的庫有哪些? Go語言中用於浮點數運算的庫有哪些? Apr 02, 2025 pm 02:06 PM

Go語言中用於浮點數運算的庫介紹在Go語言(也稱為Golang)中,進行浮點數的加減乘除運算時,如何確保精度是�...

h5項目怎麼運行 h5項目怎麼運行 Apr 06, 2025 pm 12:21 PM

運行 H5 項目需要以下步驟:安裝 Web 服務器、Node.js、開發工具等必要工具。搭建開發環境,創建項目文件夾、初始化項目、編寫代碼。啟動開發服務器,使用命令行運行命令。在瀏覽器中預覽項目,輸入開發服務器 URL。發布項目,優化代碼、部署項目、設置 Web 服務器配置。

Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Apr 04, 2025 pm 11:54 PM

GiteePages靜態網站部署失敗:404錯誤排查與解決在使用Gitee...

Beego ORM中如何指定模型關聯的數據庫? Beego ORM中如何指定模型關聯的數據庫? Apr 02, 2025 pm 03:54 PM

在BeegoORM框架下,如何指定模型關聯的數據庫?許多Beego項目需要同時操作多個數據庫。當使用Beego...

Go語言中哪些庫是由大公司開發或知名的開源項目提供的? Go語言中哪些庫是由大公司開發或知名的開源項目提供的? Apr 02, 2025 pm 04:12 PM

Go語言中哪些庫是大公司開發或知名開源項目?在使用Go語言進行編程時,開發者常常會遇到一些常見的需求,�...

在Go語言中使用Redis Stream實現消息隊列時,如何解決user_id類型轉換問題? 在Go語言中使用Redis Stream實現消息隊列時,如何解決user_id類型轉換問題? Apr 02, 2025 pm 04:54 PM

Go語言中使用RedisStream實現消息隊列時類型轉換問題在使用Go語言與Redis...

H5頁面製作是否需要持續維護 H5頁面製作是否需要持續維護 Apr 05, 2025 pm 11:27 PM

H5頁面需要持續維護,這是因為代碼漏洞、瀏覽器兼容性、性能優化、安全更新和用戶體驗提升等因素。有效維護的方法包括建立完善的測試體系、使用版本控制工具、定期監控頁面性能、收集用戶反饋和製定維護計劃。

使用 sql.Open 時,DSN 傳空為什麼不報錯? 使用 sql.Open 時,DSN 傳空為什麼不報錯? Apr 02, 2025 pm 12:54 PM

使用sql.Open時,DSN傳空為什麼不報錯?在Go語言中,sql.Open...

See all articles