ReSimAD:如何透過虛擬資料提升感知模型的泛化效能
寫在前面&筆者的個人理解
自動駕駛車輛感測器層面的域變化是很普遍的現象,例如在不同場景和位置的自動駕駛車輛,處在不同光照、天氣條件下的自動駕駛車輛,搭載了不同感測器設備的自動駕駛車輛,上述這些都可以被考慮為是經典的自動駕駛域差異。這種領域差異對於自動駕駛帶來了挑戰,主要因為依賴舊域知識的自動駕駛模型很難在沒有額外成本的情況下直接部署到一個從未見過的新領域。因此在本文,我們提出了一種重建-模擬-感知(ReSimAD)方案,來提供了一種進行域遷移的新視角和方法。具體來說,我們利用隱式重建技術來獲取駕駛場景中的舊域知識,重建過程的目的是為了研究如何將舊域中領域相關的知識轉換為域不變的表示(Domain-invariant Representations),如,我們認為3D場景層級網格表示(3D Mesh Representations)就是一種域不變的表示。基於重建後的結果,我們進一步利用模擬器來產生更逼真的類目標域的模擬點雲,這一步依賴重建得到的背景資訊和目標域的感測器方案,從而降低了後續感知過程中收集和標註新域資料的成本。
我們在實驗驗證部分考慮了不同的跨域設置,包括Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE等。所有跨域設置都採用zero-shot實驗設置,只依賴源域的背景mesh和仿真感測器來進行目標域樣本仿真,提升模型泛化能力。結果表明,ReSimAD可極大提升感知模型對目標域場景的泛化能力,甚至比一些無監督領域適配方法還要好。
論文資訊
- 論文主題:ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation
- ICLR-2024接收
- 論文發表單位:上海人工智慧實驗室,上海交通大學,復旦大學,北京航空航天大學
- 論文地址:https: //arxiv.org/abs/2309.05527
- 程式碼位址:模擬資料集與感知部分,https://github.com/PJLab-ADG/3DTrans#resimad;源域重建部分,https:// github.com/pjlab-ADG/neuralsim;目標域模擬部分,https://github.com/PJLab-ADG/PCSim
研究動機
挑戰
:雖然3D模型可以幫助自動駕駛汽車識別周圍環境,但現有的基準模型很難推廣到新的領域(如不同的感測器設定或未見過的城市)。自動駕駛領域的長期願景是可以以較低的代價讓模型可以實現域遷移,即:將一個在源域上充分訓練的模型成功地適配到目標域場景,其中源域和目標域分別是存在明顯資料分佈差異的兩個域,如源域是晴天,目標域是雨天;源域是64-beam感測器,目標域是32-beam感測器。
常用的解決想法:面臨上述領域差異情況,最常見的解決方案是對目標域場景進行資料獲取和資料標註,這種方式可以從一定程度上避免域差異帶來的模型效能退化的問題,但是存在極大的1)資料收集代價和2)資料標註代價。因此,如下圖所示(請看(a)和(b)兩基線方法),為了緩解對於一個新域的資料擷取和資料標註代價,可以利用模擬引擎來渲染一些模擬點雲樣本,這是常見的sim-to-real研究工作的解決思路。另一個想法是無監督領域適配(UDA for 3D),這一類工作的目的是研究如何在僅僅接觸到無標註的目標域數據(注意是真實數據)的條件下,實現近似全監督微調的效能,如果可以做到這一點,確實省去了為目標域進行標註的代價,但是UDA方法仍然需要採集海量的真實目標域資料來刻畫目標域的資料分佈。
我們的思路:不同於上述兩個類別的研究思路,如下圖所示(請看(c)基準流程),我們致力於虛實結合的資料模擬-感知一體化路線,其中虛實結合中的真實是指:基於海量有標籤的源域數據,來構建一個域不變(domain-invariant)的表示,這種假設對於很多場景具有實際意義,因為經過長期歷史數據積累,我們總是可以認為這種有標註的源域資料是存在的;另一方面,虛實結合中的模擬是指:當我們基於源域資料建構了一種域不變(domain-invariant)的表示後,這種表示法可以被匯入到現有的渲染pipeline中來執行目標域資料模擬。相較於目前sim-to-real這一類研究工作,我們的方法有真實場景級數據作為支撐,包括道路結構、上下坡等真實信息,這些信息是僅依賴於仿真引擎本身難以獲得的。當獲得了類目標域的資料之後,我們將這些資料融入目前最好的感知模型中,例如PV-RCNN,進行訓練,然後驗證模型在目標域下的精確度。整體的詳細工作流程請見下圖:
圖2 ReSimAD流程圖
ReSimAD的流程圖如圖2所示,主要包含a) Point-to -Mesh隱含重建過程, b) Mesh-to-point模擬引擎渲染過程, c) 零樣本感知過程。
ReSimAD:模擬重建感知範式
a) Point-to-mesh隱含重建過程:受到StreetSurf的啟發,我們僅使用光達重建來重建真實而多樣的街道場景背景、動態交通流資訊。我們首先設計了一個純點雲SDF重建模組(LiDAR-only Implicit Neural Reconstruction,LINR),其優勢是可以不受到一些由camera感測所導致的域差異的影響,例如:光照變化、天氣條件變化等。純點雲SDF重建模組將LiDAR rays作為輸入,然後預測深度訊息,最終建構場景3D meshes表示。
具體地,對於從原點,方向為
發射的光線
,我們對光達應用體渲染來訓練Signed Distance Field (SDF)網絡,渲染深度D可以公式化為:
其中是第個樣本點的取樣深度,是累積透射率(the accumulated transmittance),是透過使用NeuS中的近距離模型獲得的。
從StreetSurf中獲得靈感,本文提出的重建過程的模型輸入來自於雷射雷達射線,輸出是預測的深度。在每個採樣的光達光束上,我們在
上應用對數L1損失,即組合近景和遠景模型的渲染深度:
由於Waymo資料集中頂部雷射雷達(Top LiDAR)的垂直視野的限制,僅獲得-17.6°至2.4°之間的點雲對周圍高層建築的重建存在明顯的限制。為了應對這項挑戰,我們引入了將側面雷射雷達(Side LiDAR)的點雲納入採樣序列來進行重建的解決方案。四個補盲雷達分別安裝在在自動駕駛車輛的前部、後部和兩個側面,垂直視野達到 [-90°,30°],這有效地補償了頂部雷射雷達的視野範圍不足的缺點。由於側面光達和頂部光達之間的點雲密度存在差異,我們選擇為側面光達分配更高的採樣權重,以提高高層建築場景的重建品質。
重建品質評估: 由於動態物體造成的遮蔽和雷射雷達雜訊的影響,隱式表示進行重建可能存在於一定的雜訊中。因此,我們對重建精度進行了評估。因為我們可以獲得來自於舊領域的海量帶標註的點雲數據,因此我們可以透過在舊域上進行重新渲染來獲取到舊域的仿真點雲數據,以此來評價重建mesh的準確性。我們對模擬後的點雲和原始真實點雲進行度量,使用均方根誤差(RMSE)和倒角距離(CD):
Mesh-to-point模擬引擎渲染過程: 在透過上述LINR方法獲得到靜態背景mesh後,我們使用Blender Python API將網格資料從.ply格式轉換為.fbx格式的3D模型文件,並最終將背景mesh作為資產庫載入到用於開源模擬器CARLA。
我們首先獲得Waymo的標註文件,來獲取每一個交通參與者的邊界框類別和三維物體大小,並根據這些信息,我們在CARLA的數字資產庫中搜索同一類別的交通參與者中大小最接近的數位資產,並將這個數位資產匯入並作為交通參與者模型。根據CARLA模擬器中可用的場景真實性信息,我們為交通場景中的每個可檢測的目標開發了一個檢測框提取工具。詳細資訊請參考,PCSim開發工具。
ReSimAD重建-模擬資料集
我們將Waymo作為源域數據,並且在Waymo上進行重建從而獲得較真實的3D mesh。同時,我們將KITTI, nuScenes,ONCE作為目標域場景,並且在這些目標域場景下驗證我們方法所實現的zero-shot效能。 我們根據上述章節的介紹基於Waymo數據集產生3D場景級的meshes數據,並且利用上述評價準則來在Waymo domain下判斷哪些3D meshes是高質量的,並且根據打分選擇最高的146個meshes來進行後續的目標域模擬過程。評估結果
關於ResimAD資料集中的一些視覺化範例如下圖所示:
評估結果
實驗章節
實驗設定
- 基準選擇:我們將所提出的ReSimAD與三種典型的跨領域基準進行比較:a)直接使用模擬引擎進行資料模擬的基線;b)透過改變模擬引擎中的感測器參數設置,來進行資料模擬的基線;c)域自適應(UDA)基線.
- 度量標準:我們對齊目前進行3D cross-domain object detection的評估標準,分別採用以BEV為基礎的和以3D為基礎的AP作為評估度量標準。
- 參數設定:詳情參考論文.
實驗結果
這裡只展示了主要實驗結果,更多結果請參考我們的論文。三種跨域設定下,PV-RCNN/PV-RCNN 兩種模型的適配效能
##
從上述表格中我們可以觀察到:利用無監督域自適應(UDA)技術UDA和ReSimAD之間的主要區別在於,前者使用目標域真實場景的樣本進行模型領域遷移,而ReSimAD的實驗設定是要求其不能夠存取到目標域的任何真實點雲資料。從上表可以看出,我們的ReSimAD所獲得的跨域結果與UDA方法所獲得的結果是可比較的。這項結果表明,當雷射雷達感測器出於商業目的需要升級時,我們的方法可以大大降低資料採集成本,並進一步縮短模型由於領域差異所導致的再訓練、再開發週期。
ReSimAD數據作為目標域的冷啟動數據,在目標域上可以達到的效果
使用ReSimAD產生的數據的另一個好處是,可以在不存取任何目標域真實資料分佈的情況下就能獲得高效能的目標域精度。這個過程其實類似自動駕駛模型在新場景下的「冷啟動」過程。
上表報告了在全監督目標域下的實驗結果。 Oracle代表了模型是在全量帶標註目標域資料上訓練的結果,而SFT表示基線模型的網路初始化參數是由ReSimAD模擬資料訓練的權重提供的。上述實驗表表明,使用我們的ReSimAD方法所模擬的點雲可以獲得較高的初始化權值參數,其性能超過了Oracle實驗設定。
ReSimAD資料作為通用資料集,利用AD-PT預訓練方式在不同下游任務上的表現
為了驗證ReSimAD是否可以產生更多的點雲資料來幫助3D預訓練,我們設計了以下實驗:使用AD-PT(近期提出的一個關於自動駕駛場景下預訓練骨幹網路的方法)在模擬的點雲上來預訓練3D backbone,然後使用下游的真實場景資料進行全參數微調。
- 我們利用ReSimAD產生具有更廣泛分佈的點雲的資料。為了與AD-PT中的預訓練結果進行公平的比較,ReSimAD產生的模擬點雲資料的目標量約為。在上述表格中,我們的基線偵測器分別在真實預訓練資料(ONCE資料集)和模擬預訓練資料(由ReSimAD提供)進行3D預訓練,使用AD-PT方法,並在KITTI和Waymo資料集上進行下游微調。上表的結果表明,使用不同規模的模擬預訓練數據,可以不斷提高模型在下游的性能。此外,可以看到由ReSimAD獲取的預訓練資料的資料獲取成本是很低的,相比於採用ONCE進行模型預訓練,並且ReSimAD所獲得的預訓練性能和ONCE資料集上的預訓練性能是可比較的。
採用ReSimAD重建模擬v.s. 採用CARLA預設模擬的視覺化對比
我們基於Waymo資料集重建的mesh v.s. 使用VDBFusion重建的可視化對比
#總結
在這項工作中,我們致力於研究如何實驗零樣本目標域模型遷移任務,該任務要求模型不接觸到任何來自於目標域的樣本資料訊息,就可以將源域預訓練的模型成功地遷移到目標域場景。不同與先前的工作,我們首次探索了基於源域隱式重建和目標域多樣性模擬的3D資料生成技術,並且驗證了該技術可以在不接觸到目標域資料分佈的情況下實現較好的模型遷移性能,甚至比一些無監督領域適配(UDA)的方法還要好。
原文連結:https://mp.weixin.qq.com/s/pmHFDvS7nXy-6AQBhvVzSw
以上是ReSimAD:如何透過虛擬資料提升感知模型的泛化效能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
