論文連結:https://arxiv.org/pdf/2401.03907.pdf
多模態3D偵測器設計用於研究安全可靠的自動駕駛感知系統。儘管它們在乾淨的基準資料集上取得了最先進的效能,但往往忽略了現實世界環境的複雜性和惡劣條件。同時,隨著視覺基礎模型(VFM)的出現,提高多模態三維偵測的穩健性和泛化能力在自動駕駛中面臨機會和挑戰。因此,作者提出了RoboFusion框架,它利用像SAM這樣的VFM來解決分佈外(OOD)噪音場景。
首先,我們將最初的SAM套用於名為SAM-AD的自動駕駛場景。為了將SAM或SAMAD與多模態方法對齊,我們引入了AD-FPN來對SAM擷取的影像特徵進行上取樣。為了進一步降低雜訊和天氣幹擾,我們採用小波分解對深度導引影像進行去雜訊。最後,我們使用自註意機制來自適應地重新加權融合的特徵,以增強資訊特徵的同時抑制過量雜訊。 RoboFusion透過利用VFM的泛化和穩健性逐漸降低噪聲,從而增強了多模式3D目標檢測的彈性。因此,根據KITTIC和nuScenes-C基準測試的結果,RoboFusion在噪音場景中實現了最先進的效能。
論文提出了一個穩健的框架,名為RoboFusion,它利用像SAM這樣的VFM來將3D多模態目標偵測器從乾淨場景調整為OOD噪音場景。其中,SAM的適應策略是關鍵。
1) 使用從SAM中提取的特徵,而不是推理分割結果。
2) 提出了SAM-AD,這是針對AD場景的預訓練SAM。
3) 介紹了一種新的AD-FPN來解決用於將VFM與多模式3D偵測器對準的特徵上取樣問題。
為了降低雜訊幹擾並保留訊號特徵,引入了深度引導小波注意(DGWA)模組,有效衰減高低頻雜訊。
在融合點雲特徵和影像特徵後,透過自適應融合重新加權特徵,增強特徵的穩健性和抗噪性。
RoboFusion框架如下所示,其雷射雷達分支遵循基線[Chen et al.,2022;Bai et al.,2022]產生激光雷達特徵。在相機分支中,首先採用高度最佳化的SAM-AD演算法擷取穩健的影像特徵,並結合AD-FPN以取得多尺度特徵。接下來,利用原始點產生稀疏深度圖S,並將其輸入深度編碼器以獲得深度特徵,同時與多尺度影像特徵進行融合,得到深度引導影像特徵。然後,透過波動注意力機制去除突變雜訊。最後,透過自註意機制實現自適應融合,將點雲特徵與具有深度資訊的穩健影像特徵結合。
SAM-AD:為了進一步讓SAM適應AD(自動駕駛)場景,對SAM進行預先訓練以獲得SAM-AD。具體而言,我們從成熟的資料集(即KITTI和nuScenes)中收集了大量影像樣本,形成了基礎的AD資料集。在DMAE之後,對SAM進行預訓練,以獲得AD場景中的SAM-AD,如圖3所示。將x表示為來自AD資料集的乾淨影像(即KITTI和nuScenes),將η表示為基於x產生的雜訊影像。噪音類型和嚴重程度分別從四種天氣(即雨、雪、霧和陽光)和1-5的五種嚴重程度中隨機選擇。使用SAM、MobileSAM的影像編碼器作為我們的編碼器,而解碼器和重建損失與DMAE相同。
AD-FPN。作為一種可提示的分割模型,SAM由三個部分組成:影像編碼器、提示編碼器和遮罩解碼器。一般來說,有必要將影像編碼器推廣到訓練VFM,然後再訓練解碼器。換言之,影像編碼器可以為下游模型提供高品質和高度穩健的影像嵌入,而遮罩解碼器僅被設計為提供用於語義分割的解碼服務。此外,我們需要的是魯棒的圖像特徵,而不是提示編碼器對提示訊息的處理。因此,我們使用SAM的影像編碼器來提取穩健的影像特徵。然而,SAM利用ViT系列作為其影像編碼器,其排除了多尺度特徵,僅提供高維度低解析度特徵。為了產生目標偵測所需的多尺度特徵,受[Li et al.,2022a]的啟發,設計了一種AD-FPN,它提供基於ViT的多尺度特性!
儘管SAM-AD或SAM具有提取穩健影像特徵的能力,但2D域和3D域之間的差距仍然存在,並且在損壞的環境中缺乏幾何資訊的相機經常放大雜訊並引起負遷移問題。為了緩解這個問題,我們提出了深度引導小波注意(DGWA)模組,該模組可以分為以下兩個步驟。 1) 設計了一個深度引導網絡,透過結合點雲的影像特徵和深度特徵,在影像特徵之前添加幾何體。 2) 使用Haar小波轉換將影像的特徵分解為四個子帶,然後注意力機制允許對子帶中的信息特徵進行去噪!
#######原文連結:https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng###
以上是使用SAM實現可靠的多模態3D檢測的RoboFusion的詳細內容。更多資訊請關注PHP中文網其他相關文章!