CLIP-BEVFormer:明確監督BEVFormer結構,提升長尾偵測性能
寫在前面&筆者的個人理解
目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有透過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。
基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業界和學術界的廣泛關注。近年來,許多基於BEV空間的視覺感知演算法相繼湧現,且在公開資料集上展現出色的感知性能。
目前,基於BEV空間的感知演算法根據建構BEV特徵的方式可以大致分成兩類演算法模型:
- 一類是以LSS演算法為代表的前向BEV特徵建構方式,這類感知演算法模型首先是利用感知模型中的深度估計網路來預測特徵圖的每個像素點的語意特徵資訊以及離散深度機率分佈,然後將得到的語意特徵資訊與離散深度機率採用外積運算的方式建構語意視錐特徵,採用BEV池化等方式最終完成BEV空間特徵的建構過程。
- 另一類是以BEVFormer演算法為代表的反向BEV特徵建構方式,這類感知演算法模型首先是在感知的BEV空間下明確的產生3D體素座標點,然後利用相機的內外參將3D體素座標點投影回影像座標系下,並對對應特徵位置的像素特徵進行擷取與聚合,以建構出BEV空間下的BEV特徵。
儘管兩種演算法都能夠準確產生BEV空間下的特徵並實現3D感知結果,但在目前基於BEV空間的3D目標感知演算法中,例如BEVFormer演算法,存在以下兩個問題:
- 問題一:由於BEVFormer感知演算法模型整體框架採用的是Encoder-Decoder的網路結構,其主要想法是利用Encoder模組取得BEV空間下的特徵,然後利用Decoder模組預測最終的感知結果,並透過將輸出的感知結果與真值目標計算損失來實現模型預測的BEV空間特徵的過程。但透過這種網路模型的參數更新方式會過度依賴Decoder模組的感知性能,導致可能存在模型輸出的BEV特徵與真值BEV特徵並不對齊的問題,從而進一步限制感知模型最終的表現性能。
- 問題二:由於BEVFormer感知演算法模型的Decoder模組依舊沿用Transformer中的自註意力模組->交叉注意力模組->前饋神經網路的步驟完成Query特徵的建構輸出最終的檢測結果,其整個過程依舊是一個黑盒模型,缺乏良好的可解釋性。同時,Object Query與真值目標之間的一對一配對過程在模型訓練的過程中也存在著很大的不確定性。
為了解決BEVFormer感知演算法模型存在的問題,我們對其進行了改進,提出了基於環視圖像的3D檢測演算法模型CLIP-BEVFormer。我們透過引入對比學習的方法,增強了模型對BEV特徵的建構能力,並在nuScenes資料集上實現了領先水準的感知效能。
文章連結:https://arxiv.org/pdf/2403.08919.pdf
網路模型的整體架構&細節梳理
在詳細在介紹本文提出的CLIP-BEVFormer感知演算法模型細節之前,下圖展示了CLIP-BEVFormer演算法的整體網路結構。
本文提出的CLIP-BEVFormer感知演算法模型整體流程圖
透過演算法的整體流程圖可以看出,本文提出的CLIP-BEVFormer演算法模型是在BEVFormer演算法模型的基礎上進行改進的,這裡先簡單回顧一下BEVFormer感知演算法模型的實作過程。首先,BEVFormer演算法模型輸入的是相機感測器擷取到的環視圖像數據,利用2D的影像特徵來擷取網路提取輸入環視圖像的多尺度語意特徵資訊。其次,利用包含時序自註意力和空間交叉注意力的Encoder模組完成2D影像特徵向BEV空間特徵的轉換過程。然後,在3D感知空間中以常態分佈的形式產生一組Object Query,並送入Decoder模組中完成與Encoder模組輸出的BEV空間特徵的空間特徵交互利用。最後利用前饋神經網路預測Object Query查詢到的語意特徵,輸出網路模型最終的分類與迴歸結果。同時,在BEVFormer演算法模型訓練的過程中,採用一對一的匈牙利配對策略完成正負樣本的分配過程,並利用分類和迴歸損失完成整體網路模型參數的更新過程。 BEVFormer演算法模型整體的偵測過程可以用如下的數學公式來表示:
其中,公式中的代表BEVFormer演算法中的Encoder特徵擷取模組,代表BEVFormer演算法中的Decoder解碼模組,代表資料集中的真值目標標籤,代表目前BEVFormer演算法模型輸出的3D感知結果。
真值BEV的生成
在上文已經有提到,現有的絕大多數基於BEV空間的3D目標偵測演算法沒有顯式的對產生的BEV空間特徵進行監督,導致模型產生的BEV特徵可能存在與真實的BEV特徵不一致的問題,這種BEV空間特徵的分佈差異會限制模型最終的感知性能。基於這個考慮出發,我們提出了Ground Truth BEV模組,我們設計該模組的核心思路是想讓模型生成的BEV特徵可以和當前真值BEV特徵進行對齊,從而提高模型的表現性能。
具體而言,如整體網路框架圖所示,我們使用了一個真值編碼器()用來對BEV特徵圖上的任意一個真值實例的類別標籤和空間邊界框位置資訊進行編碼,該過程可以用公式表述成如下的形式:
其中公式中的具有和生成的BEV特徵圖同等大小的特徵維度,代表某個真值目標被編碼後的特徵資訊。在編碼的過程中,我們採用了兩種形式,一種是大語言模型(LLM),另一種是多層感知機(MLP),透過實驗結果發現,兩種方式基本上達到了同樣的表現。
除此之外,我們為了進一步增強真值目標在BEV特徵圖上的邊界信息,我們在BEV特徵圖上根據真值目標所在的空間位置將其裁剪下來,並對裁剪後的特徵採用池化操作建構對應的特徵資訊表示,該過程可以表述成如下的形式:
最後,我們為了實現模型產生的BEV特徵與真值BEV特徵的進一步對齊,我們採用了對比學習的方法來優化兩類BEV特徵之間的元素關係和距離,其優化過程可以表述成如下的形式:
真值目標查詢交互
這部分在前文中也有提到,BEVFormer感知演算法模型中的Object Query透過Decoder模組與產生的BEV特徵進行交互,獲得對應的目標查詢特徵,但該過程整體還是一個黑盒子過程,缺少一個完整的流程理解。針對這個問題,我們引入了真值查詢交互模組,透過將真值目標來執行Decoder模組的BEV特徵交互作用來激發模型參數的學習過程。具體而言,我們將真值編碼器()模組輸出的真值目標編碼訊息引入到Object Query當中參與Decoder模組的解碼過程,與正常的Object Query參與相同的自註意力模組,交叉注意力模組以及前饋神經網路輸出最終的感知結果。但要注意的是,在解碼的過程中,所有的Object Query均是採用了並行計算的方式,防止真值目標訊息的洩漏。整個真值目標查詢互動過程,可以抽象表述成如下的形式:
#其中,公式中的代表初始化的Object Query,和分別代表真值Object Query經過Decoder模組和感知偵測頭的輸出結果。透過在模型訓練的過程中引入真值目標的交互過程,我們提出的真值目標查詢交互模組可以實現真值目標查詢與真值BEV特徵進行交互,從而輔助模型Decoder模組的參數更新過程。
實驗結果&評估指標
定量分析部分
為了驗證我們提出的CLIP-BEVFormer演算法模型的有效性,我們分別在nuScenes資料集上從3D感知效果、資料集中目標類別的長尾分佈情況以及魯棒性等角度出發進行了相關實驗,下表是我們提出的演算法模型與其他3D感知演算法模型在nuScenes資料集上的精確度比較情況。
本文所提出的方法與其他感知演算法模型的比較結果
在這部分實驗中,我們分別評估了不同模型配置情況下的感知性能,具體而言,我們將CLIP-BEVFormer演算法模型應用於BEVFormer的tiny和base變體中。此外,我們也探討了將預先訓練的CLIP模型或MLP層作為真值目標編碼器對於模型感知效能的影響。透過實驗結果可以看出,無論是原先的tiny或base變體,在應用了我們提出的CLIP-BEVFormer演算法後,NDS和mAP指標均有穩定的效能提升。除此之外,透過實驗結果我們可以發現,對於真值目標編碼器選擇MLP層還是語言模型,我們提出的演算法模型對於此並不敏感,這種彈性可以讓我們提出的CLIP-BEVFormer演算法更具有適應能力並且方便上車部署。總之,我們提出的演算法模型的各類變體的性能指標一致表明提出的CLIP-BEVFormer演算法模型具有很好的感知穩健性,可以在不同模型複雜度和參數量的情況下實現出色的檢測性能。
除了驗證我們提出的CLIP-BEVFormer在3D感知任務上的表現外,我們還進行了長尾分佈的實驗來評估我們的演算法在面對資料集中存在長尾分佈情況下的魯棒性和泛化能力,實驗結果匯總在下表
提出的CLIP-BEVFormer演算法模型在長尾問題上的表現性能
通過上表的實驗結果可以看出,nuScenes資料集中表現出了極大的類別數量不均衡的問題,其中一些類別如(建築車輛、公車、摩托車、自行車等)佔比很低,但是對於小型汽車的佔比非常高。我們透過進行長尾分佈的相關實驗來評估所提出的CLIP-BEVFormer演算法模型在特徵類別上的感知效能,從而驗證其解決較不常見類別的處理能力。透過上述的實驗數據可以看出,提出的CLIP-BEVFormer演算法模型在所有類別上均實現了性能的提升,並且在對於佔比極少的類別上,CLIP-BEVFormer演算法模型展示出了明顯的實質性改進。
考慮到在真實環境下的自動駕駛系統需要面臨硬體故障、惡劣天氣狀況或人造障礙物容易引發的感測器故障等問題,我們進一步實驗驗證了所提出的演算法模型的穩健性。具體而言,我們為了模擬感測器的故障問題,我們在模型實施推理的過程中隨機對一個相機的攝像頭進行遮擋,從而實現對於相機可能出現故障的場景進行模擬,相關的實驗結果如下表所示
所提出的CLIP-BEVFormer演算法模型的穩健性實驗結果
透過實驗結果可以看出,無論是在tiny或base的模型參數配置下,我們提出的CLIP-BEVFormer演算法模型始終要優於BEVFormer的相同配置的基準模型,驗證了我們的演算法模型在模擬感測器故障情況下的優越性能和優秀的魯棒性。
定性分析部分
下圖展示了我們提出的CLIP-BEVFormer演算法模型與BEVFormer演算法模型的感知結果視覺化對比情況。透過視覺化的結果可以看出,我們提出的CLIP-BEVFormer演算法模型的感知結果與真值目標更加的接近,顯示我們提出的真值BEV特徵產生模組與真值目標查詢互動模組的有效性。
提出的CLIP-BEVFormer演算法模型與BEVFormer演算法模型感知結果的視覺化對比情況
結論
#在本文中,針對原有的BEVFormer演算法當中存在的生成BEV特徵圖過程中缺少顯示監督以及Decoder模組中Object Query與BEV特徵交互查詢的不確定問題,我們提出了CLIP-BEVFormer演算法模型,並從演算法模型的3D感知性能、目標長尾分佈以及在感測器故障的穩健性等方面進行實驗,大量的實驗結果顯示我們提出的CLIP-BEVFormer演算法模型的有效性。
以上是CLIP-BEVFormer:明確監督BEVFormer結構,提升長尾偵測性能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

人工智慧(AI)與執法領域的融合為犯罪預防和偵查開啟了新的可能性。人工智慧的預測能力被廣泛應用於CrimeGPT(犯罪預測技術)等系統,用於預測犯罪活動。本文探討了人工智慧在犯罪預測領域的潛力、目前的應用情況、所面臨的挑戰以及相關技術可能帶來的道德影響。人工智慧和犯罪預測:基礎知識CrimeGPT利用機器學習演算法來分析大量資料集,識別可以預測犯罪可能發生的地點和時間的模式。這些資料集包括歷史犯罪統計資料、人口統計資料、經濟指標、天氣模式等。透過識別人類分析師可能忽視的趨勢,人工智慧可以為執法機構

寫在前面&筆者的個人理解這篇論文致力於解決當前多模態大語言模型(MLLMs)在自動駕駛應用中存在的關鍵挑戰,即將MLLMs從2D理解擴展到3D空間的問題。由於自動駕駛車輛(AVs)需要針對3D環境做出準確的決策,這項擴展顯得格外重要。 3D空間理解對於AV來說至關重要,因為它直接影響車輛做出明智決策、預測未來狀態以及與環境安全互動的能力。目前的多模態大語言模型(如LLaVA-1.5)通常只能處理較低解析度的影像輸入(例如),這是由於視覺編碼器的分辨率限制,LLM序列長度的限制。然而,自動駕駛應用需

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中
