多模態融合的BEV目標偵測方法 AutoAlign V1和V2-人工智慧-PHP中文網

在自動駕駛中，透過RGB影像或光達點雲進行目標偵測已被廣泛探索。然而，如何使這兩個資料來源相互補充和有益，仍然是一個挑戰。 AutoAlignV1和AutoAlignV2主要是中科大、哈工大和商湯科技等（起初還包括香港中文大學和清華大學）的工作。

AutoAlignV1來自arXiv論文“AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection“，上傳於2022年4月。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

摘要

本文提出一個用於3D目標偵測的自動特徵融合策略AutoAlign V1。用一個可學習的對齊圖（learnable alignment map）來建模影像-點雲之間的映射關係，而不是建立與攝影機投影矩陣的確定性對應關係。該圖使模型能夠以動態和數據驅動的方式自動對齊非同態特徵。具體而言，設計了一個交叉注意特徵對齊模組，自適應地對每個體素的像素級圖像特徵進行聚集。為了增強特徵對齊過程中的語義一致性，還設計了一個自監督跨模態特徵交互模組，透過該模組，模型可以透過實例層級特徵引導學習特徵聚合。

背景介紹

多模態3-D目標偵測器可以大致分為兩類：決策級融合和特徵級融合。前者以各自的模式偵測目標，然後在3D空間中將邊框集合在一起。與決策級融合不同的是，特徵級融合將多模態特徵組合成單一表徵來偵測目標。因此，檢測器可以在推理階段充分利用來自不同模態的特徵。有鑑於此，最近開發了更多的特徵級融合方法。

一項工作將每個點投影到影像平面，並透過雙線性內插法獲得對應的影像特徵。雖然在像素級精細地執行了特徵聚合，但由於融合點的稀疏性，將丟失圖像域中的密集模式，即破壞圖像特徵中的語義一致性。

另一項工作用3D偵測器提供的初始方案，獲得不同模態的RoI特徵，並連接在一起進行特徵融合。它透過執行實例層級融合來保持語義一致性，但在初始提議生成階段存在如粗糙的特徵聚合和2D資訊缺失的問題。

為了充分利用這兩種方法，作者提出了一個用於3-D目標偵測的整合多模態特徵融合框架，名為AutoAlign。它使檢測器能夠以自適應的方式聚合跨模態特徵，在非同態表徵之間的關係建模中證明是有效的。同時，它利用像素級的細粒度特徵聚合，同時透過實例級特徵互動保持語義一致性。

如圖所示：特徵交互作用於兩個層面：（i）像素級特徵聚合；（ii）實例層級特徵交互作用。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

AutoAlign方法

先前的工作主要利用攝影機投影矩陣以確定性方式對齊影像和點特徵。這種方法是有效的，但可能會帶來兩個潛在問題：1）該點無法獲得圖像資料的更廣泛視圖，2）僅保持位置一致性，而忽略語義相關性。因此，AutoAlign設計了交叉注意特徵對齊（CAFA）模組，在非同態表徵之間自適應地對齊特徵。 CAFA（Cross-Attention Feature Alignment）模組不採用一對一的匹配模式，而是使每個體素感知整個圖像，並基於可學習對齊圖（learnable alignment map）動態地關注像素級2D特徵。

如圖所示：AutoAlign由兩個核心組件組成，CAFA在圖像平面執行特徵聚合，提取每個體素特徵的細粒度像素級信息，SCFI（Self-supervised Cross-modal Feature Interaction）執行跨模態自監督，使用實例層級引導，增強CAFA模組的語意一致性。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

CAFA是聚集影像特徵的細粒度範例。但是，它無法捕獲實例級資訊。相反，基於RoI的特徵融合保持了目標的完整性，同時在提議生成階段會受到粗糙特徵聚集和2D資訊缺失的影響。

為了彌合像素層級和實例層級融合之間的差距，引入了自監督跨模態特徵交互作用（SCFI）模組來指導CAFA的學習。它直接利用3D檢測器的最終預測作為提議，利用圖像和點特徵進行精確的提議生成。此外，沒有將跨模態特徵連接在一起進行進一步的邊框優化，而是在跨模態特徵對中加入相似性約束，作為特徵對齊的實例層級引導。

給定2D特徵圖和對應的3D體素化特徵，隨機取樣N個區域3D偵測框，然後用相機投影矩陣投影到2D平面，從而產生一組成2D框對。一旦獲得成對框，在2D和3D特徵空間採用2DRoIAlign和3DRoIPooling來獲得各自的RoI特徵。

對於每個成對的2D和3D RoI特徵，對來自影像分支的特徵和來自點分支的體素化特徵，執行自監督跨模態特徵交互作用（SCFI）。兩個特徵都送入一個投影頭，轉換一個模態的輸出以符合另一個模態。引入一個有兩個全連接層的預測頭。如圖所示：

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

儘管多任務學習非常有效，但很少有工作討論影像域和點域的聯合檢測。在以前的大多數方法中，影像主幹是外部資料集預訓練權重直接初始化的。在訓練階段，唯一的監督是從點分支傳播的3D偵測損失。考慮到影像主幹的大量參數，2D分支更有可能在隱監督下達到過擬合。為了正則化從影像中提取的表徵，將影像分支擴展到Faster R-CNN，並以2D檢測損失進行監督。

實驗結果

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

# AutoAlignV2來自“AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection“，上傳於2022年7月。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

摘要

AutoAlign存在著由全域注意機制引入的高運算成本。為此，建構在AutoAlign之上，作者提出AutoAlignV2，一個更快、更強的多模式3D檢測框架。為了解決計算成本問題，本文提出跨域DeformCAFA（Cross-Attention Feature Alignment）模組。它關注用於跨模態關係模型的稀疏可學習採樣點，這增強了對標定誤差的容忍度，並大大加快了跨模態的特徵聚合。為了克服多模態設定下複雜的GT-AUG，在給定深度資訊情況下針對基於影像patch的凸組合，設計了一種簡單而有效的跨模態增強策略。此外，透過一種影像級dropout訓練方案，模型能夠以動態方式進行推理。

程式碼將開源：https://github.com/zehuichen123/AutoAlignV2.

註：GT-AUG（“SECOND: Sparsely embedded convolutional detection“. Sensors，2018），一種資料增強方法

#背景

如何有效地結合光達和攝影機的異構表示進行3-D目標偵測尚未得到充分的探索。目前訓練跨模態偵測器的困難歸因於兩個方面。一方面，結合影像和空間資訊的融合策略仍然是次優的。由於RGB影像和點雲之間的異質表示，將特徵聚集在一起之前需要仔細對齊。 AutoAlign提出一種用於自動配準的可學習全局對齊模組，並實現了良好的效能。然而，它必須在CSFI模組的幫助下進行訓練，以獲取點和影像像素之間內部的位置匹配關係。

此外，注意風格的操作複雜性是影像大小的二次關係，因此在高解析度特徵圖上應用query是不切實際的。這種限制可能導致影像資訊粗糙和不準確，以及FPN帶來分層表示的遺失。另一方面，資料增強，尤其是GT-AUG，是3D偵測器實現競爭性結果的關鍵步驟。就多模態方法而言，一個重要的問題是在執行剪下和貼上操作時如何保持影像和點雲之間的同步。 MoCa在2D域中使用勞力密集遮罩標註，獲得精確的影像特徵。邊框級標註也適用，但需要精細複雜的點過濾。

AutoAlignV2方法

AutoAlignV2的目的是有效地聚集影像特徵，以進一步增強3D目標偵測器的效能。從AutoAlign的基本架構開始：將成對影像輸入到一個輕量級主幹網路ResNet，再輸入FPN以獲得特徵圖。然後，透過可學習對齊圖（learnable alignment map）聚合相關影像訊息，在體素化階段豐富非空體素的3D表示。最後，增強的特徵將饋送到後續的3D檢測管線中，產生實例預測。

如圖是AutoAlignV1和AutoAlignV2的比較：AutoAlignV2提示對齊模組有確定性投影矩陣保證的一般映射關係，同時保留自動調整特徵聚合位置的能力。由於計算成本較輕，AutoAlignV2能夠聚合分層影像資訊的多層特徵。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

這種範例可以資料驅動的方式聚合異質特徵。然而，有兩個主要瓶頸仍然阻礙性能。第一個是低效率的特徵聚合。雖然全域注意圖自動實現RGB影像和雷射雷達點之間的特徵對齊，但計算成本很高。第二種是影像和點之間的複雜資料增強同步。 GT-AUG是高效能3D目標偵測器的關鍵步驟，但如何在訓練期間保持點與影像之間的語義一致性仍然是一個複雜的問題。

如圖所示，AutoAlignV2由兩部分組成：跨域DeformCAFA模組和深度-覺察GT-AUG資料增強策略，另外也提出了一種影像級dropout訓練策略，使模型能夠以更動態的方式進行推理。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

變形特徵聚合

#CAFA的瓶頸在於，將所有像素視為可能的空間位置。基於2D影像的屬性，最相關的資訊主要位於幾何鄰近的位置。因此，不必考慮所有位置，而只考慮幾個關鍵點區域。如圖所示，這裡引入了一種新的跨域DeformCAFA操作，該操作大大減少了取樣候選者，並為每個體素query特徵動態地確定影像平面的關鍵點區域。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

借助於動態產生的取樣偏移，DeformCAFA能夠比普通操作更快地進行跨域關係建模。能夠執行多層特徵聚合，即充分利用FPN層提供的分層資訊。 DeformCAFA的另一個優點是，明確地保持與攝影機投影矩陣的位置一致性，獲得參考點。因此，即使不採用AutoAlign中提出的CFSI模組，DeformCAFA也可以產生語意和位置一致的對齊。

與普通的非局部運算相比，稀疏樣式的DeformCAFA大大提高了效率。然而，當直接應用體素特徵作為token來產生注意權重和可變形偏移量時，檢測性能幾乎無法與雙線性插值相比，甚至更差。仔細分析，在token生成過程中存在跨域知識翻譯問題。和通常在單峰設定下的原始變形操作不同，跨域注意需要兩種模態的資訊。然而，體素特徵僅由空域表徵組成，很難感知影像域的資訊。因此，降低不同模態之間的交互作用非常重要。

假設每個目標的表示可以明確分解為兩個組成部分：域特定資訊和實例特定資訊。前者指的是表徵本身相關的數據，包括域特徵的內建屬性，而後者不管目標編碼在哪個域，所表示的是有關目標的ID資訊。

深度-覺察的GT-AUG

對於大多數深度學習模型而言，資料增強是實現競爭性結果的關鍵部分。然而，在多模態3D目標偵測方面，在資料增強中將點雲和影像組合在一起時，很難保持二者之間的同步，這主要是由於目標遮蔽或視點的變化。為了解決這個問題，設計了一個簡單而有效的跨模態資料增強演算法，名為深度-覺察GT-AUG。此方法放棄了複雜的點雲過濾過程或影像域精細遮罩標註的要求。相反，從3D目標標註中引入深度訊息，mix-up圖像區域。

具體而言，給定要貼上的虛擬目標P，遵循GT-AUG相同的3D實現。至於影像域，首先按照從遠到近的順序進行排序。對於每個要貼上的目標，從原始影像中裁剪相同的區域，並在目標影像上以α的混合比組合。如下演算法1中顯示詳細的實作。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

深度-覺察GT-AUG僅在3D領域中遵循增強策略，但同時透過基於mix-up的剪切和貼上（cut-and-paste）保持影像平面的同步。關鍵點是，在原始2D影像貼上增強的patches後，MixUp技術不會完全移除對應的資訊。相反，它會衰減此類資訊相對於深度的緊緻性，以確保對應點的特徵存在。具體而言，如果一個目標被其他實例遮蔽n次，則該目標區域的透明度，根據其深度順序以因子（1− α）^n衰減。

如圖所示是一些增強的範例：

多模態融合的BEV目標偵測方法 AutoAlign V1和V2

#影像層級dropout訓練策略

#實際上，影像通常是一種輸入選項，並非所有3D偵測系統都支援。因此，更現實、更適用的多模態偵測解決方案應採用動態融合方式：當影像不可用時，模型就基於原始點雲偵測目標；當影像可用時，該模型進行特徵融合併產生更好的預測。為了實現這一目標，提出一種影像級dropout訓練策略，在影像級隨機dropout聚集的影像特徵，並在訓練期間以零填充。如圖所示：（a）影像融合；（b）影像級dropout融合。

多模態融合的BEV目標偵測方法 AutoAlign V1和V2