arXiv論文“Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection“,22年6月,中科大、哈工大和商湯科技的工作。
從多個影像視圖中偵測3-D目標是視覺場景理解的一項基本而富有挑戰性的任務。由於其低成本和高效率,多視圖3-D目標偵測顯示出了廣泛的應用前景。然而,由於缺乏深度訊息,透過3-D空間中的透視圖去精確檢測目標,極為困難。最近,DETR3D引入一種新的3D-2D query範式,用於聚合多視圖影像以進行3D目標檢測,並實現了最先進的性能。
本文透過密集的引導性實驗,量化了位於不同區域的目標,並發現「截斷實例」(即每個影像的邊界區域)是阻礙DETR3D效能的主要瓶頸。儘管在重疊區域中合併來自兩個相鄰視圖的多個特徵,但DETR3D仍然存在特徵聚合不足的問題,因此錯過了充分提高檢測性能的機會。
為了解決這個問題,提出Graph-DETR3D,透過圖結構學習(GSL)自動聚合多視圖影像資訊。在每個目標查詢和2-D特徵圖之間建立動態3D圖,以增強目標表示,尤其是在邊界區域。此外,Graph-DETR3D得益於一種新的深度不變(depth-invariant)多尺度訓練策略,其透過同時縮放影像大小和目標深度來保持視覺深度的一致性。
Graph-DETR3D的差異在於兩點,如圖所示:(1)動態圖特徵的聚合模組;(2)深度不變的多尺度訓練策略。它遵循DETR3D的基本結構,由三個組件組成:影像編碼器、transformer解碼器和目標預測頭。給定一組影像I={I1,I2,…,IK}(由N個週視攝影機捕捉),Graph-DETR3D旨在預測感興趣邊框的定位和類別。首先用影像編碼器(包括ResNet和FPN)將這些影像變成一組相對L個特徵圖級的特徵F。然後,建立一個動態3-D圖,透過動態圖特徵聚合(dynamic graph feature aggregation,DGFA)模組廣泛聚合2-D信息,優化目標查詢的表示。最後,利用增強的目標查詢輸出最終預測。
如圖顯示動態圖特徵聚合(DFGA)流程:首先為每個目標查詢建構一個可學習的3-D圖,然後從2-D影像平面採樣特徵。最後,透過圖連接(graph connections)增強了目標查詢的表示。這種相互連接的訊息傳播(message propagation)方案支援對圖結構構造和特徵增強的迭代細化方案。
多尺度訓練是2D和3D目標偵測任務中常用的資料增強策略,經證明有效且推理成本低。然而,它很少出現在基於視覺的3-D檢測方法中。考慮到不同輸入影像大小可以提高模型的穩健性,同時調整影像大小和修改攝影機內參來實現普通多尺度訓練策略。
一個有趣的現像是,最終的效能急劇下降。透過仔細分析輸入數據,發現簡單地重新縮放影像會導致透視-多義問題:當目標調整到較大/較小的比例時,其絕對屬性(即目標的大小、到ego point的距離)不會改變。
作為一個具體範例,如圖顯示這個多義問題:儘管(a)和(b)中所選區域的絕對3D位置相同,但影像像素的數量不同。深度預測網路傾向於基於影像的佔用面積來估計深度。因此,圖中的這種訓練模式可能會讓深度預測模型糊塗,並進一步惡化最終表現。
為此從像素透視重新計算深度。演算法偽代碼如下:
如下是解碼運算:
重新計算的像素大小是:
假設尺度因子r = rx = ry,則簡化得到:
實驗結果如下:
註:DI = Depth-Invariant
#以上是Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考的詳細內容。更多資訊請關注PHP中文網其他相關文章!