DetZero:Waymo在3D檢測排行榜上排名第一,與人工標註媲美!
本文提出了一套離線3D物體偵測演算法框架DetZero,透過在Waymo 公開資料集上進行全面的研究和評估,DetZero可產生連續且完整的物體軌跡序列,並充分利用長時序點雲特徵顯著提升感知結果的品質。同時以 85.15 mAPH (L2) 的效能在 WOD 3D 物件偵測排行榜上取得排名第一。此外,DetZero可以為線上模型的訓練提供高品質的自動標籤,其結果已達到甚至高於人工標籤的水平。
這是論文連結:https://arxiv.org/abs/2306.06023
需要重新寫的內容是:程式碼連結:https://github.com/PJLab-ADG/ DetZero
請造訪首頁連結:https://superkoma.github.io/detzero-page
1 引言
##為了提高資料標註的效率,我們研究了一種新的方法。這種方法基於深度學習和無監督學習,可以自動產生標註資料。透過使用大量的未標註數據,我們可以訓練一個自動駕駛感知模型,使其能夠識別和偵測道路上的物體。這種方法不僅可以減少標註資料的成本,還可以提高後處理的效率。我們在實驗中使用了Waymo的離線3D物體偵測方法3DAL[]作為基準進行比較,結果顯示我們提出的方法在準確性和效率方面都有顯著的改進。我們相信這種方法將在未來的自動駕駛技術中發揮重要作用- 目標檢測(
- Detection):輸入少量連續的點雲幀數據,輸出每一幀中3D物體的邊界框和類別資訊; 多目標追蹤(
- Tracking):將每一幀偵測到的物體進行關聯,形成物體序列,並分配唯一的物體ID ; 運動狀態分類(
- Motion Classification):基於物體軌跡特徵,確定物體的運動狀態(靜止或運動); 物件為中心的最佳化(
- Object-centric Refining):根據前一模組預測的運動狀態,分別提取靜止和運動物體的時序點雲特徵,以預測準確的邊界框。最終,透過姿態矩陣將最佳化後的3D邊界框轉移回該物體所在的每一幀座標系中。
- 目前的目標檢測和追蹤演算法主要關注邊界框層面(box-level)的性能指標,將在線的3D檢測演算法經過TTA和多模型融合之後所產生的大量冗餘框作為追蹤演算法的輸入,通常很容易引發嚴重的軌跡分段、ID切換以及錯誤關聯等問題,無法保證連續、完整的物件序列的生成,進而妨礙利用物體對應的長時序點雲特徵。如下圖所示,原本一個物體的軌跡被分割成多個子序列(T1, T2, T3),導致擁有更多資訊的T1片段的特徵無法共享到T2和T3中;T4片段中經過優化的框也無法召回已經遺失掉的片段;T5片段中經過優化的框框在轉移到原先是FP的位置後依然是FP。
物件序列的品質會對下游的最佳化模型產生很大的影響
- #基於運動狀態分類的最佳化模型沒有充分利用到物體的時序特徵。例如,剛性物體的尺寸大小隨時間保持一致,透過從不同角度捕捉資料可以實現更準確的尺寸估計;物體的運動軌跡應遵循一定的運動學約束,表現為軌跡的平滑性。如下圖(a)所示,對於動態物體來說,基於滑動視窗的最佳化機制未考慮物體幾何形狀的一致性,僅透過鄰近幾幀的時序點雲資訊對邊界框進行更新,導致預測的幾何尺寸出現偏差。而在(b)的例子中,透過把該物體的點雲全部聚合在一起,可獲得稠密的時序點雲特徵,為每一幀都預測出邊界框的準確的幾何尺寸。
基於運動狀態的最佳化模型預測物體的尺寸(a),幾何最佳化模型將不同視角的點雲全部聚合後預測物體的尺寸(b)
2 方法
本文提出了一個名為DetZero的新離線3D物件偵測演算法框架。該框架具有以下特點:(1)使用多幀3D檢測器和離線追蹤器作為上游模組,以提供準確和完整的物體跟踪,重點關注物體序列的高召回率(track-level recall);(2)下游模組包含基於注意力機制的最佳化模型,利用長時序點雲特徵分別學習預測物體的不同屬性,包括精細化幾何尺寸、平滑運動軌跡位置以及更新置信度分數
2.1 產生完整的物件序列
我們採用公開的CenterPoint[]作為基礎偵測器,為了提供更多的偵測候選框,我們在三個方面進行了加強:(1)將不同幀點雲組合作為輸入,最大化性能而不降低性能;(2)使用點雲密度資訊將原始點雲特徵和體素特徵融合為二階段模組,以優化一階段的邊界結果;(3)使用推理階段資料增強(TTA)、多模型結果融合(Ensemble)等技術來提高模型對複雜環境的適應能力
離線追蹤模組中引入了兩階段關聯策略以減少錯誤匹配,根據置信度將框分為高分組和低分組,對高分組進行關聯更新現有軌跡,未更新的軌跡與低分組關聯。同時,物體軌跡的長度可持續至序列終止,避免ID切換問題。此外,我們會反向執行追蹤演算法產生另一組軌跡,並透過位置相似性關聯,最後以WBF策略融合匹配成功的軌跡,進一步提升序列首尾的完整性。最後,對於區分好的物體序列,提取其對應的每一幀點雲進行保存;而未更新的冗餘框和一些較短的序列和會直接合併至最終的輸出,無需下游優化。
2.2 基於屬性預測的物體最佳化模組
先前的以物體為中心的最佳化模型忽略了物體之間在不同運動狀態下的相關性,例如幾何形狀的一致性以及相鄰時刻的物體運動狀態的一致性。基於這些觀察,我們將傳統的邊界框回歸任務分解為三個模組:分別預測物體的幾何形狀、位置和置信度屬性
- ##多視角幾何交互作用:透過拼接多個視角的物體點雲,可以補全物體的外觀和形狀。首先進行局部座標變換,將物體點雲與不同位置的局部框對齊,併計算出每個點到邊界框6個表面的投影距離,加強邊界框的資訊表徵,隨後直接合併不同幀的所有點雲作為多視角幾何特徵的key和value,同時從物體序列中隨機選擇t個樣本作為單視角幾何特徵的query。幾何query會被送入自註意力層來查看彼此之間的差異性,隨後被送入交叉注意力層來補充所需要視角的特徵,並預測出精確的幾何尺寸。
- 局部與全域位置的交互作用:隨機選擇物體序列中的任意框作為原點,將所有其他框和對應的物體點雲轉移到此座標系下,併計算出每個點到各自邊界框中心點和8個角點的距離,作為全域位置特徵的key和value。物體序列中的每一個樣本都會作為位置query,送入自註意力層來判斷當前位置與其他位置的相對距離,隨後輸入交叉注意力層模擬局部到全局位置的上下文關係,並預測出此坐標系下每個初始中心點與真值中心點之間的偏移量,以及航向角差異。
- 置信度最佳化:分類分支用於分類該物體是TP還是FP,IoU回歸分支預測出一個物體在被幾何模型和位置模型優化後,與真值框之間的IoU大小。最後的置信度分數就是這兩個分支的幾何平均。
3 實驗
3.1 主要效能
DetZero在Waymo 3D偵測排行榜上以85.15 mAPH ( L2)取得了最佳成績,無論是與處理長時序點雲的方法相比,還是與最先進的多模態融合3D檢測器相比,DetZero都展現出了顯著的性能優勢Waymo 3D偵測排行榜結果,所有結果均使用TTA或ensemble技術,†指離線模型,‡指點雲影像融合模型,*表示匿名提交結果
Waymo 3D追蹤排行榜,*表示匿名提交結果
3.2 消融實驗
為了更好地驗證我們提出的每個模組的作用,我們在Waymo驗證集上進行了消融實驗,並且採用了更嚴格的IoU閾值作為衡量標準
在Waymo驗證集上對Vehicle和Pedestrian進行,IoU閾值分別選取標準值(0.7 & 0.5)和嚴格值(0.8 & 0.6)
同時,對於同一組檢測結果,我們分別選擇3DAL中的跟踪器和優化模型與DetZero進行交叉組合驗證,結果進一步證明DetZero的跟踪器和優化器性能更好,且二者組合在一起後發揮出更大的優勢。
不同上下游模組組合的交叉驗證實驗,下角標1和2分別代表3DAL和DetZero,指標是3D APH
我們的離線追蹤器更注重物體序列的完整性,雖然兩者的MOTA性能差異很小,但是Recall@track的性能卻是導致最終優化性能差異很大的一個原因
離線跟踪器(Trk2)與3DAL跟踪器(Trk1)的性能對比,性能為MOTA和Recall@track
此外,與其他最先進的跟踪器相比,也能證明這一點
Recall@track是經過追蹤演算法處理後的序列召回,3D APH是經過同一個最佳化模型處理後的最終效能
3.3 泛化效能
為了驗證我們的最佳化模型是否能夠固定擬合到特定的上游結果集,我們選擇了具有不同性能的上游檢測追蹤結果作為輸入。結果顯示,我們取得了明顯的性能提升,進一步證明了只要上游模組能夠召回更多更完整的物體序列,我們的優化器就能夠有效地利用其時序點雲的特徵進行優化
#Waymo驗證集上的泛化性能驗證,指標是3D APH
3.4 與人類標註能力進行對比
我們將根據3DAL的實驗設定來報告DetZero在5個指定序列上的AP性能,透過比較基於單幀的重標註結果與原始真值標註結果的一致性來衡量人類性能。相對於3DAL和人類,DetZero在不同的性能指標上都表現出了優勢
#對於Vehicle類別在不同IoU閾值下的3D AP和BEV AP性能對比
為了驗證高品質的自動標註結果是否能夠取代人工標註結果進行線上模型訓練,我們在Waymo驗證集上進行了半監督學習的驗證。我們從訓練數據中隨機選擇了10%作為老師模型(DetZero)的訓練數據,並對剩下的90%數據進行推理,得到了自動標註的結果,這些結果將作為學生模型的標籤。我們選擇了單幀CenterPoint作為學生模型。在車輛類別上,使用90%的自動標籤和10%的真值標籤進行訓練的結果接近使用100%真值標籤訓練的結果,而在行人類別上,自動標籤訓練的模型結果已經優於原始結果,這表明自動標籤可以用於線上模型訓練
在Waymo驗證集上進行的半監督實驗結果
3.5 視覺化結果
紅色框代表上游的輸入結果,藍色框代表最佳化模型的輸出結果
第一行代表上游的輸入結果,第二行代表最佳化模型的輸出結果,虛線內的物件表示優化前後差異明顯的位置
原文連結:https://mp.weixin.qq.com/s/HklBecJfMOUCC8gclo-t7Q
以上是DetZero:Waymo在3D檢測排行榜上排名第一,與人工標註媲美!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重
