效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

WBOY
發布: 2024-04-11 16:16:20
轉載
672 人瀏覽過

標註之殤

靜態物體偵測(SOD),包括交通號誌、導向卡和交通錐,大多數演算法是資料驅動深度神經網絡,需要大量的訓練資料。現在的做法通常是對大量的訓練樣本在 LiDAR 掃描的點雲資料上進行手動標註,以修復長尾案例。

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

手動標註難以捕捉真實場景的變異性和複雜性,通常無法考慮遮蔽、不同的光照條件和多樣的視角(如圖1的黃色箭頭) 。 整個製程鏈路長、極度耗時、容易出錯、成本相當高(如圖2)。 所以目前公司都尋求自動標註方案,特別是基於純視覺,畢竟不是每輛車都有光達。

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

VRSO 是一種以視覺為主、面向靜態物件標註的標註系統,主要利用了SFM、2D物件偵測和實例分割結果的訊息,整體效果:

  • 標註的平均投影誤差僅2.6像素,約為Waymo標註的四分之一(10.6像素)
  • 與人工標註相比,速度提高了約16倍

對於靜態物體,VRSO透過實例分割和輪廓提取關鍵點,解決了從不同視角整合和去重靜態物件的挑戰,以及由於遮蔽問題而導致觀察不足的困難,從而提高了標註的準確性。 從圖1上看,與Waymo Open資料集的手動標註結果相比,VRSO展示了更高的穩健性和幾何精度。

(都看到這裡了,不如大拇指往上滑,點擊最上方的卡片關注我,整個操作只會花你1.328 秒,然後帶走未來所有乾貨,萬一有用呢~

破局之法

VRSO系統主要分為兩部分:場景重建靜態物件標註

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

重建部分不是重點,就是基於 SFM 演算法來恢復圖片 pose 和稀疏的 3D 關鍵點。

靜態物件標註演算法,配合偽代碼,大致流程是(以下會分步驟詳細展開):

  • 採用現成的2D物件偵測與分割演算法產生候選
  • 利用SFM 模型中的3D-2D 關鍵點對應關係來追蹤跨幀的2D 實例
  • 引入重投影一致性來優化靜態物件的3D註解參數

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

1.追蹤關聯

  • step 1:根據SFM 模型的關鍵點提取3D 邊界框內的3D 點。
  • step 2:根據 2D-3D 匹配關係計算每個 3D 點在 2D 地圖上的座標。
  • step 3:基於 2D 地圖座標和實例分割角點來決定目前 2D 地圖上 3D 點的對應實例。
  • step 4:確定每個 2D 影像的 2D 觀察值與 3D 邊界框之間的對應關係。

2.proposal 產生

對靜態物件的 3D 框參數(位置、方向、大小)進行整個影片剪輯的初始化。 SFM 的每個關鍵點都有準確的3D位置和對應的 2D 影像。對於每個 2D 實例,提取 2D 實例遮罩內的特徵點。然後,一組對應 3D 關鍵點可以被視為 3D 邊界框的候選。

路牌被表示為在空間中具有方向的矩形,它有6個自由度,包括平移(、、)、方向(θ)和大小(寬度和高度)。考慮到其深度,交通號誌具有7個自由度。交通錐的表示方式與交通號誌類似。

3.proposal refine

  • step 1:從 2D 實例分割中擷取每個靜態物件的輪廓。
  • step 2:為輪廓輪廓擬合最小定向邊界框(OBB)。
  • step 3:擷取最小邊界框的頂點。
  • step 4:根據頂點和中心點計算方向,並決定頂點順序。
  • step 5:基於2D偵測和實例分割結果進行了分割和合併過​​程。
  • step 6:偵測並拒絕包含遮蔽的觀察值。從2D實例分割蒙版中擷取頂點要求每個標示牌的四個角落都可見。如果有遮擋,從實例分割中提取軸對齊邊界框(AABB),並計算AABB與2D檢測框之間的面積比。如果沒有遮擋,這兩種面積計算方法應該是接近的。

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

4.三角化

透過三角化在3D條件下取得靜態物件的初始頂點值。

透過檢查在場景重建期間由 SFM 和實例分割獲得的3D邊界框中的關鍵點數量,只有關鍵點數量超過閾值的實例被認為是穩定且有效的觀測。對於這些實例,相應的 2D 邊界框被視為有效的觀測。透過多張影像的 2D 觀測,將 2D邊界框頂點進行三角化,以取得邊界框的座標。

對於沒有在遮罩上區分「左下、左上、右上、右上和右下」頂點的圓形標牌,需要辨識這些圓形標牌。使用 2D 偵測結果作為圓形物體的觀測結果,使用 2D 實例分割遮罩進行輪廓擷取。透過最小平方法擬合演算法計算出中心點和半徑。圓形標誌的參數包括中心點(、、)、方向(θ)和半徑()。

5.tracking refine

追蹤基於 SFM 的特徵點匹配。根據 3D 邊界框頂點的歐式距離和 2D 邊界框投影 IoU 來決定是否合併這些分開的實例。一旦合併完成,實例內的 3D 特徵點可以聚集以關聯更多的2D特徵點。進行迭代2D-3D關聯,直到無法增加任何2D特徵點。

6.最終參數最佳化

以矩形標牌為例,可最佳化的參數包含位置(、、)、方向(θ)和大小(、),總共六個自由度。主要步驟包括:

  • 將六個自由度轉換為四個 3D 點,並計算旋轉矩陣。
  • 將轉換後的四個 3D 點投影到2D影像上。
  • 計算投影結果與實例分割所得到的角點結果之間的殘差。
  • 使用Huber 進行最佳化更新邊界框參數

標註效果

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

##也有一些具有挑戰性的長尾案例,例如極低的解析度和照明不足。

效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!

總結一下

VRSO 框架實現了靜態物件高精度和一致的3D標註,緊密整合了檢測、分割和SFM 演算法,消除了智慧駕駛標註中的人工幹預,提供了與基於LiDAR的手動標註相媲美的結果。和廣泛認可的Waymo Open Dataset進行了定性和定量評估:與人工標註相比,速度提高了約16倍,同時保持了最佳的一致性和準確性。

#

以上是效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板