效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！-人工智慧-PHP中文網

標註之殤

靜態物體偵測（SOD），包括交通號誌、導向卡和交通錐，大多數演算法是資料驅動深度神經網絡，需要大量的訓練資料。現在的做法通常是對大量的訓練樣本在 LiDAR 掃描的點雲資料上進行手動標註，以修復長尾案例。

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

手動標註難以捕捉真實場景的變異性和複雜性，通常無法考慮遮蔽、不同的光照條件和多樣的視角（如圖1的黃色箭頭）。 整個製程鏈路長、極度耗時、容易出錯、成本相當高（如圖2）。 所以目前公司都尋求自動標註方案，特別是基於純視覺，畢竟不是每輛車都有光達。

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

VRSO 是一種以視覺為主、面向靜態物件標註的標註系統，主要利用了SFM、2D物件偵測和實例分割結果的訊息，整體效果：

標註的平均投影誤差僅2.6像素，約為Waymo標註的四分之一（10.6像素）
與人工標註相比，速度提高了約16倍

對於靜態物體，VRSO透過實例分割和輪廓提取關鍵點，解決了從不同視角整合和去重靜態物件的挑戰，以及由於遮蔽問題而導致觀察不足的困難，從而提高了標註的準確性。 從圖1上看，與Waymo Open資料集的手動標註結果相比，VRSO展示了更高的穩健性和幾何精度。

（都看到這裡了，不如大拇指往上滑，點擊最上方的卡片關注我，整個操作只會花你1.328 秒，然後帶走未來所有乾貨，萬一有用呢～）

破局之法

VRSO系統主要分為兩部分：場景重建與靜態物件標註。

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

重建部分不是重點，就是基於 SFM 演算法來恢復圖片 pose 和稀疏的 3D 關鍵點。

靜態物件標註演算法，配合偽代碼，大致流程是（以下會分步驟詳細展開）：

採用現成的2D物件偵測與分割演算法產生候選
利用SFM 模型中的3D-2D 關鍵點對應關係來追蹤跨幀的2D 實例
引入重投影一致性來優化靜態物件的3D註解參數

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

1.追蹤關聯

step 1：根據SFM 模型的關鍵點提取3D 邊界框內的3D 點。
step 2：根據 2D-3D 匹配關係計算每個 3D 點在 2D 地圖上的座標。
step 3：基於 2D 地圖座標和實例分割角點來決定目前 2D 地圖上 3D 點的對應實例。
step 4：確定每個 2D 影像的 2D 觀察值與 3D 邊界框之間的對應關係。

2.proposal 產生

對靜態物件的 3D 框參數（位置、方向、大小）進行整個影片剪輯的初始化。 SFM 的每個關鍵點都有準確的3D位置和對應的 2D 影像。對於每個 2D 實例，提取 2D 實例遮罩內的特徵點。然後，一組對應 3D 關鍵點可以被視為 3D 邊界框的候選。

路牌被表示為在空間中具有方向的矩形，它有6個自由度，包括平移（、、）、方向（θ）和大小（寬度和高度）。考慮到其深度，交通號誌具有7個自由度。交通錐的表示方式與交通號誌類似。

3.proposal refine

step 1：從 2D 實例分割中擷取每個靜態物件的輪廓。
step 2：為輪廓輪廓擬合最小定向邊界框（OBB）。
step 3：擷取最小邊界框的頂點。
step 4：根據頂點和中心點計算方向，並決定頂點順序。
step 5：基於2D偵測和實例分割結果進行了分割和合併過程。
step 6：偵測並拒絕包含遮蔽的觀察值。從2D實例分割蒙版中擷取頂點要求每個標示牌的四個角落都可見。如果有遮擋，從實例分割中提取軸對齊邊界框（AABB），並計算AABB與2D檢測框之間的面積比。如果沒有遮擋，這兩種面積計算方法應該是接近的。

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

4.三角化

透過三角化在3D條件下取得靜態物件的初始頂點值。

透過檢查在場景重建期間由 SFM 和實例分割獲得的3D邊界框中的關鍵點數量，只有關鍵點數量超過閾值的實例被認為是穩定且有效的觀測。對於這些實例，相應的 2D 邊界框被視為有效的觀測。透過多張影像的 2D 觀測，將 2D邊界框頂點進行三角化，以取得邊界框的座標。

對於沒有在遮罩上區分「左下、左上、右上、右上和右下」頂點的圓形標牌，需要辨識這些圓形標牌。使用 2D 偵測結果作為圓形物體的觀測結果，使用 2D 實例分割遮罩進行輪廓擷取。透過最小平方法擬合演算法計算出中心點和半徑。圓形標誌的參數包括中心點（、、）、方向（θ）和半徑（）。

5.tracking refine

追蹤基於 SFM 的特徵點匹配。根據 3D 邊界框頂點的歐式距離和 2D 邊界框投影 IoU 來決定是否合併這些分開的實例。一旦合併完成，實例內的 3D 特徵點可以聚集以關聯更多的2D特徵點。進行迭代2D-3D關聯，直到無法增加任何2D特徵點。

6.最終參數最佳化

以矩形標牌為例，可最佳化的參數包含位置（、、）、方向（θ）和大小（、），總共六個自由度。主要步驟包括：

將六個自由度轉換為四個 3D 點，並計算旋轉矩陣。
將轉換後的四個 3D 點投影到2D影像上。
計算投影結果與實例分割所得到的角點結果之間的殘差。
使用Huber 進行最佳化更新邊界框參數

標註效果

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

##也有一些具有挑戰性的長尾案例，例如極低的解析度和照明不足。

效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！

總結一下

VRSO 框架實現了靜態物件高精度和一致的3D標註，緊密整合了檢測、分割和SFM 演算法，消除了智慧駕駛標註中的人工幹預，提供了與基於LiDAR的手動標註相媲美的結果。和廣泛認可的Waymo Open Dataset進行了定性和定量評估：與人工標註相比，速度提高了約16倍，同時保持了最佳的一致性和準確性。

以上是效率狂增16倍！ VRSO：純視覺靜態物件3D標註，打通資料閉環！的詳細內容。更多資訊請關注PHP中文網其他相關文章！