原題: RoadBEV: Road Surface Reconstruction in Bird's Eye View
論文リンク: https://arxiv.org/pdf/2404.06605.pdf
コードリンク: https ://github.com/ztsrxh/RoadBEV
著者の所属: 清華大学、カリフォルニア大学バークレー校
路面状況、特に幾何学的輪郭は自動運転車の運転能力に大きく影響します。ビジョンベースのオンライン道路再構築により、道路情報を事前に取得できることが期待されます。単眼奥行き推定や立体視推定などの既存のソリューションには限界があります。最近の鳥瞰図 (BEV) 認識技術は、より信頼性が高く正確な再構成を実現するための大きな動機となります。この論文は、それぞれRoadBEV-monoとRoadBEV-stereoと名付けられた2つの効果的なBEV道路標高再構成モデルを一律に提案するもので、道路標高推定に単眼画像や両眼画像を使用するのとは異なります。前者は 1 つの画像から直接道路の標高を推定しますが、後者は左右の体積ビューを使用して道路の標高を推定します。綿密な分析により、視点との一貫性と相違点が明らかになります。現実世界のデータセットでの実験により、モデルの有効性と優位性が実証されています。 RoadBEV-mono と RoadBEV-stereo の標高誤差はそれぞれ 1.83 メートルと 0.56 メートルです。単眼画像に基づく BEV 推定のパフォーマンスが 50% 向上しました。この記事のモデルは、ビジョンベースの自動運転技術において貴重な参考となることが期待されます。
本論文は、路面再構築の必要性と優位性を理論面と実験面の両面から鳥瞰的に初めて実証したものである。
この記事では、RoadBEV-mono と RoadBEV-stereo という 2 つのモデルを紹介します。単眼ベースのスキームとステレオベースのスキームについては、この記事でそのメカニズムについて詳しく説明します。
この論文では、提案されたモデルのパフォーマンスを包括的にテストおよび分析し、将来の研究に貴重な洞察と展望を提供します。
近年、無人地上車両 (UGV) の急速な開発により、車載認識システムに対する要件がさらに高まっています。正確な動作計画と制御には、運転環境と状況をリアルタイムで理解することが不可欠です [1] ~ [3]。車両にとって、道路は物理世界との唯一の接触媒体です。路面状況は、多くの車両特性と操縦性を決定します [4]。図 1(a) に示すように、凹凸や窪みなどの道路の凹凸は、車両の乗り心地を悪化させますが、これは直感的に認識できます。リアルタイムの路面状況の認識、特に幾何学的な高さは、乗り心地の向上に大きく役立ちます [5]、[6]。
無人地上車両 (UGV) におけるセグメンテーションや検出などの他の認識タスクと比較して、路面再構築 (RSR) は最近注目を集めている新興テクノロジーです。既存の認識プロセスと同様に、RSR は通常、オンボード LiDAR とカメラ センサーを利用して路面情報を保持します。 LiDAR は道路等高線を直接スキャンし、点群を導き出します [7]、[8]。複雑なアルゴリズムを使用せずに、車両軌道上の道路の標高を直接抽出できます。ただし、LiDAR センサーはコストが高いため、経済的な量産車両への応用は制限されます。車両や歩行者などの大きな交通物体とは異なり、道路の凹凸は通常、規模が小さいため、点群の精度が重要です。リアルタイムの道路スキャンでは動き補償とフィルタリングが必要であり、さらにセンチメートルレベルでの高精度の測位が必要です。
画像ベースの路面再構成 (RSR) は、3 次元視覚タスクとして、精度と解像度の点で LiDAR よりも有望です。また、路面のテクスチャも保持し、道路の認識をより包括的にします。視覚ベースの道路標高の再構築は、実際には深度推定の問題です。単眼カメラの場合、単一の画像に基づいて単眼奥行き推定を実装することも、奥行きを直接推定するシーケンスに基づいて多視点ステレオ (MVS) を実装することもできます [9]。双眼カメラの場合、両眼マッチングにより視差マップが回帰され、視差マップは深度に変換できます [10]、[11]。カメラ パラメーターが与えられると、カメラ座標系の道路点群を復元できます。事前の後処理プロセスを経て、最終的に道路構造と標高情報が取得されます。グラウンドトゥルース (GT) ラベルの指導のもと、高精度で信頼性の高い RSR を実現できます。
然而,影像視角下的道路表面重建(RSR)存在著固有的缺點。對於特定像素的深度估計實際上是沿著垂直於影像平面方向尋找最優箱體(optimal bins)(如圖1(b)中的橘色點所示)。深度方向與道路表面有一定的角度偏差。道路輪廓特徵的變化和趨勢與搜尋方向上的變化和趨勢不一致。在深度視圖中關於道路高程變化的資訊線索是稀疏的。此外,每個像素的深度搜尋範圍是相同的,導致模型捕捉到的是全域幾何層次結構而不是局部表面結構。由於全局但粗糙的深度搜索,精細的道路高程資訊被破壞。由於本文關注的是垂直方向上的高程,因此在深度方向上所做的努力被浪費了。在透視視圖中,遠距離的紋理細節遺失,這進一步為有效的深度回歸帶來了挑戰,除非進一步引入先驗約束[12]。
從俯視圖(即鳥瞰圖,BEV)估計道路高程是一個自然的想法,因為高程本質上描述了垂直方向的振動。鳥瞰圖是一種有效的範式,用於以統一座標表示多模態和多視圖資料[13],[14]。最近在三維目標檢測和分割任務上取得的 SOTA 性能是透過基於鳥瞰圖的方法實現的[15],這與透視視圖不同,後者透過在視圖轉換的影像特徵上引入估計頭部來進行。圖1展示了本文的動機。與在影像視圖中關注全局結構不同,鳥瞰圖中的重建直接在垂直方向上的一個特定小範圍內識別道路特徵。在鳥瞰圖中投影的道路特徵密集地反映了結構和輪廓變化,有助於進行有效和精細化的搜尋。透視效應的影響也被抑制,因為道路在垂直於觀察角度的平面上被統一表示。基於鳥瞰圖特徵的道路重建有望實現更高的性能。
本文重建了BEV下的道路表面,以解決上述識別出的問題。特別地,本文關注道路幾何,即高程(elevation)。為了利用單眼和雙眼影像,並展示鳥瞰圖感知的廣泛可行性,本文提出了兩個子模型,分別命名為RoadBEV-mono和RoadBEV-stereo。遵循鳥瞰圖的範例,本文定義了覆蓋潛在道路起伏的興趣體素。這些體素透過3D-2D投影查詢像素特徵。對於RoadBEV-mono,本文在重塑的體素特徵上引入了高程估計頭。 RoadBEV-stereo的結構與影像視圖中的雙眼匹配保持一致。基於左右體素特徵,在鳥瞰圖中建構了一個4D代價體積,該體積透過3D卷積進行聚合。高程迴歸被視為對預定義箱體的分類,以實現更有效率的模型學習。本文在本文作者先前發布的真實世界資料集上驗證了這些模型,顯示出它們比傳統的單目深度估計和雙眼匹配方法有著巨大的優勢。
圖1. 本文的動機。 (a)無論是單目或雙目配置,本文在鳥瞰圖(BEV)中的重建方法都優於影像視圖中的方法。 (b)在影像視圖中進行深度估計時,搜尋方向與道路高程方向有偏差。在深度視圖中,道路輪廓特徵是稀疏的。坑洼不容易被識別。 (c)在鳥瞰圖中,能夠精確捕捉到輪廓振動,例如坑洞、路邊階梯甚至車轍。垂直方向上的道路高程特徵較為密集,也較容易辨識。
圖2. 座標示意與真值(GT)高程標籤的產生。 (a)座標(b)影像視圖中的興趣區域(ROI)(c)鳥瞰圖中的興趣區域(ROI)(d)在網格中產生真值(GT)標籤
#圖3. 道路影像及真值(GT)高程圖的範例。
圖4. 影像檢視中感興趣的特徵體素。位於相同水平位置的堆疊體素的中心被投影到紅色線段上的像素點。
圖5. RoadBEV-mono的架構。本文利用3D到2D的投影來查詢像素特徵。高程估計頭部使用2D卷積在重塑後的鳥瞰圖(BEV)特徵上提取特徵。
圖6. RoadBEV-mono的機制。體素以側視圖展示。
圖7. RoadBEV-stereo的架構。定義在左側相機座標系下的體素查詢左右特徵圖的像素特徵。本文透過左右體素特徵之間的相減,在鳥瞰圖(BEV)中建構差異體積。然後,3D卷積對鳥瞰圖中的4D體積進行聚合。
圖8. RoadBEV-stereo的機制。
圖9. (a) RoadBEV-mono和 (b) RoadBEV-stereo的訓練損失。
圖10. 在單目與雙眼基礎上,與SOTA模型的距離方向上的高程誤差比較。
圖11. 由RoadBEV-mono重建的道路表面視覺化。
圖12. 由RoadBEV-stereo重建的道路表面視覺化。
本文首次在鳥瞰圖中重建了道路表面的高程。本文分別提出並分析了基於單眼和雙眼影像的兩種模型,分別命名為RoadBEV-mono和RoadBEV-stereo。本文發現,BEV中的單目估計和雙眼匹配與透視視圖中的機制相同,透過縮小搜尋範圍和直接在高程方向挖掘特徵而得到改善。在真實世界資料集上的全面實驗驗證了所提出的BEV體積、估計頭和參數設定的可行性和優越性。對於單眼相機,在BEV中的重建性能比透視視圖提高了50%。同時,在BEV中,使用雙眼相機的性能是單目的三倍。本文提供了關於模型的深入分析和指導。本文的開創性探索也為與BEV感知、3D重建和3D檢測相關的進一步研究和應用提供了寶貴的參考。
以上是清華最新! RoadBEV:BEV下的道路表面重建如何實現?的詳細內容。更多資訊請關注PHP中文網其他相關文章!