地面の高さに回帰して距離に依存しない定式化を実現することで、カメラ認識のみの手法の最適化プロセスを簡素化します。路側カメラの 3D 検出ベンチマークでは、この方法はこれまでのすべての視覚中心の方法を大幅に上回っています。 BEVDepth の 1.9% NDS および 1.1% mAP に比べて大幅な改善が得られます。 nuScenes テスト セットでは、この方法が大幅に進歩し、NDS と mAP がそれぞれ 2.8% と 1.7% 増加しました。
タイトル: BEVHeight: 堅牢なビジョン中心の 3D オブジェクト検出に向けて
論文リンク: https://arxiv.org/pdf/2309.16179.pdf
著者単位: 清華大学、中山大学、蔡宜網網、北京大学
国内初の自動運転コミュニティから: ついに 20 の技術方向学習ルートの構築を完了 (BEV センシング/3D 検出/マルチセンサー)融合/SLAM と計画など)
最近の自動運転システムは車両センサーの認識方法の開発に焦点を当てていますが、路側のスマート カメラを使用して認識機能を超えて拡張する方法は見落とされがちです。視覚範囲、代替方法。著者らは、最先端の視覚中心の BEV 検出方法が路側カメラではあまり機能しないことを発見しました。これは、これらの方法が主にカメラ中心付近の深度を回復することに焦点を当てているためで、そこでは車と地面の間の深度の差は距離とともに急速に縮小します。この記事では、著者はこの問題を解決するために、BEVHeight と呼ばれるシンプルかつ効果的な方法を提案します。基本的に、著者らは地面の高さに回帰して距離に依存しない定式化を実現し、それによってカメラ認識のみの手法の最適化プロセスを簡素化します。高さと奥行きのエンコード技術を組み合わせることで、2D 空間から BEV 空間へのより正確かつ堅牢な投影が実現します。この方法は、路側カメラの一般的な 3D 検出ベンチマークにおいて、これまでのすべての視覚中心の方法よりも大幅に優れています。自車シーンの場合、BEVHeight は深度のみの方法よりも優れたパフォーマンスを示します
具体的には、nuScenes 検証セットで評価すると、BEVDepth よりも 1.9% 優れた NDS と 1.1% 優れた mAP が得られます。さらに、nuScenes テスト セットでは、NDS と mAP がそれぞれ 2.8% と 1.7% 増加するなど、この方法は大幅な進歩を遂げました。
図 1: (a) 単眼画像から 3D バウンディング ボックスを生成するには、最先端の方法ではまずピクセルごとの深さを明示的または暗黙的に予測して、前景オブジェクトと背景の 3D 位置。しかし、画像上にピクセルごとの深度をプロットすると、車がカメラから遠ざかるにつれて、屋根上の点と周囲の地面の間の差が急速に縮小し、特に遠くのオブジェクトの場合、最適化が準最適化されていることがわかりました。 。 (b) 代わりに、地面までのピクセルごとの高さをプロットし、この差は距離に関係なく、ネットワークが物体を検出するのに視覚的により適していることを観察します。ただし、高さのみを予測して 3D 位置を直接回帰することはできません。 (c) この目的のために、この問題を解決するための新しいフレームワーク BEVHeight を提案します。経験的な結果は、私たちの方法が最良の方法よりもクリーンな設定で 5.49%、ノイズの多い設定で 28.2% 優れていることを示しています。
予測の高さと深さの比較。 (a) 以前の深さベースの方法と提案された高さベースのパイプラインの概要。この文書では、新しい 2D から 3D への投影モジュールを提案していることに注意してください。 (b) ピクセルごとの深さ (上) と地面の高さ (下) のヒストグラムをプロットすると、深さの範囲が 200 メートルを超えているのに対し、高さの範囲は 5 メートル以内であることがはっきりと観察され、高さが学習しやすくなります。
画像では、オブジェクトの行座標とその深さと高さとの間に相関関係があります。画像内のターゲットの位置は (u, v) によって定義できます。ここで、v は画像の行座標を表します。 (a) では、正規分布にロール方向とピッチ方向の回転オフセットを追加することでノイズを導入する視覚的な例を示しています。 (b) に深さ分布の散布図を示します。 (c) には地上からの高さを示します。高さのノイズ設定は、深さと比較して元の分布との重複が大きいことが観察でき、高さの推定がより堅牢であることを示しています
BEVHeight の全体的なフレームワークには、深さベースのブランチ (シアン)、高さベースのブランチ (緑)、および特徴融合プロセス (グレー) という 3 つのサブネットワークが含まれています。深度ベースのパイプラインは、推定されたピクセルごとの深度を使用して、画像ビューの特徴を深度ベースの BEV 特徴(D ベース BEV)に変換します。高さベースのパイプラインは、画像ビュー内のリフト フィーチャの地上高予測を使用して、高さベースの BEV フィーチャ (H ベース BEV) を生成します。特徴融合には、画像融合と鳥瞰図融合が含まれる。画像とビューの融合では、高さ分布と画像特徴をカスケード接続することによって融合特徴が取得され、後続のアップグレード操作に使用されます。鳥瞰図融合は、変形可能なクロスアテンションを通じて、高さベースの BEV 特徴と深さベースの BEV 特徴から融合された BEV 特徴を取得し、それを検出ヘッドの入力として使用します。 ## #############実験結果#################################
##書き直す必要がある内容は次のとおりです: 元のリンク: https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w
以上がはるか先! BEVHeight++: 道路脇の視覚的な 3D ターゲット検出のための新しいソリューション!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。