BEV におけるデータセット間のレーダーとカメラの融合に関する実験的研究-AI-php.cn

BEV におけるデータセット間のレーダーとカメラの融合に関する実験的研究

PHPz

リリース： 2023-10-05 18:45:05

転載

778 人が閲覧しました

原題: Cross-Dataset Experimental Study of Radar-Camera Fusion in Bird's-Eye View
論文リンク: https://arxiv.org/pdf/2309.15465.pdf
著者の所属: Opel Automobile GmbH Rheinland -ファルツィッシェ工科大学カイザースラウテルンランダウドイツ人工知能研究センター

BEV下的Radar-Camera 融合跨数据集实验研究

論文のアイデア:

補完的なセンサー情報を活用することで、ミリメーターはウェーブレーダーとカメラフュージョンシステムは、高度な運転支援システムと自動運転機能に非常に堅牢で信頼性の高い認識システムを提供する可能性があります。カメラベースの物体検出の最近の進歩により、ミリ波レーダーとカメラの融合に新たな可能性がもたらされ、鳥瞰図の特徴マップを融合に活用できます。この研究では、新規で柔軟な融合ネットワークを提案し、2 つのデータセット (nuScenes と View-of-Delft) でそのパフォーマンスを評価します。実験結果によると、カメラブランチには大規模で多様なトレーニングデータが必要ですが、ミリ波レーダーブランチでは高性能ミリ波レーダーの恩恵がより多く得られます。この研究は転移学習を通じて、より小さなデータセットでのカメラのパフォーマンスを向上させます。研究結果はさらに、ミリ波レーダーとカメラの融合手法が、カメラのみまたはミリ波レーダーのみを使用するベースライン手法よりも大幅に優れていることを示しています。

ネットワーク設計:

##最近の 3D オブジェクト検出のトレンドは、画像の特徴を一般的な鳥瞰図 (BEV) 表現に変換することです。この表現は、複数のカメラ間で、または測距センサーを使用して融合できる、柔軟な融合アーキテクチャを提供します。この研究では、もともとレーザーカメラフュージョンに使用されていた BEVFusion 手法をミリ波レーダーカメラフュージョン用に拡張します。私たちは、選択したミリ波レーダーデータセットを使用して、提案した融合手法をトレーニングし、評価しました。いくつかの実験で、各データセットの長所と短所について議論します。最後に、さらなる改善を達成するために転移学習を適用します

BEV下的Radar-Camera 融合跨数据集实验研究

#書き直す必要があるものは次のとおりです。図1にBEVFusionに基づくBEVミリ波レーダーとカメラの融合フローチャートを示します。生成されたカメラ画像には、投影されたミリ波レーダーと実際のバウンディングボックスの検出結果が含まれます。

この記事は、BEVFusion の融合アーキテクチャに従います。図 1 に、本稿での BEV におけるミリ波レーダーとカメラの融合のネットワーク概要を示します。カメラとミリ波レーダーのシグネチャが BEV で接続されると、融合が発生することに注意してください。この記事では、以下で各ブロックの詳細を説明します。

書き直す必要がある内容は次のとおりです。 A. カメラエンコーダとカメラから BEV ビューへの変換

カメラエンコーダとビュー変換は、[15] のアイデアを採用しています。柔軟なフレームワークは、任意のカメラの外部および内部パラメータの画像 BEV 特徴を抽出できます。まず、tiny-Swin Transformer ネットワークを使用して各画像から特徴が抽出されます。次に、この論文では、[14] の Lift および Splat ステップを使用して、画像の特徴を BEV 平面に変換します。この目的を達成するために、高密度深度予測の後に、特徴が擬似点群に変換され、ラスター化されて BEV グリッドに蓄積されるルールベースのブロックが続きます。

レーダーピラーフィーチャエンコーダ

このブロックの目的は、ミリ波レーダー点群を画像 BEV フィーチャと同じグリッド上の BEV フィーチャにエンコードすることです。この目的を達成するために、この論文では、[16] のピラー特徴エンコード技術を使用して、点群を無限の高さのボクセル、いわゆるピラーにラスタライズします。

書き換えが必要な内容は次のとおりです。 C. BEV エンコーダ

[5]と同様に、ミリ波レーダーとカメラの BEV 機能はカスケードフュージョンによって実現されます。融合された特徴は共同畳み込み BEV エンコーダーによって処理されるため、ネットワークは空間的な位置ずれを考慮し、異なるモダリティ間の相乗効果を活用できます。

D. 検出ヘッド

この記事では、CenterPoint 検出ヘッドを使用して予測を行います。各クラスのオブジェクト中心のヒートマップ。さらに回帰ヘッドは、オブジェクトのサイズ、回転、高さだけでなく、nuScenes の速度とクラスプロパティを予測します。ヒートマップはガウス焦点損失を使用してトレーニングされ、残りの検出ヘッドは L1 損失を使用してトレーニングされます。