AAAI2024: Far3D - 150m まで直接到達する視覚的な 3D ターゲット検出の革新的なアイデア-AI-php.cn

私は最近、Arxiv で純粋な視覚的周囲知覚に関する最近の研究を読みました。この研究は PETR シリーズの手法に基づいており、長距離ターゲット検出の純粋な視覚的知覚の問題を解決することに焦点を当てており、知覚範囲を 150 メートルに拡張しています。。この論文の手法と結果は非常に参考になるので、解釈してみました

原題: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
論文リンク: https:/ /arxiv.org/abs/2308.09616
著者の所属: 北京理工大学および Megvii Technology

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

ミッションの背景

3 次元物体検出は、自動運転の 3 次元シーンを理解する上で重要な役割を果たし、その目的は、車両周囲の物体の位置を正確に特定し、分類することです。純粋な視覚的な周囲認識方法には、低コストと幅広い適用性という利点があり、大幅な進歩を遂げています。ただし、そのほとんどは短距離センシングに焦点を当てており (たとえば、nuScenes のセンシング距離は約 50 メートル)、長距離検出分野はあまり検討されていません。遠くの物体を検出することは、実際の運転中、特に高速時や複雑な道路状況で安全な距離を維持するために重要です。

最近、サラウンドビュー画像からの 3D オブジェクト検出が大幅に進歩し、低コストで導入できるようになりました。しかし、ほとんどの研究は主に短距離の感知範囲に焦点を当てており、長距離の検出に関する研究はほとんどありません。長距離をカバーするために既存の方法を直接拡張すると、高い計算コストや不安定な収束などの課題に直面します。これらの制限に対処するために、この文書では Far3D と呼ばれる新しいスパースクエリベースのフレームワークを提案します。

論文アイデア

中間表現によると、既存のルックアラウンドセンシング手法は、BEV表現に基づく手法とスパースに基づく手法の2つに大別できます。クエリ表現。 BEV 表現に基づく方法は、BEV の特徴を集中的に計算する必要があるため、非常に多くの計算量が必要となり、長距離シナリオへの拡張が困難になります。スパースクエリ表現に基づく方法は、トレーニングデータからグローバル3Dクエリを学習し、計算量が比較的少なく、強力なスケーラビリティを備えています。ただし、いくつかの弱点もあります。クエリ数の二乗増加は回避できますが、グローバル固定クエリは動的なシナリオに適応するのが容易ではなく、長距離検出ではターゲットが見逃されることがよくあります。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路図 1: Argoverse 2 データセットでの 3D 検出と 2D 検出のパフォーマンスの比較。

長距離検出では、スパースクエリ表現に基づく方法には 2 つの主な課題があります。

1 つ目は、リコールのパフォーマンスが低いことです。 3D 空間ではクエリがまばらに分散しているため、長距離範囲では少数の一致するポジティブクエリしか生成できません。上の図に示すように、3D 検出の再現率は低いのに対し、既存の 2D 検出の再現率ははるかに高く、両者の間には明らかなパフォーマンスの差が生じています。したがって、高品質の 2D オブジェクト事前分布を利用して 3D クエリを改善することは有望な方法であり、オブジェクトの正確な位置決めと包括的なカバレッジを達成するのに有益です。

第二に、2D 検出結果を直接導入して 3D 検出を支援すると、エラーの伝播の問題に直面します。以下の図に示すように、2 つの主な原因は、1) 不正確な深度予測によるオブジェクトの位置決め誤差、2) 錐台変換における 3D 位置誤差が距離とともに増加することです。これらのノイズの多いクエリはトレーニングの安定性に影響を与えるため、最適化するには効果的なノイズ除去方法が必要です。さらに、トレーニング中、モデルは、まばらに分散された遠くのオブジェクトを無視しながら、密集した近くのオブジェクトにオーバーフィットする傾向を示します。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路上記の問題に対処するために、この記事では次の設計計画を採用します。

データセットから学習した 3D グローバルクエリに加えて、2D 検出結果から生成された 3D アダプティブクエリも導入されています。具体的には、2D 検出器と深度予測ネットワークを最初に使用して 2D ボックスと対応する深度を取得し、次に 3D 適応クエリの初期化として空間変換を通じて 3D 空間に投影します。
さまざまな距離にあるさまざまなスケールのオブジェクトに適応するために、遠近感を意識した集約が設計されています。これにより、3D クエリがさまざまなスケールのフィーチャと対話できるようになり、さまざまな距離にあるオブジェクトのフィーチャキャプチャに役立ちます。たとえば、遠くのオブジェクトには高解像度の機能が必要ですが、近くのオブジェクトには異なる機能が必要です。この設計により、モデルがフィーチャと適応的に対話できるようになります。
レンジ変調 3D ノイズ除去と呼ばれる戦略は、クエリエラーの伝播と収束の遅さの問題を軽減するために設計されています。距離が異なるとクエリ回帰の難易度が異なることを考慮して、ノイズの多いクエリは実際のボックスの距離とスケールに応じて調整されます。 GT 付近のノイズの多いクエリの複数のセットをデコーダに入力して、3D リアルボックス (正のサンプルの場合) を再構築し、負のサンプルをそれぞれ破棄します。

主な貢献

この論文は、3D 適応型オブジェクトを生成する前に高品質の 2D オブジェクトを使用する、新しいスパースクエリベースの検出フレームワークを提案します。クエリを実行することで、3D 検出の認識範囲が拡大します。
この記事では、さまざまなスケールや観点から視覚的特徴を集約するパースペクティブ認識集約モジュールと、クエリエラーの伝播とフレームワークの収束の問題を解決するためのターゲット距離に基づく 3D ノイズ除去戦略を設計します。
長距離 Argoverse 2 データセットの実験結果では、Far3D が以前のルックアラウンド手法を上回り、いくつかの LIDAR ベースの手法を上回るパフォーマンスを示しています。そしてその一般性は nuScenes データセットで検証されています。

モデル設計

Far3D プロセスの概要:

サラウンド画像をバックボーンネットワークに入力するおよび FPN レイヤーは、2D 画像特徴をエンコードし、カメラパラメーターを使用してエンコードします。
2D 検出器と深度予測ネットワークを利用して、信頼性の高い 2D オブジェクトボックスとそれに対応する深度を生成し、カメラ変換を通じて 3D 空間に投影します。
生成された 3D 適応クエリは、最初の 3D グローバルクエリと結合され、デコーダ層によって反復的に回帰されて 3D オブジェクトフレームが予測されます。さらに、このモデルは長期的なクエリ伝播を通じて時系列モデリングを実装できます。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

視点を意識した集約:

マルチスケール機能を長距離検出モデルに導入するため, この記事は 3D 空間変形可能注意を適用します。まず、クエリに対応する 3D 位置付近でオフセットサンプリングを実行し、次に 3D-2D ビュー変換を通じて画像特徴を集約します。 PETR シリーズで世界的に注目されているのではなく、この方法の利点は、計算の複雑さを大幅に軽減できることです。具体的には、3D 空間内の各クエリの参照点について、モデルはその周囲の M 個のサンプリングオフセットを学習し、これらのオフセットポイントをさまざまな 2D ビューフィーチャに投影します。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

その後、3D クエリは投影されたサンプリングされたフィーチャと対話します。このようにして、異なる視点や規模のさまざまな特徴が、相対的な重要性を考慮して 3 次元のクエリにまとめられます。

レンジ調整された 3D ノイズ除去:

異なる距離での 3D クエリには異なる回帰困難があり、既存の 2D ノイズ除去方法 (DN-DETR、2D など) とは異なります。通常は同等に扱われるクエリ)。難易度の違いは、クエリのマッチング密度とエラーの伝播に起因します。一方で、遠方のオブジェクトに対応するクエリ一致度は、近くのオブジェクトに比べて低くなります。一方、3D アダプティブクエリに 2D 事前分布を導入すると、オブジェクトの距離が増加するにつれてこの影響が増大することは言うまでもなく、2D オブジェクトボックスの小さな誤差が増幅されます。したがって、GT ボックスに近い一部のクエリは肯定的なクエリと見なすことができますが、明らかな逸脱を持つその他のクエリは否定的なクエリと見なす必要があります。この論文では、これらのポジティブサンプルを最適化し、ネガティブサンプルを直接破棄することを目的とした 3D デノイズ手法を提案します。

具体的には、著者らは、陽性サンプルと陰性サンプルのグループを同時に追加することにより、GT ベースのノイズの多いクエリを構築します。どちらのタイプでも、オブジェクトの位置とサイズに基づいてランダムノイズが適用され、長距離知覚におけるノイズ除去学習が容易になります。具体的には、正のサンプルは 3D ボックス内のランダムな点ですが、負のサンプルは GT に大きなオフセットを課し、オフセット範囲はオブジェクトの距離に応じて変化します。この方法では、トレーニングプロセス中にノイズの多い陽性候補サンプルと偽陽性サンプルをシミュレートできます。

実験結果

Far3D は、Argoverse 2 で 150 m の検知範囲で達成されました。最高のパフォーマンスです。また、モデルをスケールアップした後は、いくつかの Lidar ベースの手法のパフォーマンスを達成でき、純粋な視覚手法の可能性を実証します。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

汎化パフォーマンスを検証するために、著者は nuScenes データセットでも実験を実施し、検証セットとテストセットの両方で SoTA パフォーマンスを達成したことを示しました。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

アブレーション実験の後、次の結論に達しました: 3D 適応クエリ、視点を意識した集計、および範囲調整された 3D ノイズリダクションにはそれぞれ一定のゲインがあります

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

この論文についての考え

Q: この記事の新規性は何ですか?
A: 主な新規性は問題を解決することです。遠距離シーンの認識。既存の方法を長距離シナリオに拡張するには、計算コストや収束の困難など、多くの問題があります。この記事の著者は、このタスクのための効率的なフレームワークを提案しています。各モジュールは個別に見慣れたものに見えますが、すべて遠くのターゲットの検出に役立ち、明確な目標があります。

Q: BevFormer v2 と比較して、MV2D の違いは何ですか?
A: MV2D は主に 2D アンカーに依存して、3D をバインドするための対応する特徴を取得しますが、明示的な深さの推定がないため、遠くのオブジェクトについては不確実性が比較的大きくなり、収束するのが困難になります。主に BevFormer v2 2D バックボーンと 3D タスクシーン間のドメインギャップを解決します。一般に、2D 認識タスクで事前トレーニングされたバックボーンは 3D シーンを検出する能力が不十分であり、長距離タスクの問題を調査しません。

Q: クエリの伝播と機能の伝播など、タイミングを改善できますか?
A: 理論的には実現可能ですが、実際のアプリケーションではパフォーマンスと効率のトレードオフを考慮する必要があります。

Q: 改善が必要な領域はありますか?
A: ロングテールの問題と長距離評価指標は両方とも改善に値します。 Argoverse 2 のような 26 クラスのターゲットでは、モデルはロングテールクラスでうまく機能せず、最終的に平均精度が低下しますが、これについてはまだ調査されていません。一方で、統一された指標を使用して遠くの物体と近くの物体を評価することは適切ではない可能性があり、現実世界のさまざまなシナリオに適応できる実用的な動的な評価基準の必要性が強調されています。

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路