私は最近、Arxiv で純粋な視覚的周囲知覚に関する最近の研究を読みました。この研究は PETR シリーズの手法に基づいており、長距離ターゲット検出の純粋な視覚的知覚の問題を解決することに焦点を当てており、知覚範囲を 150 メートルに拡張しています。 。この論文の手法と結果は非常に参考になるので、解釈してみました
原題: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
論文リンク: https:/ /arxiv.org/abs/2308.09616
著者の所属: 北京理工大学および Megvii Technology
3 次元物体検出は、自動運転の 3 次元シーンを理解する上で重要な役割を果たし、その目的は、車両周囲の物体の位置を正確に特定し、分類することです。純粋な視覚的な周囲認識方法には、低コストと幅広い適用性という利点があり、大幅な進歩を遂げています。ただし、そのほとんどは短距離センシングに焦点を当てており (たとえば、nuScenes のセンシング距離は約 50 メートル)、長距離検出分野はあまり検討されていません。遠くの物体を検出することは、実際の運転中、特に高速時や複雑な道路状況で安全な距離を維持するために重要です。
最近、サラウンドビュー画像からの 3D オブジェクト検出が大幅に進歩し、低コストで導入できるようになりました。しかし、ほとんどの研究は主に短距離の感知範囲に焦点を当てており、長距離の検出に関する研究はほとんどありません。長距離をカバーするために既存の方法を直接拡張すると、高い計算コストや不安定な収束などの課題に直面します。これらの制限に対処するために、この文書では Far3D と呼ばれる新しいスパース クエリベースのフレームワークを提案します。
中間表現によると、既存のルックアラウンドセンシング手法は、BEV表現に基づく手法とスパースに基づく手法の2つに大別できます。クエリ表現。 BEV 表現に基づく方法は、BEV の特徴を集中的に計算する必要があるため、非常に多くの計算量が必要となり、長距離シナリオへの拡張が困難になります。スパースクエリ表現に基づく方法は、トレーニングデータからグローバル3Dクエリを学習し、計算量が比較的少なく、強力なスケーラビリティを備えています。ただし、いくつかの弱点もあります。クエリ数の二乗増加は回避できますが、グローバル固定クエリは動的なシナリオに適応するのが容易ではなく、長距離検出ではターゲットが見逃されることがよくあります。
図 1: Argoverse 2 データセットでの 3D 検出と 2D 検出のパフォーマンスの比較。
長距離検出では、スパース クエリ表現に基づく方法には 2 つの主な課題があります。
1 つ目は、リコールのパフォーマンスが低いことです。 3D 空間ではクエリがまばらに分散しているため、長距離範囲では少数の一致するポジティブ クエリしか生成できません。上の図に示すように、3D 検出の再現率は低いのに対し、既存の 2D 検出の再現率ははるかに高く、両者の間には明らかなパフォーマンスの差が生じています。したがって、高品質の 2D オブジェクト事前分布を利用して 3D クエリを改善することは有望な方法であり、オブジェクトの正確な位置決めと包括的なカバレッジを達成するのに有益です。上記の問題に対処するために、この記事では次の設計計画を採用します。
マルチスケール機能を長距離検出モデルに導入するため, この記事は 3D 空間変形可能注意を適用します。まず、クエリに対応する 3D 位置付近でオフセット サンプリングを実行し、次に 3D-2D ビュー変換を通じて画像特徴を集約します。 PETR シリーズで世界的に注目されているのではなく、この方法の利点は、計算の複雑さを大幅に軽減できることです。具体的には、3D 空間内の各クエリの参照点について、モデルはその周囲の M 個のサンプリング オフセットを学習し、これらのオフセット ポイントをさまざまな 2D ビュー フィーチャに投影します。
その後、3D クエリは投影されたサンプリングされたフィーチャと対話します。このようにして、異なる視点や規模のさまざまな特徴が、相対的な重要性を考慮して 3 次元のクエリにまとめられます。
異なる距離での 3D クエリには異なる回帰困難があり、既存の 2D ノイズ除去方法 (DN-DETR、2D など) とは異なります。通常は同等に扱われるクエリ)。難易度の違いは、クエリのマッチング密度とエラーの伝播に起因します。一方で、遠方のオブジェクトに対応するクエリ一致度は、近くのオブジェクトに比べて低くなります。一方、3D アダプティブ クエリに 2D 事前分布を導入すると、オブジェクトの距離が増加するにつれてこの影響が増大することは言うまでもなく、2D オブジェクト ボックスの小さな誤差が増幅されます。したがって、GT ボックスに近い一部のクエリは肯定的なクエリと見なすことができますが、明らかな逸脱を持つその他のクエリは否定的なクエリと見なす必要があります。この論文では、これらのポジティブ サンプルを最適化し、ネガティブ サンプルを直接破棄することを目的とした 3D デノイズ手法を提案します。
具体的には、著者らは、陽性サンプルと陰性サンプルのグループを同時に追加することにより、GT ベースのノイズの多いクエリを構築します。どちらのタイプでも、オブジェクトの位置とサイズに基づいてランダム ノイズが適用され、長距離知覚におけるノイズ除去学習が容易になります。具体的には、正のサンプルは 3D ボックス内のランダムな点ですが、負のサンプルは GT に大きなオフセットを課し、オフセット範囲はオブジェクトの距離に応じて変化します。この方法では、トレーニング プロセス中にノイズの多い陽性候補サンプルと偽陽性サンプルをシミュレートできます。
Far3D は、Argoverse 2 で 150 m の検知範囲で達成されました。最高のパフォーマンスです。また、モデルをスケールアップした後は、いくつかの Lidar ベースの手法のパフォーマンスを達成でき、純粋な視覚手法の可能性を実証します。
汎化パフォーマンスを検証するために、著者は nuScenes データ セットでも実験を実施し、検証セットとテスト セットの両方で SoTA パフォーマンスを達成したことを示しました。
アブレーション実験の後、次の結論に達しました: 3D 適応クエリ、視点を意識した集計、および範囲調整された 3D ノイズ リダクションにはそれぞれ一定のゲインがあります
Q: この記事の新規性は何ですか?
A: 主な新規性は問題を解決することです。遠距離シーンの認識。既存の方法を長距離シナリオに拡張するには、計算コストや収束の困難など、多くの問題があります。この記事の著者は、このタスクのための効率的なフレームワークを提案しています。各モジュールは個別に見慣れたものに見えますが、すべて遠くのターゲットの検出に役立ち、明確な目標があります。
Q: BevFormer v2 と比較して、MV2D の違いは何ですか?
A: MV2D は主に 2D アンカーに依存して、3D をバインドするための対応する特徴を取得しますが、明示的な深さの推定がないため、遠くのオブジェクトについては不確実性が比較的大きくなり、収束するのが困難になります。主に BevFormer v2 2D バックボーンと 3D タスク シーン間のドメイン ギャップを解決します。一般に、2D 認識タスクで事前トレーニングされたバックボーンは 3D シーンを検出する能力が不十分であり、長距離タスクの問題を調査しません。
Q: クエリの伝播と機能の伝播など、タイミングを改善できますか?
A: 理論的には実現可能ですが、実際のアプリケーションではパフォーマンスと効率のトレードオフを考慮する必要があります。
Q: 改善が必要な領域はありますか?
A: ロングテールの問題と長距離評価指標は両方とも改善に値します。 Argoverse 2 のような 26 クラスのターゲットでは、モデルはロングテール クラスでうまく機能せず、最終的に平均精度が低下しますが、これについてはまだ調査されていません。一方で、統一された指標を使用して遠くの物体と近くの物体を評価することは適切ではない可能性があり、現実世界のさまざまなシナリオに適応できる実用的な動的な評価基準の必要性が強調されています。
元のリンク: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg
以上がAAAI2024: Far3D - 150m まで直接到達する視覚的な 3D ターゲット検出の革新的なアイデアの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。