近年、自動運転技術における視覚中心の3D認識が急速に発展しています。 3D 認識モデルは構造的および概念的に類似していますが、特徴の表現、データ形式、目的には依然としてギャップがあり、統一された効率的な 3D 認識フレームワークを設計することが課題となっています。したがって、研究者は、より正確で信頼性の高い自動運転システムを実現するために、これらのギャップに対処するために懸命に取り組む必要があります。私たちは、コラボレーションとイノベーションを通じて、自動運転の安全性とパフォーマンスをさらに向上させたいと考えています。
特に、BEV での検出タスクと占有タスクでは、共同トレーニングを実施して良好な結果を達成することは非常に困難です。これは、不安定性や制御が難しい影響により、多くのアプリケーションに大きな問題をもたらします。ただし、UniVision は、視覚中心の 3D 認識の 2 つの主要なタスク、つまり占有予測とオブジェクト検出を統合するシンプルで効率的なフレームワークです。フレームワークの中核は、相補的な 2D-3D フィーチャ変換のための明示的-暗黙的ビュー変換モジュールです。さらに、UniVision は、効率的かつ適応的なボクセルと BEV の特徴抽出、強化、および相互作用のためのローカル グローバル特徴抽出および融合モジュールも提案しています。これらの方法を採用することにより、UniVision は BEV での検出タスクと占有タスクで満足のいく結果を達成することができます。
UniVision は、マルチタスク フレームワーク トレーニングの効率と安定性を向上させるために、共同占有検出データ強化戦略と段階的な減量調整戦略を提案しています。シーンフリー LIDAR セグメンテーション、シーンフリー検出、OpenOccupancy、Occ3D を含む 4 つの公開ベンチマークで広範な実験が行われています。実験結果は、UniVision が各ベンチマークでそれぞれ 1.5 mIoU、1.8 NDS、1.5 mIoU、1.8 mIoU のゲインを達成し、SOTA レベルに達したことを示しています。したがって、UniVision フレームワークは、統合されたビジョン中心の 3D 認識タスクの高性能ベースラインとして機能します。
3D 認識は自動運転システムの主なタスクであり、一連のセンサー (LIDAR など) を利用することを目的としています。 、レーダー、カメラ)取得されたデータは、走行シーンを総合的に把握し、その後の計画や意思決定に活用することができます。これまで、3D 認識の分野は、点群データから得られた正確な 3D 情報により、LIDAR ベースのモデルが主流でした。ただし、LIDAR ベースのシステムは高価で、悪天候の影響を受けやすく、導入が不便です。対照的に、ビジョンベースのシステムには、低コスト、簡単な導入、優れた拡張性など、多くの利点があります。したがって、視覚を中心とした三次元認識は研究者の間で広く注目を集めています。
最近、ビジョンベースの 3D 検出は、改善された特徴表現変換、時間融合、および監視信号設計を通じて大幅な進歩を遂げており、LiDAR ベースのモデルとの差は縮小し続けています。さらに、視覚ベースの占有タスクも近年急速に発展しています。 3D ボックスを使用してオブジェクトを表現するのとは異なり、占有率は運転シーンの幾何学的および意味論的な特性をより包括的に記述することができ、オブジェクトの形状やカテゴリによって制限されません。
検出方法と占有方法には構造的および概念的な類似点がありますが、これら 2 つのタスクを同時に処理し、それらの相互関係を調査することに関する研究は不十分です。占有モデルと検出モデルは通常、異なる特徴表現を抽出します。占有予測タスクには徹底的な意味論的および幾何学的な判断が必要なため、きめの細かい 3D 情報を保存するためにボクセル表現が広く使用されています。ただし、検出タスクでは、ほとんどのオブジェクトが同じ水平面上にあり、重なりが小さいため、BEV 表現の方が適しています。
BEV 表現と比較すると、ボクセル表現は精細度が高くなりますが、効率は低くなります。さらに、多くの高度なオペレータは主に 2D フィーチャ向けに設計および最適化されているため、3D ボクセル表現との統合はそれほど単純ではありません。 BEV 表現は時間効率とメモリ効率の点でより有利ですが、高さの次元で構造情報が失われるため、密な空間予測には次善です。特徴の表現に加えて、認識タスクが異なれば、データ形式と目標も異なります。したがって、マルチタスク 3D 認識フレームワークのトレーニングの均一性と効率を確保することは、大きな課題です。
UniVision フレームワークの全体的なアーキテクチャを図 1 に示します。このフレームワークは、周囲の N 台のカメラからの多視点画像を入力として受け取り、画像特徴抽出ネットワークを通じて画像特徴を抽出します。次に、Ex-Im ビュー変換モジュールを使用して、2D 画像特徴を 3D ボクセル特徴に変換します。このモジュールは、深度ガイドによる明示的な特徴ブースティングとクエリによる暗黙的な特徴サンプリングを組み合わせたものです。 ビュー変換後、ボクセル特徴はローカル グローバル特徴抽出および融合ブロックに供給され、ローカル コンテキスト認識ボクセル特徴とグローバル コンテキスト認識 BEV 特徴がそれぞれ抽出されます。次に、相互表現特徴相互作用モジュールを通じて、さまざまな下流の知覚タスクのボクセル特徴と BEV 特徴に関する情報が交換されます。 トレーニング プロセス中、UniVision フレームワークは、効果的なトレーニングのために、Occ-Det データ強化と段階的な減量調整戦略を組み合わせて使用します。これらの戦略により、トレーニング効果とフレームワークの汎化能力を向上させることができます。 つまり、UniVision フレームワークは、マルチビュー画像と 3D ボクセル特徴の処理、および特徴相互作用モジュールのアプリケーションを通じて、周囲の環境をセンシングするタスクを実現します。同時に、データ強化と減量調整戦略の適用を通じて、フレームワークのトレーニング効果が効果的に向上します。
深度指向の明示的な機能強化。ここでは LSS アプローチに従います:
#2) クエリガイドによる暗黙的な特徴サンプリング。ただし、3D 情報の表現にはいくつかの欠点があります。の精度は、推定された深度分布の精度と高い相関があります。さらに、LSS によって生成されるポイントは均一に分配されません。ポイントはカメラの近くでは密集しており、遠くでは疎になります。したがって、クエリガイドによる特徴サンプリングをさらに使用して、上記の欠点を補います。
LSS から生成されたポイントと比較して、ボクセル クエリは 3D 空間に均一に分散されており、すべてのトレーニング サンプルの統計的特性から学習されます。これは深度に一致します。 LSS で使用される事前情報は無関係です。したがって、相互に補完し、ビュー変換モジュールの出力特徴としてそれらを接続します。
与えられた入力ボクセル特徴を、最初に Z 軸上に特徴をオーバーレイし、畳み込み層を使用してチャネルを削減し、BEV 特徴を取得します。
次に、モデル特徴抽出と拡張のために 2 つの並列ブランチに分割されます。ローカル特徴抽出、グローバル特徴抽出、そして最後の相互表現特徴相互作用!図 1(b) に示すように。
3D 検出タスクでは、一般的な画像レベルのデータ強化に加えて、空間レベルのデータ強化も改善に効果的です。モデルのパフォーマンス、効果的。ただし、占有タスクに空間レベルの強化を適用するのは簡単ではありません。データ拡張 (ランダムなスケーリングや回転など) を個別の占有ラベルに適用する場合、結果として得られるボクセルのセマンティクスを判断するのは困難です。したがって、既存の方法では、占有タスクにおけるランダムな反転などの単純な空間拡張のみが適用されます。
この問題を解決するために、UniVision は、フレームワーク内の 3D 検出タスクと占有タスクの同時強化を可能にする共同 Occ-Det 空間データ強化を提案しています。 3D ボックスのラベルは連続値であり、強化された 3D ボックスはトレーニング用に直接計算できるため、検出には BEVDet の強化方法に従います。占有ラベルは離散的で操作が困難ですが、ボクセル フィーチャは連続的なものとして扱うことができ、サンプリングや補間などの操作を通じて処理できます。したがって、データ拡張のために占有ラベルを直接操作するのではなく、ボクセル フィーチャを変換することをお勧めします。
具体的には、まず空間データ拡張がサンプリングされ、対応する 3D 変換行列が計算されます。占有ラベルとそのボクセル インデックス について、その 3 次元座標を計算します。次に、それを適用して正規化して、拡張ボクセル機能のボクセル インデックスを取得します :
検出タスクのアブレーション研究を表 5 に示します。 BEV ベースのグローバル特徴抽出ブランチがベースライン モデルに挿入されると、パフォーマンスは mAP で 1.7%、NDS で 3.0% 向上します。ボクセルベースの占有タスクが補助タスクとして検出器に追加されると、モデルの mAP ゲインは 1.6% 増加します。相互表現相互作用がボクセル特徴から明示的に導入されると、モデルは最高のパフォーマンスを達成し、ベースラインと比較して mAP と NDS をそれぞれ 3.5% と 4.2% 改善します;
占有タスクのアブレーション研究を表 6 に示します。ボクセルベースのローカル特徴抽出ネットワークにより、ベースライン モデルに対して 1.96% の mIoU ゲインの向上がもたらされます。検出タスクが補助監視信号として導入されると、モデルのパフォーマンスは 0.4% mIoU 向上します。
表 5 と表 6 は、UniVision フレームワークにおいて、検出タスクと占有タスクが相互に補完していることを示しています。の。検出タスクの場合、占有監視により mAP および mATE メトリクスが改善され、ボクセルのセマンティック学習により、オブジェクトの幾何学形状、つまり中心性とスケールに対する検出器の認識が効果的に向上することが示されています。占有タスクの場合、検出監視により前景カテゴリ (つまり、検出カテゴリ) のパフォーマンスが大幅に向上し、全体的な向上が得られます。
Occ-Det 空間強調、Ex-Im ビュー変換モジュール、および漸進的損失重量調整戦略を組み合わせた効果を表 7 に示します。提案された空間拡張と提案されたビュー変換モジュールにより、mIoU、mAP、NDS メトリックに関する検出タスクと占有タスクが大幅に改善されました。減量調整戦略は、マルチタスク フレームワークを効果的にトレーニングできます。これがないと、統合フレームワークのトレーニングは収束できず、パフォーマンスが非常に低くなります。
元のリンク: https://mp.weixin.qq.com/s/8jpS_I-wn1-svR3UlCF7KQ
以上がUniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアル タスクが最も高度なレベルに達しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。