arXiv 論文「Graph-DETR3D: マルチビュー 3D オブジェクト検出のための重複領域の再考」、6 月 22 日、中国科学技術大学、ハルビン工業大学、および SenseTime の研究。
複数の画像ビューから 3D オブジェクトを検出することは、視覚的なシーンを理解する上で基本的ですが困難なタスクです。マルチビュー 3D 物体検出は、その低コストと高効率により、幅広い応用の可能性を示しています。ただし、奥行き情報が不足しているため、3 次元空間で遠近法を通じてオブジェクトを正確に検出することは非常に困難です。最近、DETR3D は、3D オブジェクト検出のためにマルチビュー画像を集約するための新しい 3D-2D クエリ パラダイムを導入し、最先端のパフォーマンスを実現します。
この論文では、集中的なガイド付き実験を通じて、さまざまな領域にあるターゲットを定量化し、「切り詰められたインスタンス」(つまり、各画像の境界領域) が DETR3D のパフォーマンスを妨げる主なボトルネックであることを発見しました。 DETR3D は、重なり合う領域で 2 つの隣接するビューからの複数の特徴を結合しているにもかかわらず、依然として特徴の集約が不十分であるため、検出パフォーマンスを完全に向上させる機会を逃しています。
この問題を解決するために、グラフ構造学習(GSL)によって多視点画像情報を自動的に集約するGraph-DETR3Dが提案されています。動的 3D マップは、特に境界領域でのターゲット表現を強化するために、各ターゲット クエリと 2D 特徴マップの間に構築されます。さらに、Graph-DETR3D は、画像サイズとターゲット深度を同時にスケーリングすることで視覚的な深度の一貫性を維持する、新しい深度不変マルチスケール トレーニング戦略の恩恵を受けています。
Graph-DETR3D の違いは、図に示すように、(1) 動的グラフ特徴の集約モジュール、(2) 深さ不変のマルチスケール トレーニング戦略の 2 点にあります。 DETR3D の基本構造に従い、画像エンコーダー、トランスフォーマー デコーダー、ターゲット予測ヘッドの 3 つのコンポーネントで構成されます。一連の画像 I = {I1, I2,…,IK} (N 個のペリビュー カメラで撮影) が与えられた場合、Graph-DETR3D は、対象の境界ボックスの位置とカテゴリを予測することを目的としています。まず、画像エンコーダ (ResNet や FPN を含む) を使用して、これらの画像を比較的 L 個の特徴マップレベルの特徴 F のセットに変換します。次に、動的 3-D グラフが構築され、動的グラフ機能集約 (DGFA) モジュールを通じて 2-D 情報が広範囲に集約され、ターゲット クエリの表現が最適化されます。最後に、強化されたターゲット クエリを利用して最終予測を出力します。
図は、動的グラフ特徴集約 (DFGA) プロセスを示しています。まず、ターゲット クエリごとに学習可能な 3-D グラフを構築し、次に学習可能な 3-D グラフを構築します。 2D 画像平面からのサンプリング特性。最後に、ターゲット クエリの表現は、グラフ接続を通じて強化されます。この相互接続されたメッセージ伝播スキームは、グラフ構造の構築と機能強化の反復的な改良をサポートします。
マルチスケール トレーニングは、2D および 3D の物体検出タスクで一般的に使用されるデータ拡張戦略であり、効果的で低コストの推論であることが証明されています。ただし、視覚ベースの 3D 検査方法ではほとんど表示されません。さまざまな入力画像サイズを考慮すると、画像サイズを調整し、カメラの内部パラメータを変更して共通のマルチスケール トレーニング戦略を実装しながら、モデルの堅牢性を向上させることができます。
興味深い現象は、最終的なパフォーマンスが急激に低下することです。入力データを注意深く分析することにより、単に画像を再スケールすると遠近の曖昧さの問題が生じることがわかりました。ターゲットのサイズをより大きい/より小さいスケールに変更すると、その絶対的なプロパティ (ターゲットのサイズ、自我までの距離など)ポイント)変更しないでください。
具体例として、(a)と(b)の選択領域の絶対的な3次元位置は同じであるが、画像のピクセル数が異なるという曖昧な問題を図に示します。深度予測ネットワークは、画像の占有領域に基づいて深度を推定する傾向があります。したがって、図のこのトレーニング パターンは深さ予測モデルを混乱させ、最終的なパフォーマンスをさらに低下させる可能性があります。
この目的のために、ピクセルの観点から深度を再計算します。アルゴリズムの疑似コードは次のとおりです。
デコード操作は次のとおりです。
再計算されたピクセル サイズは次のとおりです:
スケール係数 r = rx = ry と仮定すると、単純化して次のようになります:
#実験結果は次のとおりです。
##注: DI = 深さ不変
以上がGraph-DETR3D: マルチビュー 3D オブジェクト検出における重複領域の再考の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。