自動運転では、RGB 画像または LIDAR 点群によるターゲット検出が広く検討されています。ただし、これら 2 つのデータ ソースをどのように補完し、相互に有益にするかは依然として課題です。 AutoAlignV1 と AutoAlignV2 は、主に中国科学技術大学、ハルビン工業大学、SenseTime (当初は香港中文大学と清華大学を含む) の成果です。
AutoAlignV1 は、2022 年 4 月にアップロードされた arXiv 論文「AutoAlign: マルチモーダル 3D オブジェクト検出のためのピクセル インスタンス機能集約」に由来しています。
この論文では、3D ターゲット検出のための自動特徴融合戦略 AutoAlign V1 を提案します。 学習可能な位置合わせマップを使用して、カメラ投影行列との決定論的な対応を確立するのではなく、画像と点群の間のマッピング関係をモデル化します。このグラフにより、モデルは動的かつデータ駆動型の方法で非準同型特徴を自動的に位置合わせすることができます。具体的には、クロスアテンション特徴位置合わせモジュールは、各ボクセルのピクセルレベルの画像特徴を適応的に集約するように設計されています。特徴アライメントプロセスにおけるセマンティック一貫性を強化するために、自己監視型クロスモーダル特徴インタラクションモジュールも設計されており、これを通じてモデルはインスタンスレベルの特徴に基づいて特徴集約を学習できます。
マルチモーダル 3D オブジェクト検出器は、決定レベルの融合と特徴レベルの融合の 2 つのカテゴリに大別できます。前者は、それぞれのモードでオブジェクトを検出し、3D 空間で境界ボックスをまとめます。決定レベルの融合とは異なり、特徴レベルの融合では、マルチモーダルな特徴を 1 つの表現に組み合わせてオブジェクトを検出します。したがって、検出器は推論段階でさまざまなモダリティの機能を最大限に活用できます。これを考慮して、最近、より多くの特徴レベルの融合手法が開発されています。
ある作品では、各点を画像平面に投影し、双一次補間によって対応する画像特徴を取得します。特徴の集約はピクセルレベルで細かく実行されますが、融合点の疎性により画像領域の密集したパターンが失われます。つまり、画像特徴の意味的一貫性が破壊されます。
別の研究では、3D 検出器によって提供される初期ソリューションを使用して、さまざまなモダリティの RoI 特徴を取得し、特徴融合のためにそれらを接続します。インスタンスレベルの融合を実行することで意味の一貫性を維持しますが、最初の提案生成段階での大まかな特徴の集約や 2D 情報の欠落などの問題があります。
これら 2 つの方法を最大限に活用するために、著者らは、AutoAlign という名前の 3D オブジェクト検出用の統合マルチモーダル特徴融合フレームワークを提案します。これにより、検出器は適応的な方法でクロスモーダル特徴を集約できるようになり、非準同型表現間の関係をモデル化する際に効果的であることが証明されています。同時に、インスタンスレベルの機能の相互作用を通じてセマンティックの一貫性を維持しながら、ピクセルレベルのきめ細かい機能の集約を利用します。
図に示すように: 機能の相互作用は 2 つのレベルで動作します: (i) ピクセル レベルの機能の集約、(ii) インスタンス レベルの機能の相互作用。
これまでの研究では、主にカメラ投影行列を利用して、画像とポイントの特徴を決定論的な方法で位置合わせしていました。このアプローチは効果的ですが、2 つの潜在的な問題が発生する可能性があります。1) ポイントは画像データのより広い視野を取得できない、2) 位置の一貫性のみが維持され、意味的な相関関係は無視されます。したがって、AutoAlign は、非準同型表現間で特徴を適応的に位置合わせするための Cross Attendant Feature Alignment (CAFA) モジュールを設計しました。 CAFA (クロスアテンション フィーチャ アライメント) このモジュールは 1 対 1 マッチング モードを使用しませんが、各ボクセルが画像全体を認識し、学習可能なアライメント マップに基づいてピクセル レベルに動的に焦点を当てます。 . 2D の特徴。
図に示すように: AutoAlign は 2 つのコア コンポーネントで構成されます。CAFA は画像平面上で特徴集約を実行し、各ボクセル特徴のきめ細かいピクセル レベルの情報を抽出します。SCFI (Self-supervised Cross) -モーダル機能インタラクション) クロスモーダル自己監視を実行し、インスタンスレベルのガイダンスを使用して CAFA モジュールのセマンティック一貫性を強化します。
#CAFA は、画像の特徴を集約するためのきめ細かいパラダイムです。ただし、インスタンスレベルの情報を取得することはできません。対照的に、RoI ベースの特徴融合では、提案生成段階で大まかな特徴の集約や 2D 情報の欠落が発生する一方で、オブジェクトの完全性が維持されます。
ピクセル レベルとインスタンス レベルの融合の間のギャップを埋めるために、CAFA の学習をガイドする 自己監視クロスモーダル機能インタラクション (SCFI) モジュールが導入されました。 3D 検出器の最終予測を提案として直接利用し、画像とポイントの特徴を活用して正確な提案を生成します。さらに、バウンディング ボックスをさらに最適化するためにクロスモーダル フィーチャを連結する代わりに、フィーチャの位置合わせのためのインスタンス レベルのガイダンスとして、クロスモーダル フィーチャのペアに類似性制約が追加されます。
2D 特徴マップと対応する 3D ボクセル化特徴が与えられると、N 個の局所 3D 検出フレームがランダムにサンプリングされ、カメラ投影行列を使用して 2D 平面に投影され、それによって 2D フレーム ペアのセットが生成されます。ペアになったボックスが取得されると、2D および 3D 特徴空間で 2DRoIAlign および 3DRoIPooling が使用され、それぞれの RoI 特徴が取得されます。
2D および 3D RoI フィーチャのペアごとに、画像ブランチからのフィーチャとポイント ブランチからボクセル化されたフィーチャに対して 自己教師ありクロスモーダルフィーチャ インタラクション (SCFI)## を実行します。 。両方の機能が投影ヘッドに入力され、一方のモダリティの出力が他方のモダリティに一致するように変換されます。 2 つの完全に接続された層を持つ予測ヘッドを導入します。図に示すように:
#マルチタスク学習は非常に効果的ですが、画像領域と点領域の同時検出について議論した研究はほとんどありません。これまでのほとんどの方法では、画像バックボーンは、外部データセットからの事前トレーニングされた重みを使用して直接初期化されます。トレーニング フェーズでは、ポイント ブランチから伝播される 3D 検出損失のみが監視されます。画像バックボーンの多数のパラメータを考慮すると、2D ブランチは暗黙的な監視下でオーバーフィッティングを達成する可能性が高くなります。画像から抽出された表現を正規化するために、画像ブランチは Faster R-CNN に拡張され、2D 検出損失で監視されます。 実験結果## AutoAlignV2これは、2022 年 7 月にアップロードされた「AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection」に由来しています。
要約
(Cross-Attendant Feature Alignment) モジュールを提案します。これは、クロスモーダル関係モデルのまばらな学習可能なサンプリング ポイントに焦点を当てており、これによりキャリブレーション エラーに対する耐性が強化され、モダリティ全体にわたる特徴の集約が大幅に高速化されます。マルチモーダル設定における複雑な GT-AUG を克服するために、深度情報が与えられた画像パッチに基づく凸結合用に、シンプルで効果的なクロスモーダル強化戦略が設計されています。さらに、画像レベルのドロップアウト トレーニング スキームを通じて、モデルは動的な方法で推論を実行できます。 コードはオープンソースになります:
https://github.com/zehuichen123/AutoAlignV2.注: GT-AUG (「
SECOND: まばらに埋め込まれた畳み込み検出」。Sensors、2018)、データ拡張手法背景
さらに、スタイルの操作の複雑さは画像サイズの二次関数であるため、高解像度の特徴マップにクエリを適用するのは非現実的であることに注意してください。この制限により、FPN によってもたらされる階層表現の損失だけでなく、粗くて不正確な画像情報が発生する可能性があります。一方で、データ拡張、特に GT-AUG は、3D 検出器が競争力のある結果を達成するための重要なステップです。マルチモーダル アプローチの観点からは、カット アンド ペースト操作を実行するときに画像と点群間の同期をどのように維持するかが重要な問題となります。 MoCa は、2D ドメインで労働集約的なマスク アノテーションを使用して、正確な画像特徴を取得します。境界レベルの注釈も適していますが、高度なポイント フィルタリングが必要です。
AutoAlignV2 の目的は、画像特徴を効果的に集約して 3D オブジェクト検出器のパフォーマンスをさらに強化することです。 AutoAlign の基本アーキテクチャから始めます。ペアになった画像を軽量バックボーン ネットワーク ResNet に入力し、それを FPN に入力して特徴マップを取得します。次に、関連する画像情報が学習可能なアライメント マップを通じて集約され、ボクセル化段階で空ではないボクセルの 3D 表現が強化されます。最後に、強化された機能が後続の 3D 検出パイプラインに供給されて、インスタンス予測が生成されます。
図は、AutoAlignV1 と AutoAlignV2 の比較を示しています。AutoAlignV2 は、特徴集約位置を自動的に調整する機能を保持しながら、決定論的な射影行列によって保証される一般的なマッピング関係を持つように位置合わせモジュールに指示します。 AutoAlignV2 は計算コストが軽いため、階層的な画像情報の多層機能を集約できます。
このパラダイムは、データ駆動型の方法で異種機能を集約できます。ただし、2 つの大きなボトルネックが依然としてパフォーマンスを妨げています。 1 つ目は、非効率的な特徴の集約です。グローバル アテンション マップは、RGB イメージと LIDAR ポイント間のフィーチャの位置合わせを自動的に実現しますが、計算コストは高くなります。 2 つ目は、画像とポイント間の複雑なデータ強化同期です。 GT-AUG は高性能 3D オブジェクト検出器にとって重要なステップですが、トレーニング中にポイントと画像の間でセマンティックな一貫性を維持する方法は依然として複雑な問題です。
図に示すように、AutoAlignV2 は クロスドメイン DeformCAFA モジュールと Depth-aware GT-AUG データ拡張戦略の 2 つの部分で構成されており、また、画像レベルのドロップアウト トレーニング戦略により、モデルはより動的な方法で推論を実行できるようになります。
CAFA のボトルネックは、すべてのピクセルを可能な空間位置として扱うことです。 2D 画像の特性に基づいて、最も関連性の高い情報は主に幾何学的に隣接した場所に配置されます。したがって、すべての場所を考慮する必要はなく、いくつかの重要なポイント領域のみを考慮する必要があります。図に示すように、ここでは新しいクロスドメイン DeformCAFA 操作が導入されています。これにより、サンプリング候補が大幅に削減され、ボクセル クエリ特徴ごとに画像平面のキーポイント領域が動的に決定されます。
動的に生成されたサンプリング オフセットの助けを借りて、DeformCAFA は通常の操作よりも速くクロスドメインの関係をモデル化できます。マルチレイヤーの機能集約を実行できます。つまり、FPN レイヤーによって提供される階層情報を最大限に活用できます。 DeformCAFA のもう 1 つの利点は、カメラ投影行列との位置の一貫性を明示的に維持して参照点を取得できることです。したがって、DeformCAFA は、AutoAlign で提案されている CFSI モジュールを採用しなくても、意味的および位置的に一貫した位置合わせを生成できます。
通常の非ローカル操作と比較して、スパース スタイル DeformCAFA は効率を大幅に向上させます。ただし、ボクセルの特徴がトークンとして直接適用されてアテンション ウェイトと変形可能なオフセットが生成される場合、検出パフォーマンスは双線形補間とほぼ同等か、それよりも劣ります。注意深く分析した結果、トークン生成プロセスにクロスドメインの知識変換の問題があることがわかりました。通常単一モード設定で実行される元の変形操作とは異なり、クロスドメイン アテンションには両方のモードからの情報が必要です。ただし、ボクセルの特徴は空間領域の表現のみで構成されており、画像領域の情報を認識することは困難です。したがって、異なるモダリティ間の相互作用を減らすことが重要です。
各ターゲットの表現は、ドメイン固有の情報とインスタンス固有の情報という 2 つのコンポーネントに明確に分解できると仮定します。前者は、ドメイン特徴の組み込み属性を含む表現自体に関連するデータを指しますが、後者は、ターゲットがどのドメインでエンコードされているかに関係なく、ターゲットに関する ID 情報を表します。
ほとんどのディープ ラーニング モデルにとって、データ拡張は競争力のある結果を達成するための重要な部分です。ただし、マルチモーダル 3D オブジェクト検出に関しては、点群と画像がデータ拡張で結合される場合、主にオブジェクトのオクルージョンや視点の変更が原因で、2 つの間の同期を維持することが困難になります。この問題を解決するために、深さを認識した GT-AUG と呼ばれる、シンプルかつ効果的なクロスモーダル データ拡張アルゴリズムが設計されました。この方法では、複雑な点群フィルタリング プロセスや画像ドメインのファイン マスク アノテーションの要件が放棄されます。代わりに、奥行き情報が 3D オブジェクトの注釈からミックスアップ画像領域に導入されます。
具体的には、貼り付けられる仮想ターゲット P が与えられた場合、GT-AUG の同じ 3D 実装に従います。画像領域に関しては、まず遠いものから近いものに分類されます。貼り付ける対象ごとに、元画像から同じ領域を切り出し、ブレンド率 α で対象画像上に合成します。詳細な実装は、以下のアルゴリズム 1 に示されています。
深度認識 GT-AUG は 3D ドメインでのみ拡張戦略に従いますが、同時にイメージ プレーンのミックスアップ ベースのカット アンド ペースト同期を通じてそれを維持します。重要な点は、元の 2D 画像に拡張パッチを貼り付けた後でも、MixUp テクノロジは対応する情報を完全には削除しないということです。代わりに、対応する点の特徴が存在することを保証するために、深度に対するそのような情報のコンパクトさを弱めます。具体的には、ターゲットが他のインスタンスによって n 回遮蔽されると、ターゲット領域の透明度は、深さの順序に従って係数 (1- α)^n だけ減衰します。
#図に示すように、いくつかの強化された例を示します。画像情報は断続的に失われるため、モデルは代替入力として 2D 特徴を使用することを徐々に学習する必要があります。 ######実験結果######################################### #
##以上がマルチモーダルフュージョン BEV ターゲット検出方式 AutoAlign V1 および V2の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。