協調センシング技術は、自動運転車の知覚問題を解決する上で非常に重要です。しかし、既存の研究では、エージェント間で起こり得る異質性、つまりセンサーや知覚モデルの多様性が無視されていることがよくあります。実際のアプリケーションでは、エージェント間でモダリティやモデルに大きな違いがある可能性があり、それがドメインの違いにつながり、協調センシングを困難にします。したがって、今後の研究では、より効果的な協調センシングを実現するために、エージェント間の異質性を効果的に処理する方法を検討する必要があります。そのためには、異なるエージェント間の違いに対応し、それらが連携してより効率的な自動運転システムを実現できるようにするための新しい方法とアルゴリズムの開発が必要になります。
この実際的な課題を解決するために、ICLR 2024 の最新の研究論文「オープンな異種間協調認識のための拡張可能なフレームワーク」では、オープンな異種間コラボレーションの認識 (Open Heterogeneous Collaborative Perception) の問題を定義しています。高いセンシング性能と低い参加コストを確保しながら、異種のエージェント タイプを既存の協調センシング システムに参加させることはできるでしょうか?上海交通大学、南カリフォルニア大学、上海人工知能研究所の研究者は、この記事で HEAL (HEterogeneous ALliance) を提案しました。未解決の異種協調センシング問題の 2 つの主要な問題点を効果的に解決するエージェント コラボレーション フレームワーク。
彼らは、複数の協調センシング データ セット、複数の協調センシング アルゴリズムを含み、マルチモダリティをサポートするコード フレームワークを作成しました。これは現在完全にオープン ソースです。著者は、これが現時点で最も完全な協調センシング コード フレームワークであり、より多くの人々がマルチモーダルでヘテロジニアスな協調センシング研究分野に簡単に参入できるようになることが期待されていると考えています。
近年、自動運転技術が学界や産業界から大きな注目を集めています。しかし、実際の道路状況は複雑かつ変化しやすく、1 台の車両のセンサーが他の車両によってブロックされ、自動運転システムの認識能力に課題が生じる可能性があります。これらの問題を解決するには、マルチエージェント間の協調センシングが解決策となる。通信技術の進歩により、エージェントは感覚情報を共有し、自分のセンサー データと他のエージェントからの情報を組み合わせて、周囲環境の認識を向上させることができます。コラボレーションを通じて、各エージェントは自分の視野を超えた情報を取得できるようになり、認識能力と意思決定能力の向上に役立ちます。
図 1. 視線の遮蔽、自転車の知覚の制限によって引き起こされる「ゴースト プローブ」問題
現在の研究分野では、ほとんどの研究は単純化しすぎている可能性がある仮定: すべてのエージェントは同じ構造を持っている必要があります。つまり、エージェントの認識システムはすべて同じセンサーを使用し、同じ検出モデルを共有しています。ただし、現実の世界では、エージェントごとにパターンやモデルが異なる場合があり、新しいパターンやモデルが引き続き出現する可能性があります。センサー技術とアルゴリズムの急速な発展により、最初にすべての種類の協調エージェント (モードやモデルを含む) を識別することは非現実的です。トレーニング セットに一度も登場したことのない異種エージェントがコラボレーションに参加したい場合、既存のエージェントとのドメインの違いに必然的に遭遇します。この違いにより、既存のエージェントとの機能融合を実行する能力が制限され、その結果、協調センシングの拡張性が大幅に制限されます。
したがって、オープンな異種協調センシングの問題が生じます。高いセンシング性能と低い統合コストを確保しながら、新たなエージェント タイプを既存の協調センシング システムに追加するにはどうすればよいでしょうか。
図 2. (a) 同種協調センシング (b) 異種協調センシング (c) 新しい異種エージェントの追加を考慮したオープンな異種協調センシング (d) HEAL はトレーニングコストを最小限に抑えながら、最高の共同認識パフォーマンスを実現します
この問題を解決するための実現可能な解決策はポストフュージョンです。各エージェントの知覚出力 (3D バウンディング ボックスなど) を融合することにより、融合後は新規エージェントと既存エージェント間の異質性が回避され、トレーニングは単一のエージェント クラスでのみ実行する必要があります。ただし、ポストフュージョンのパフォーマンスは理想的ではなく、位置決めノイズや通信遅延などの干渉要因の影響を特に受けやすいことが示されています。もう 1 つの潜在的なアプローチは、領域の違いを克服するための共同トレーニングのために、コラボレーション内のすべてのエージェント タイプを集約する完全集合トレーニングです。ただし、このアプローチでは、新しいエージェント タイプが導入されるたびにすべてのモデルを再トレーニングする必要があります。新しい異種エージェントが継続的に出現するため、トレーニングのコストが急激に増加します。 HEAL は、完全集合トレーニングの高いパフォーマンスと融合後の低トレーニング コストを同時に備えた、新しいオープンな異種コラボレーション フレームワークを提案します。
オープンな異種共同認識問題では、次のシナリオを考慮します。これまで利用できなかったモダリティまたはモデルを持つ異種エージェント カテゴリをコラボレーション システムに既存のものに追加します。一般性を失うことなく、シーンは最初は同種のエージェントで構成されており、それらのエージェントには同じタイプのセンサーが装備され、同じ検出モデルが展開されており、すべて相互に通信する機能があると考えられます。これらの同型エージェントは既存の協調システムを形成します。その後、シーンに一度も登場したことのないモダリティまたは知覚モデルを持つ異種エージェントが協力システムに加わります。この動的な性質は、現実世界で協調センシングを展開する際の特徴です。エージェント クラスは最初から完全には決定されておらず、時間の経過とともに種類の数が増加する可能性があります。また、これは、異種カテゴリーが事前に決定され固定されていた、これまでの異種協調センシング問題とは大きく異なります。
この記事で提案するオープンな異種協調認識フレームワーク HEAL (HEterogeneous ALliance) は、新しい異種エージェントを追加する 2 段階の方法を設計します。 i) 協調的な基本クラスのトレーニングにより、最初のエージェントが機能融合コラボレーション ネットワークをトレーニングし、統合された機能空間を作成できるようになります; ii) 新しいエージェントのトレーニングにより、新しいエージェントの機能を統合します 以前に確立された統合機能と連携しますスペースを確保し、新しいエージェントと既存のエージェントが機能レベルで共同作業できるようにします。
コラボレーションに参加する新しいエージェント タイプごとに、トレーニングの第 2 フェーズのみが必要です。トレーニングの第 2 段階は、エージェントの所有者が独立して実施でき、既存のエージェントとの集合的なトレーニングは含まれないことに注意してください。これにより、新しいエージェントのモデルの詳細が公開されるのを防ぎながら、より低いトレーニング コストで新しいエージェントを追加できるようになります。
図 3. HEAL の全体的なフレームワーク
初めに存在する同型エージェントを協調基底クラスとして使用し、特徴融合に基づく協調センシングネットワークを訓練する。我々は、複数のエージェントの特徴を抽出・融合するための新しいピラミッド融合ネットワークを提案する.具体的には、各同型エージェントのエンコーダによってエンコードされたBEV特徴に対して、スケールの異なる多層のResNeXtネットワークを通過させて、粗粒度の抽出を行うきめ細かい機能情報。異なるスケールの特徴マップについては、前景予測ネットワークを適用して、BEV の各特徴位置に車両などの前景が存在する確率を推定します。共同作業者全体で、前景の確率マップは、特徴マップのピクセルごとの重み付けされた融合からの重み分布として正規化されます。異なるスケールで融合された特徴マップを取得した後、一連のアップサンプリング ネットワークを使用してそれらを同じ特徴マップ サイズに変換し、最終的な融合された特徴マップを取得します。
図 4. ピラミッド融合ネットワーク
融合された特徴マップは検出ヘッドを通過し、最終的な協調検出結果に変換されます。協調的な検出結果と前景の確率マップは両方ともグラウンド トゥルースによって監視されます。トレーニング後、コラボレーション ネットワーク (ピラミッド フュージョン ネットワーク) のパラメーターは、コラボレーション基本クラスの関連する特徴情報を保存し、その後の新しい異種エージェントの調整のための共有特徴空間を構築します。
新しい異種エージェント タイプの追加を検討しています。我々は新しい後方位置合わせ手法を提案する。中心となるアイデアは、前段のピラミッド フュージョン ネットワークと検出ヘッドを新しいエージェントの検出器バックエンドとして利用し、フロントエンド エンコーダに関連するパラメータのみを更新することです。
注目に値するのは、新しい異種カテゴリーの単一エージェントに対して単体トレーニングを実施しており、エージェント間の協力が含まれていないことです。したがって、ピラミッド フュージョン ネットワークの入力は、1 段階のマルチエージェントの特徴マップではなく、単一の特徴マップです。事前トレーニングされたピラミッド融合モジュールと検出ヘッドがバックエンドとして確立され、固定されると、新しいエージェントによってエンコードされた特徴が統一された特徴空間と一致するように、トレーニング プロセスが進化してフロントエンド エンコーダーをバックエンドのパラメーターに適応させます。機能は既存のエージェントの機能と連携しているため、高パフォーマンスの機能レベルのコラボレーションを実現できます。
後方調整には独特の利点もあります。トレーニングは新しい単一のエージェントに対してのみ実行されます。これにより、新しいエージェントが追加されるたびに行われるトレーニング コストと時空間同期のデータ収集コストが大幅に削減されます。さらに、新しいエージェントのモデルの詳細が他人に公開されるのを防ぎ、新しいエージェントの所有者が独自のセンサー データを使用してモデルをトレーニングできるようにします。これにより、自動車企業が協調的な車車間センシング技術 (V2V) を導入する際に抱く可能性のある多くの懸念が大幅に解決されます。
OPV2V データ セットに基づいて、この論文では、各車両の 16 行と 32 行のLIDAR データと 4 台の深度カメラからのデータ。 OPV2V-H データセットと実際のデータセット DAIR-V2X の実験結果は、HEAL が異種エージェントがコラボレーションに参加するための一連のトレーニング コスト (トレーニング パラメーター、FLOP、トレーニング時間など) を大幅に削減し、また非常に高いパフォーマンスを維持することを示しています。高い協調検出パフォーマンス。
図 5. HEAL は高いパフォーマンスと低いトレーニング コストの両方を備えています
位置決めノイズと特徴圧縮が存在する場合でも、HEAL は最高のパフォーマンスを維持します。検出パフォーマンスは、HEAL が現実に近い設定において現在最も効果的な協調センシング アルゴリズムであることを示しています。
以上が「レスキュー」オープン異種シナリオ | HEAL: 最新のスケーラブルな協調センシング フレームワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。