自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論-AI-php.cn

この記事を転載する許可を得るには、ソースに連絡してください。この記事は、自動運転ハートの公開アカウントによって公開されました。

1 はじめに

More モーダルセンサーフュージョンは、補完的で安定した安全な情報を意味し、長い間自動運転認識の重要な部分を占めてきました。しかし、不十分な情報利用、元のデータのノイズ、さまざまなセンサー間の不整合 (タイムスタンプの同期外れなど) により、融合パフォーマンスが制限されています。この記事では、ターゲット検出とセマンティックセグメンテーションに焦点を当て、LiDAR やカメラを含む既存のマルチモーダル自動運転認識アルゴリズムを包括的に調査し、50 を超えるドキュメントを分析します。融合アルゴリズムの従来の分類方法とは異なり、この論文では、この分野をさまざまな融合段階に基づいて 2 つの主要カテゴリと 4 つのサブカテゴリに分類します。さらに、この記事は現在の分野に存在する問題を分析し、将来の研究の方向性への参考を提供します。

2 なぜマルチモダリティが必要なのでしょうか?

これは、シングルモーダル認識アルゴリズムには固有の欠陥があるためです。たとえば、LIDAR は通常、カメラよりも高い位置に設置されますが、現実の複雑な運転シナリオでは、物体がフロントビューカメラに遮られる場合がありますが、この場合、LIDAR を使用して行方不明の目標を捕捉することが可能です。ただし、LiDAR は機械構造の制限により、距離が異なると解像度が異なり、大雨などの非常に厳しい天候の影響を受けやすくなります。どちらのセンサーも単独で使用すると非常に優れた性能を発揮しますが、将来的には、LiDAR とカメラの補完的な情報により、自動運転が知覚レベルでより安全になるでしょう。

最近、自動運転のためのマルチモーダル認識アルゴリズムが大きく進歩しました。これらの進歩には、クロスモーダル特徴表現、より信頼性の高いモーダルセンサー、より複雑で安定したマルチモーダル融合アルゴリズムと技術が含まれます。しかし、マルチモーダルフュージョンの方法論自体に焦点を当てているレビューは少数しかなく [15、81]、ほとんどの文献は伝統的な分類ルール、つまりフュージョン前、ディープ (フィーチャー) フュージョン、フュージョン後、に従って分類されています。データレベル、機能レベル、提案レベルのいずれであっても、アルゴリズムにおける機能融合の段階に焦点を当てます。この分類ルールには 2 つの問題があります: 1 つ目は、各レベルのフィーチャ表現が明確に定義されていないこと、2 つ目は、LIDAR とカメラの 2 つのブランチを対称的な観点から扱うため、フィーチャフュージョンとフィーチャフュージョンの関係があいまいになることです。 LiDAR ブランチ: カメラブランチでのデータレベルの機能融合のケース。要約すると、従来の分類方法は直感的ですが、現在のマルチモーダル融合アルゴリズムの開発にはもはや適しておらず、研究者が体系的な観点から研究や分析を行うことがある程度妨げられています。 ##3 タスクとオープンな競争

##一般的な認識タスクには、ターゲット検出、セマンティックセグメンテーション、深さの補完と予測などが含まれます。この記事では、障害物、信号機、交通標識の検出、車線境界線や空き領域のセグメンテーションなど、検出とセグメンテーションに焦点を当てます。自動運転認識タスクは次の図に示されています:

一般的な公開データセットには主に KITTI、Waymo、nuScenes が含まれます。次の図は自動運転に関連するデータセットをまとめたものです知覚とその特徴

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

4 融合手法

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

マルチモーダル融合はデータ表現形式と切り離すことができません。ブランチは比較的単純です。一般的に、これは RGB 形式またはグレースケールイメージを指しますが、LIDAR ブランチはデータ形式に大きく依存します。異なるデータ形式は、完全に異なる下流モデル設計を導き出します。要約すると、これには 3 つの一般的な方向が含まれます: ポイントベース、ボリュームベース。2D マッピングに基づいたボクセルと点群の表現。

従来の分類方法では、マルチモーダルフュージョンを次の 3 つのタイプに分類します。

プレフュージョン (データレベルのフュージョン) は、さまざまなモダリティの生のセンサーデータを直接融合することを指します。空間調整を通じて。

ディープフュージョン (特徴レベルのフュージョン) は、カスケードまたは要素の乗算による特徴空間内のクロスモーダルデータの融合を指します。

記事では下図の分類方法を使用しており、大まかに強融合と弱融合に分けられますが、強融合はさらに前方融合、深部融合、非対称融合、後融合に分類できます

この記事では、KITTI の 3D 検出タスクと BEV 検出タスクを使用して、さまざまなマルチモーダルフュージョンアルゴリズムのパフォーマンスを水平に比較します。次の図は、BEV 検出テストセットの結果です。 :

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

以下は 3D 検出テストセットの結果の例です:

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

5 強核融合

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

LIDAR とカメラのデータによって表されるさまざまな組み合わせ段階に従って、この記事では強核融合を次のように細分化します。、深部融合、非対称融合、ポスト融合。上の図に示すように、強力な融合の各サブモジュールは、カメラデータではなく LIDAR 点群に大きく依存していることがわかります。

プレフュージョン

従来のデータレベルのフュージョン定義とは異なり、後者は、空間的な位置合わせと、元のデータレベルでの各モダリティデータの直接フュージョンです。投影このアプローチでは、早期融合により、LiDAR データがデータレベルで融合され、カメラデータがデータレベルまたは機能レベルで融合されます。初期融合の例としては、図 4 のモデルが挙げられます。書き直された内容: 従来のデータレベル融合定義とは異なり、元のデータレベルでの空間位置合わせと投影を通じて各モダリティデータを直接融合する方法です。早期融合とは、LiDAR データとカメラデータまたは機能レベルのデータをデータレベルで融合することを指します。図 4 のモデルは、早期融合の例です。

従来の分類方法で定義されるプレフュージョンとは異なり、この記事で定義されるプレフュージョンとは、空間的位置合わせと空間的調整による各モーダルデータの直接融合を指します。元のデータレベルでの投影法であり、前者の融合はデータレベルでの LiDAR データの融合を指し、データレベルまたは特徴レベルでの画像データの融合を指します。概略図は次のとおりです。

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論 #LiDAR ブランチでは、点群反射マップ、ボクセル化テンソル、正面図/距離図/BEV ビュー、擬似点群など、多くの表現方法があります。これらのデータは、疑似点群 [79] を除き、バックボーンネットワークごとに異なる固有の特性を持っていますが、ほとんどのデータは特定のルール処理を通じて生成されます。また、これらのLiDARデータは、特徴空間埋め込みに比べて解釈性が高く、直接可視化することができますが、画像ブランチにおいては、厳密な意味でのデータレベルの定義はRGBやグレー画像を指しますが、この定義には普遍性や合理性が欠けています。したがって、この論文では、融合前の段階での画像データのデータレベルの定義を、データレベルと特徴レベルのデータを含むように拡張します。なお、本稿ではセマンティックセグメンテーションの予測結果もプレフュージョン（画像の特徴レベル）の一種として捉えており、3Dターゲットの検出に役立つ一方で、セマンティックセグメンテーションの「ターゲットレベル」の機能。機能は、タスク全体の最終的なターゲットレベルの提案とは異なります。

ディープフュージョン

ディープフュージョン。機能とも呼ばれます。 -レベルフュージョン。LIDAR ブランチ Fuse マルチモーダルデータのフィーチャレベルを指しますが、画像ブランチのデータセットとフィーチャレベルでのことです。たとえば、一部の方法では、特徴リフティングを使用して、LiDAR 点群と画像のそれぞれの埋め込み表現を取得し、一連の下流モジュールを通じて 2 つのモダリティの特徴を融合します。ただし、他の強力な融合とは異なり、ディープフュージョンは機能をカスケード方式で融合する場合があり、どちらも生の高レベルのセマンティック情報を利用します。概略図は次のとおりです。

#Post-fusion

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

Post-fusion (ターゲットレベル融合とも呼ばれます) 、複数のモダリティの処理を指し、予測結果（または提案）が融合されます。たとえば、いくつかのポストフュージョン手法は、LiDAR 点群の出力とフュージョン用の画像を利用します [55]。両方のブランチの提案データ形式は最終結果と一致している必要がありますが、品質、量、精度に違いがある可能性があります。ポストフュージョンは、最終提案のマルチモーダル情報を最適化するための統合手法とみなすことができます。概略図は次のとおりです:

非対称フュージョン

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

最後のタイプの強力な融合は非対称融合です。これは、1 つのブランチのターゲットレベルの情報と、他のブランチのデータレベルまたは機能レベルの情報の融合を指します。上記の 3 つの融合方法は、マルチモダリティの各分岐を同等に扱いますが、非対称融合では、少なくとも 1 つの分岐が優勢であることが強調され、他の分岐は最終結果を予測するための補助情報を提供します。下図は非対称融合の模式図で、提案段階では非対称融合は1ブランチの提案のみで、その後は全ブランチの提案となる。

6 弱い融合

と強い融合の違いは、弱い融合手法では、マルチモーダルブランチからのデータ、特徴、またはターゲットを直接融合するのではなく、データを次の方法で処理することです。他の形態も。以下の図は、弱融合アルゴリズムの基本的な枠組みを示しています。弱融合に基づく方法は、通常、特定のルールベースの方法を使用して、あるモダリティからのデータを監視信号として利用し、別のモダリティの相互作用をガイドします。たとえば、画像ブランチ内の CNN からの 2D プロポーザルは、元の LiDAR 点群で切り捨てを引き起こす可能性があり、弱い融合は、元の LiDAR 点群を LiDAR バックボーンに直接入力して、最終プロポーザルを出力します。

自動運転におけるマルチモーダル融合知覚アルゴリズムの応用に関する詳細な議論

7 他の統合方法

上記のパラダイムのいずれにも属さない作品もあります。 [39] では、ディープフュージョンとポストフュージョンを組み合わせた [39] や、フロントフロントフュージョンを組み合わせた [77] など、さまざまなフュージョン手法が使用されています。これらの手法は融合アルゴリズム設計の主流ではないため、この記事では他の融合手法に分類します。

8 マルチモーダル融合のチャンス

近年、自動運転知覚タスクのためのマルチモーダル融合手法は、より高いレベルの機能から始めて急速に進歩しています。より複雑な深層学習モデルへの表現。しかしながら、解決すべきいくつかの未解決の課題も残されており、本稿では、今後の改善の方向性をいくつかまとめて以下に示します。

より高度な融合方法

現在の融合モデルには、位置ずれと情報損失の問題があります [13、67、98]。さらに、フラットフュージョン操作も、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約は次のとおりです。

ミスアライメントと情報損失: カメラと LiDAR の間の内部および外部の違いは非常に大きいため、2 つのモードのデータを座標的に揃える必要があります。従来のフロントフュージョンおよびデプスフュージョン方法では、キャリブレーション情報を利用して、すべての LiDAR ポイントをカメラ座標系に直接投影したり、その逆を行ったりします。ただし、設置場所とセンサーのノイズにより、このピクセルごとの位置合わせは十分に正確ではありません。そのため、作品によっては周囲の情報を利用して補完し、より良いパフォーマンスを得る場合もあります。さらに、入力空間と特徴空間の変換プロセス中に他の情報が失われます。通常、次元削減操作の投影では、3D LiDAR 点群を 2D BEV 画像にマッピングする際の高さ情報の損失など、大量の情報損失が必然的に発生します。したがって、元のデータを有効に活用し、情報損失を減らすために、マルチモーダルデータを融合用に設計された別の高次元空間にマッピングすることを検討できます。
より合理的な融合演算: 現在のメソッドの多くは、融合にカスケードまたは要素の乗算を使用します。これらの単純な操作では、大きく異なる分布を持つデータを融合できない可能性があり、2 つのモダリティ間でセマンティックなレッドドッグを適合させることが困難になります。一部の作品では、より複雑なカスケード構造を使用してデータを融合し、パフォーマンスを向上させようとしています。今後の研究では、バイリニアマッピングなどの仕組みも異なる特性を融合できる可能性があり、検討される方向性となります。

マルチソース情報の活用

前向きの単一フレーム画像は、自動運転の知覚タスクの典型的なシナリオです。ただし、ほとんどのフレームワークは限られた情報しか利用できず、運転シナリオの理解を容易にするための補助タスクを詳細に設計していません。要約は次のとおりです。

より多くの潜在的な情報を使用する: 既存の方法では、複数の側面やソースからの情報を効果的に使用できません。ほとんどは、正面図の単一フレームのマルチモーダルデータに焦点を当てています。その結果、セマンティック情報、空間情報、シーンコンテキスト情報など、他の意味のあるデータが十分に活用されなくなります。タスクを支援するためにセマンティックセグメンテーションの結果を使用しようとする作品もあれば、CNN バックボーンの中間層の機能を利用する可能性のあるモデルもあります。自動運転シナリオでは、明示的なセマンティック情報を含む多くの下流タスクにより、車線境界線、信号機、交通標識の検出などの物体検出パフォーマンスが大幅に向上する可能性があります。将来の研究では、下流のタスクを組み合わせて都市シーンの完全な意味理解フレームワークを共同構築し、知覚パフォーマンスを向上させることができます。さらに、[63] にはパフォーマンスを向上させるためにフレーム間情報が組み込まれています。時系列情報にはシリアル化された監視信号が含まれており、単一フレーム方式と比較してより安定した結果を提供できます。したがって、将来の研究では、パフォーマンスのブレークスルーを達成するために、時間的、文脈的、空間的な情報をより深く活用することが検討される可能性があります。
自己教師あり表現学習: 相互教師あり信号は、現実世界の同じシーンから異なる角度からサンプリングされたクロスモーダルデータに自然に存在します。しかし、データの深い理解が不足しているため、現在の方法ではさまざまなモダリティ間の相互関係を探ることができません。今後の研究では、事前トレーニング、微調整、または対照学習などの自己教師あり学習にマルチモーダルデータを使用する方法に焦点を当てることができます。これらの最先端のメカニズムを通じて、フュージョンアルゴリズムは、より優れたパフォーマンスを達成しながら、モデルのデータに対する理解を深めます。

センサー固有の問題

実際のシナリオとセンサーの高さは、ドメインのバイアスと解像度に影響を与える可能性があります。これらの欠点は、自動運転用の深層学習モデルの大規模なトレーニングとリアルタイム操作を妨げます。

ドメインバイアス: 自動運転の知覚シナリオでは、さまざまなセンサーによって抽出された生データには、重大なドメイン関連の特徴が伴います。カメラが異なれば光学特性も異なり、LiDAR は機械構造からソリッドステート構造までさまざまです。さらに、同じセンサーで取得されたものであっても、データ自体には、天気、季節、地理的位置などの領域の偏りがあります。これにより、検出モデルの一般化が影響を受け、新しいシナリオに効果的に適応できなくなります。このような欠陥は、大規模なデータセットの収集や元のトレーニングデータの再利用を妨げます。したがって、今後は、ドメインのバイアスを排除し、異なるデータソースを適応的に統合する方法を見つけることに重点を置くことができます。
解像度の競合: 通常、センサーが異なれば解像度も異なります。たとえば、LiDAR の空間密度は画像の空間密度よりも大幅に低くなります。どの投影法を使っても、対応関係が見つからないため情報の損失が発生します。これにより、特徴ベクトルの解像度が異なるため、または生の情報の不均衡が原因で、モデルが 1 つの特定のモダリティからのデータによって支配される可能性があります。したがって、将来の研究では、異なる空間解像度のセンサーと互換性のある新しいデータ表現システムを探索する可能性があります。