Heart of Autonomous Driving イベントに参加するよう招待していただき、とてもうれしく思います。オンラインへの抵抗を共有しますベクトル化された高精度マップの再構成摂動法 ADMap。コードは https://github.com/hht1996ok/ADMap で見つけることができます。皆様のご注目とご支援に感謝いたします。
自動運転の分野では、オンラインでの高精細地図再構築は計画や予測タスクに非常に重要であり、最近の研究ではこのニーズを満たすために多くの高性能高精細地図再構築モデルが構築されています。ただし、ベクトル化されたインスタンス内の点の順序は、予測バイアスによりジッターまたはギザギザになる可能性があり、後続のタスクに影響を及ぼします。したがって、我々は、Anti-Disturbance Map 再構成フレームワーク (ADMap) を提案します。この記事では、モデルの速度と全体的な精度を考慮し、デプロイ時にエンジニアを悩ませないようにしたいと考えています。したがって、マルチスケール知覚ネック (MPN)、インスタンス インタラクティブ アテンション (IIA)、およびベクトル方向差損失 (VDDL) の 3 つの効率的かつ効果的なモジュールが提案されています。カスケードしてインスタンス間およびインスタンス内の点順序関係を調査することにより、モデルは点順序予測プロセスをより適切に監視します。
nuScenes および Argoverse2 データセットで ADMap の有効性を検証しました。実験結果は、ADMap がさまざまなベンチマーク テストで最高のパフォーマンスを示すことを示しています。 nuScenes ベンチマークでは、ADMap はカメラ データとマルチモーダル データのみを使用したベースラインと比較して、mAP をそれぞれ 4.2% と 5.5% 改善しました。 ADMapv2 は推論レイテンシを短縮するだけでなく、ベースライン パフォーマンスも大幅に向上させ、最高の mAP は 82.8% に達します。 Argoverse データセットでは、ADMapv2 の mAP は 62.9% に増加しましたが、フレーム レートは 14.8FPS のままでした。
要約すると、私たちが提案した ADMap には次のような主な貢献があります。
図 1 に示すように、例の予測ポイントには必然的にジッターまたはオフセットが生じることがよくあります。再構築されたインスタンス ベクトルは滑らかでなくなったり、ギザギザになったりして、オンラインの高精度マップの品質と実用性に重大な影響を与えます。その理由は、既存のモデルがインスタンス間およびインスタンス内のインタラクションを十分に考慮していないためであると考えられ、インスタンス ポイントとマップ トポロジ情報の間のインタラクションが不完全であると、予測位置が不正確になる可能性があります。さらに、L1 損失やコサイン埋め込み損失などの監視だけでは、幾何学的関係を効果的に使用してインスタンス点の予測プロセスを制限することはできません。ネットワークは、点列の方向情報をより正確に捕捉するために、点間のベクトル線分を使用する必要があります。各点を拘束し、予測プロセスを実行します。
上記の問題を軽減するために、私たちはベクトル化された高精度地図のリアルタイムかつ安定した再構築を実現するためのAnti-Disturbance Map再構築フレームワーク(ADMap)を革新的に提案しました。 。
図 2 に示すように、ADMap はマルチスケール知覚ネック (Multi-Scale Perception Neck、MPN)、インスタンス インタラクティブ アテンション (インスタンス インタラクティブ アテンション) を使用します。 )、IIA) およびベクトル方向差分損失 (VDDL) を使用して、点次数トポロジをより正確に予測します。以下では、MPN、IIA、VDDL についてそれぞれ紹介します。
BEV のより詳細な機能を取得するために、Multi-Scale Perception Neck (MPN) を導入します。 )。 MPN は、融合された BEV 機能を入力として受け取ります。ダウンサンプリングを通じて、各レベルの BEV 特徴がアップサンプリング レイヤーに接続され、元のサイズの特徴マップが復元されます。最後に、各レベルの特徴マップがマルチスケール BEV 特徴にマージされます。
図 2 の点線は、このステップがトレーニング中にのみ実装されることを意味し、実線は、このステップがトレーニング プロセスと推論プロセスの両方で実装されることを意味します。トレーニング プロセス中に、マルチスケール BEV 特徴マップと各レベルの BEV 特徴マップが Transformer Decoder に送信されます。これにより、ネットワークがさまざまなスケールでシーンのインスタンス情報を予測し、より洗練されたマルチスケール特徴をキャプチャできるようになります。推論プロセス中、MPN はマルチスケール BEV 特徴のみを保持し、各レベルでの特徴マップを出力しないため、推論中のネックのリソース使用量は変更されません。
Transformer Decoder は、インスタンス レベルのクエリのセットとポイント レベルのクエリのセットを定義し、ポイント レベルのクエリをすべてのインスタンスに共有します。これらの階層クエリは次のように定義されます:
デコーダは、階層クエリを繰り返し更新する複数のカスケード デコード層で構成されます。各デコード層では、階層クエリがセルフ アテンション メカニズムに入力され、階層クエリ間で情報を交換できるようになり、階層クエリやマルチスケール BEV 機能と対話するために、変形可能なアテンションが使用されます。
デコード段階で各インスタンスの特性をより適切に取得するために、インスタンス自身で構成されるインスタンス インタラクティブ アテンション (IIA) を提案しました。 -注意とポイント自己注意の構成。インスタンス レベルとポイント レベルのエンベディングを並行して抽出する MapTRv2 とは異なり、IIA はクエリ エンベディングをカスケードして抽出します。インスタンス エンベディング間の特徴の相互作用は、ネットワークがポイントレベルのエンベディング間の関係を学習するのにさらに役立ちます。
図 3 に示すように、変形可能なクロスアテンションによって出力された階層的エンベディングは、インスタンスのセルフ アテンションに入力されます。ポイント次元とチャネル次元を結合した後、次元変換が行われます。続いて、階層型エンベディングを複数の MLP で構成される Embed Layer に接続してインスタンス クエリを取得し、そのクエリをマルチヘッドセルフアテンションに投入してインスタンス間のトポロジー関係をキャプチャし、インスタンス エンベディングを取得します。インスタンス レベルの情報をポイント レベルのエンベディングに組み込むには、インスタンス エンベディングと階層エンベディングを合計します。追加されたフィーチャは、Point self-attention に入力されます。Point self-attention は、各インスタンス内のポイント フィーチャと相互作用して、ポイント シーケンス間のトポロジー関係をさらに細かく関連付けます。
高解像度地図には、車線、縁石、横断歩道などのベクトル化された静的地図要素が含まれています。 ADMap は、これらの開いた形状 (車線、縁石) と閉じた形状 (横断歩道) に対してベクトル方向差分損失を提案します。インスタンス内で点列ベクトルの方向をモデル化しますが、予測されたベクトルの方向と真のベクトルの方向の差により点の方向をより詳細に監視することができます。さらに、実際のベクトルの方向に大きな違いがある点は、一部のシーンのトポロジーの劇的な変化を表していると考えられ (予測がより困難)、モデルからのより多くの注意が必要になります。したがって、ネットワークがこの急激な変化点を正確に予測できるように、真のベクトルの方向の差がより大きい点には大きな重みが与えられます。
図 4 は、予測ベクトル線 {## の予測点列 { と実際の点列 { ) を示しています。 # と真のベクトル線の初期モデリング { 。反対の角度が同じ損失を被らないようにするために、ベクトル線の角度の差の余弦を計算します。θ':
ここで、関数はベクトルラインを累積します。座標位置は正規化操作を表します。実際のインスタンスの各点のベクトル角度の差を使用して、異なるサイズの重みをそれらの点に割り当てます。重みは次のように定義されます: # これはインスタンス内の点の数を表し、関数は底が e の指数関数を表します。最初と最後の点の間ではベクトル角度の差を計算できないため、最初と最後の点の重みを 1 に設定します。グラウンド トゥルースのベクトル角度の差が大きくなると、その点に大きな重みが与えられ、ネットワークはマップ トポロジの大幅な変化にさらに注意を払うようになります。点列内の各点の角度差損失は次のように定義されます。θ を使用して、損失値の間隔を [0.0] に調整します。 、2.0]。各点における隣接するベクトル線間の角度差の余弦を加算することにより、この損失は各点の幾何学的トポロジ情報をより包括的にカバーします。最初と最後の 2 点には隣接するベクトル線が 1 つしかないため、最初と最後の 2 点の損失は単一のベクトル角度の差の余弦になります。
表 1 は、nuScenes データセットにおける ADMap と最先端のメソッドのメトリクスを報告します。カメラのみのフレームワークでは、ADMap の mAP はベースライン (MapTR) と比較して 5.5% 増加し、ADMapv2 はベースライン (MapTRv2) と比較して 1.4% 増加しました。 ADMapv2 の最大 mAP は 82.8% で、現在のベンチマークの中で最高のパフォーマンスを達成しています。詳細については、後続の arxiv バージョンで発表される予定です。速度の点では、ADMap は、わずかに低い FPS でのベースラインと比較して、モデルのパフォーマンスを大幅に向上させます。 ADMapv2 はパフォーマンスを向上させるだけでなく、モデルの推論速度も向上させることに言及する価値があります。
表 2 は、ADMap と Argoverse2 の最先端のメソッドのメトリクスを示しています。カメラのみのフレームワークでは、ADMap と ADMapv2 はベースラインと比較してそれぞれ 3.4% と 1.3% 改善されました。マルチモーダル フレームワークの下では、ADMap と ADMapv2 が最高のパフォーマンスを達成し、mAP はそれぞれ 75.2% と 76.9% でした。スピードの面では。 ADMapv2 は、MapTRv2 と比較して 11.4 ミリ秒改善されました。
表 3 では、nuScenes ベンチマークでの ADMap の各モジュールのアブレーション実験を示します。
#表 4 は、さまざまな注意メカニズムを挿入した場合の最終パフォーマンスへの影響を示しています。 DSA は切り離されたセルフ アテンションを表し、IIA はインタラクティブ アテンションを表します。結果は、IIA が DSA と比較して mAP を 1.3% 改善することを示しています。
表 5 は、フィーチャをマージした後に mAP にバックボーン層とネック層を追加した場合の影響を示しています。 SECOND に基づいてバックボーン層とネック層を追加した後、mAP は 1.2% 増加しました。 MPN を追加した後、推論時間を増加させることなく、モデルの mAP は 2.0% 増加しました。
表 6 は、nuScenes ベンチマークに VDDL を追加した場合のパフォーマンスへの影響を示しています。重みを 1.0 に設定すると、mAP が最も高く、53.3% に達することがわかります。
#表 7 は、nuScenes ベンチマークの最終パフォーマンスに対する MPN ダウンサンプリング レイヤーの数の影響を示しています。ダウンサンプリング層が増えるほど、モデルの推論速度が遅くなります。したがって、速度とパフォーマンスのバランスを取るために、ダウンサンプリング レイヤーの数を 2 に設定します。
ADMap が点順序外乱問題を効果的に軽減することを検証するために、平均面取り距離 (ACE) を提案しました。面取り距離の合計が 1.5 未満である予測インスタンスを選択し、平均面取り距離 (ACE) を計算しました。 ACE が小さいほど、インスタンス ポイント順序の予測はより正確になります。表 8 は、ADMap が点群の外乱の問題を効果的に軽減できることを証明しています。
次の 2 つの図は、nuScenes データ セットと Argoverse2 データ セットの可視化結果です。
ADMap は、効率的かつ効果的なベクトル化された高精度地図再構成フレームワークです。これにより、予測バイアスによりインスタンス ベクトルの点順序で発生する可能性のあるジッターやエイリアシング現象が効果的に軽減されます。広範な実験により、私たちが提案した方法が nuScenes と Argoverse2 ベンチマークの両方で最高のパフォーマンスを達成することが示されました。私たちは、ADMap がベクトル高精度地図再構成タスクの研究を促進し、自動運転やその他の分野の開発をより促進するのに役立つと信じています。
以上がADMap: 干渉防止オンライン高精度マップの新しいアイデアの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。