ADMap: 干渉防止オンライン高精度マップの新しいアイデア
前文および著者の個人的な理解
Heart of Autonomous Driving イベントに参加するよう招待していただき、とてもうれしく思います。オンラインへの抵抗を共有しますベクトル化された高精度マップの再構成摂動法 ADMap。コードは https://github.com/hht1996ok/ADMap で見つけることができます。皆様のご注目とご支援に感謝いたします。
自動運転の分野では、オンラインでの高精細地図再構築は計画や予測タスクに非常に重要であり、最近の研究ではこのニーズを満たすために多くの高性能高精細地図再構築モデルが構築されています。ただし、ベクトル化されたインスタンス内の点の順序は、予測バイアスによりジッターまたはギザギザになる可能性があり、後続のタスクに影響を及ぼします。したがって、我々は、Anti-Disturbance Map 再構成フレームワーク (ADMap) を提案します。この記事では、モデルの速度と全体的な精度を考慮し、デプロイ時にエンジニアを悩ませないようにしたいと考えています。したがって、マルチスケール知覚ネック (MPN)、インスタンス インタラクティブ アテンション (IIA)、およびベクトル方向差損失 (VDDL) の 3 つの効率的かつ効果的なモジュールが提案されています。カスケードしてインスタンス間およびインスタンス内の点順序関係を調査することにより、モデルは点順序予測プロセスをより適切に監視します。
nuScenes および Argoverse2 データセットで ADMap の有効性を検証しました。実験結果は、ADMap がさまざまなベンチマーク テストで最高のパフォーマンスを示すことを示しています。 nuScenes ベンチマークでは、ADMap はカメラ データとマルチモーダル データのみを使用したベースラインと比較して、mAP をそれぞれ 4.2% と 5.5% 改善しました。 ADMapv2 は推論レイテンシを短縮するだけでなく、ベースライン パフォーマンスも大幅に向上させ、最高の mAP は 82.8% に達します。 Argoverse データセットでは、ADMapv2 の mAP は 62.9% に増加しましたが、フレーム レートは 14.8FPS のままでした。
要約すると、私たちが提案した ADMap には次のような主な貢献があります。
- エンドツーエンドの ADMap を提案し、より安定したベクトル化された高精度マップを再構築しました。
- MPN は、推論リソースを増やすことなく、マルチスケール情報をより適切に取得します。IIA は、インスタンス間およびインスタンス内の効果的な対話を完了し、ポイントレベルの特徴をより正確にします。VDDL は、ポイントをより詳細に制約します。シーケンス再構成プロセスは、点列の幾何学的関係。
- ADMap は、ベクトル化された高精度マップのリアルタイム再構築を実装し、nuScenes ベンチマークと Argoverse2 で最高の精度を達成します。
提案された方法
図 1 に示すように、例の予測ポイントには必然的にジッターまたはオフセットが生じることがよくあります。再構築されたインスタンス ベクトルは滑らかでなくなったり、ギザギザになったりして、オンラインの高精度マップの品質と実用性に重大な影響を与えます。その理由は、既存のモデルがインスタンス間およびインスタンス内のインタラクションを十分に考慮していないためであると考えられ、インスタンス ポイントとマップ トポロジ情報の間のインタラクションが不完全であると、予測位置が不正確になる可能性があります。さらに、L1 損失やコサイン埋め込み損失などの監視だけでは、幾何学的関係を効果的に使用してインスタンス点の予測プロセスを制限することはできません。ネットワークは、点列の方向情報をより正確に捕捉するために、点間のベクトル線分を使用する必要があります。各点を拘束し、予測プロセスを実行します。
上記の問題を軽減するために、私たちはベクトル化された高精度地図のリアルタイムかつ安定した再構築を実現するためのAnti-Disturbance Map再構築フレームワーク(ADMap)を革新的に提案しました。 。
メソッド設計
図 2 に示すように、ADMap はマルチスケール知覚ネック (Multi-Scale Perception Neck、MPN)、インスタンス インタラクティブ アテンション (インスタンス インタラクティブ アテンション) を使用します。 )、IIA) およびベクトル方向差分損失 (VDDL) を使用して、点次数トポロジをより正確に予測します。以下では、MPN、IIA、VDDL についてそれぞれ紹介します。
Multi-Scale Perception Neck
BEV のより詳細な機能を取得するために、Multi-Scale Perception Neck (MPN) を導入します。 )。 MPN は、融合された BEV 機能を入力として受け取ります。ダウンサンプリングを通じて、各レベルの BEV 特徴がアップサンプリング レイヤーに接続され、元のサイズの特徴マップが復元されます。最後に、各レベルの特徴マップがマルチスケール BEV 特徴にマージされます。
図 2 の点線は、このステップがトレーニング中にのみ実装されることを意味し、実線は、このステップがトレーニング プロセスと推論プロセスの両方で実装されることを意味します。トレーニング プロセス中に、マルチスケール BEV 特徴マップと各レベルの BEV 特徴マップが Transformer Decoder に送信されます。これにより、ネットワークがさまざまなスケールでシーンのインスタンス情報を予測し、より洗練されたマルチスケール特徴をキャプチャできるようになります。推論プロセス中、MPN はマルチスケール BEV 特徴のみを保持し、各レベルでの特徴マップを出力しないため、推論中のネックのリソース使用量は変更されません。
Transformer Decoder
Transformer Decoder は、インスタンス レベルのクエリのセットとポイント レベルのクエリのセットを定義し、ポイント レベルのクエリをすべてのインスタンスに共有します。これらの階層クエリは次のように定義されます:
デコーダは、階層クエリを繰り返し更新する複数のカスケード デコード層で構成されます。各デコード層では、階層クエリがセルフ アテンション メカニズムに入力され、階層クエリ間で情報を交換できるようになり、階層クエリやマルチスケール BEV 機能と対話するために、変形可能なアテンションが使用されます。
インスタンス インタラクティブ アテンション
デコード段階で各インスタンスの特性をより適切に取得するために、インスタンス自身で構成されるインスタンス インタラクティブ アテンション (IIA) を提案しました。 -注意とポイント自己注意の構成。インスタンス レベルとポイント レベルのエンベディングを並行して抽出する MapTRv2 とは異なり、IIA はクエリ エンベディングをカスケードして抽出します。インスタンス エンベディング間の特徴の相互作用は、ネットワークがポイントレベルのエンベディング間の関係を学習するのにさらに役立ちます。
図 3 に示すように、変形可能なクロスアテンションによって出力された階層的エンベディングは、インスタンスのセルフ アテンションに入力されます。ポイント次元とチャネル次元を結合した後、次元変換が行われます。続いて、階層型エンベディングを複数の MLP で構成される Embed Layer に接続してインスタンス クエリを取得し、そのクエリをマルチヘッドセルフアテンションに投入してインスタンス間のトポロジー関係をキャプチャし、インスタンス エンベディングを取得します。インスタンス レベルの情報をポイント レベルのエンベディングに組み込むには、インスタンス エンベディングと階層エンベディングを合計します。追加されたフィーチャは、Point self-attention に入力されます。Point self-attention は、各インスタンス内のポイント フィーチャと相互作用して、ポイント シーケンス間のトポロジー関係をさらに細かく関連付けます。
ベクトル方向差の損失
高解像度地図には、車線、縁石、横断歩道などのベクトル化された静的地図要素が含まれています。 ADMap は、これらの開いた形状 (車線、縁石) と閉じた形状 (横断歩道) に対してベクトル方向差分損失を提案します。インスタンス内で点列ベクトルの方向をモデル化しますが、予測されたベクトルの方向と真のベクトルの方向の差により点の方向をより詳細に監視することができます。さらに、実際のベクトルの方向に大きな違いがある点は、一部のシーンのトポロジーの劇的な変化を表していると考えられ (予測がより困難)、モデルからのより多くの注意が必要になります。したがって、ネットワークがこの急激な変化点を正確に予測できるように、真のベクトルの方向の差がより大きい点には大きな重みが与えられます。
図 4 は、予測ベクトル線 {## の予測点列 { と実際の点列 { ) を示しています。 # と真のベクトル線の初期モデリング { 。反対の角度が同じ損失を被らないようにするために、ベクトル線の角度の差の余弦を計算します。θ':
θ を使用して、損失値の間隔を [0.0] に調整します。 、2.0]。各点における隣接するベクトル線間の角度差の余弦を加算することにより、この損失は各点の幾何学的トポロジ情報をより包括的にカバーします。最初と最後の 2 点には隣接するベクトル線が 1 つしかないため、最初と最後の 2 点の損失は単一のベクトル角度の差の余弦になります。
実験
公平な評価を行うために、地図要素を車線、道路境界線、横断歩道の 3 つのタイプに分割します。平均精度 (AP) はマップ構築の品質を評価するために使用され、予測されたポイント順序と実際のポイント順序の間の面取り距離の合計は、2 つが一致するかどうかを判断するために使用されます。面取り距離のしきい値は [0.5、1.0、1.5] に設定されており、これら 3 つのしきい値の下で AP をそれぞれ計算し、平均を最終指標として使用します。比較実験
表 1 は、nuScenes データセットにおける ADMap と最先端のメソッドのメトリクスを報告します。カメラのみのフレームワークでは、ADMap の mAP はベースライン (MapTR) と比較して 5.5% 増加し、ADMapv2 はベースライン (MapTRv2) と比較して 1.4% 増加しました。 ADMapv2 の最大 mAP は 82.8% で、現在のベンチマークの中で最高のパフォーマンスを達成しています。詳細については、後続の arxiv バージョンで発表される予定です。速度の点では、ADMap は、わずかに低い FPS でのベースラインと比較して、モデルのパフォーマンスを大幅に向上させます。 ADMapv2 はパフォーマンスを向上させるだけでなく、モデルの推論速度も向上させることに言及する価値があります。
表 2 は、ADMap と Argoverse2 の最先端のメソッドのメトリクスを示しています。カメラのみのフレームワークでは、ADMap と ADMapv2 はベースラインと比較してそれぞれ 3.4% と 1.3% 改善されました。マルチモーダル フレームワークの下では、ADMap と ADMapv2 が最高のパフォーマンスを達成し、mAP はそれぞれ 75.2% と 76.9% でした。スピードの面では。 ADMapv2 は、MapTRv2 と比較して 11.4 ミリ秒改善されました。
アブレーション実験
表 3 では、nuScenes ベンチマークでの ADMap の各モジュールのアブレーション実験を示します。
#表 4 は、さまざまな注意メカニズムを挿入した場合の最終パフォーマンスへの影響を示しています。 DSA は切り離されたセルフ アテンションを表し、IIA はインタラクティブ アテンションを表します。結果は、IIA が DSA と比較して mAP を 1.3% 改善することを示しています。
表 5 は、フィーチャをマージした後に mAP にバックボーン層とネック層を追加した場合の影響を示しています。 SECOND に基づいてバックボーン層とネック層を追加した後、mAP は 1.2% 増加しました。 MPN を追加した後、推論時間を増加させることなく、モデルの mAP は 2.0% 増加しました。
表 6 は、nuScenes ベンチマークに VDDL を追加した場合のパフォーマンスへの影響を示しています。重みを 1.0 に設定すると、mAP が最も高く、53.3% に達することがわかります。
#表 7 は、nuScenes ベンチマークの最終パフォーマンスに対する MPN ダウンサンプリング レイヤーの数の影響を示しています。ダウンサンプリング層が増えるほど、モデルの推論速度が遅くなります。したがって、速度とパフォーマンスのバランスを取るために、ダウンサンプリング レイヤーの数を 2 に設定します。
ADMap が点順序外乱問題を効果的に軽減することを検証するために、平均面取り距離 (ACE) を提案しました。面取り距離の合計が 1.5 未満である予測インスタンスを選択し、平均面取り距離 (ACE) を計算しました。 ACE が小さいほど、インスタンス ポイント順序の予測はより正確になります。表 8 は、ADMap が点群の外乱の問題を効果的に軽減できることを証明しています。
可視化結果
次の 2 つの図は、nuScenes データ セットと Argoverse2 データ セットの可視化結果です。
概要
ADMap は、効率的かつ効果的なベクトル化された高精度地図再構成フレームワークです。これにより、予測バイアスによりインスタンス ベクトルの点順序で発生する可能性のあるジッターやエイリアシング現象が効果的に軽減されます。広範な実験により、私たちが提案した方法が nuScenes と Argoverse2 ベンチマークの両方で最高のパフォーマンスを達成することが示されました。私たちは、ADMap がベクトル高精度地図再構成タスクの研究を促進し、自動運転やその他の分野の開発をより促進するのに役立つと信じています。
以上がADMap: 干渉防止オンライン高精度マップの新しいアイデアの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。
