量産型キラー! P-Mapnet: 従来の低精度地図 SDMap を使用することで、マッピングのパフォーマンスが 20 ポイント近く大幅に向上しました。
前に書いた
現在の自動運転システムが高精度地図への依存を取り除くために使用しているアルゴリズムの 1 つは、次の事実を利用するものです。遠距離での知覚性能はまだ不十分です。この目的を達成するために、私たちは P-MapNet を提案します。「P」はモデルのパフォーマンスを向上させるためにマップ事前分布を融合することに焦点を当てています。具体的には、SDMap と HDMap の事前情報を活用します。一方で、OpenStreetMap から弱く調整された SDMap データを抽出し、入力をサポートするためにそれを独立した用語にエンコードします。厳密に変更された入力と実際の HD マップの間の整合性が弱いという問題がありますが、クロスアテンション メカニズムに基づく構造は、適応的に SDMap スケルトンに焦点を当て、大幅なパフォーマンス向上をもたらすことができますが、一方で、MAE を使用する方法を提案します。リファイン モジュールは、HDMap の以前の分布をキャプチャします。このモジュールは、実際のマップとより一貫性のある分布を生成し、オクルージョンやアーティファクトなどの影響を軽減するのに役立ちます。私たちは、nuScenes と Argoverse2 データセットに対して広範な実験検証を実施しています。
図 1
要約すると、私たちの貢献は次のとおりです。
当社の SDMap アドバンストは、ラスタライズを含むオンライン マップ生成のパフォーマンスを向上させることができます (最大で改善されました)マップのパフォーマンスが 18.73 mIoU 向上し、量子化されました (最大 8.50 mAP 向上)。
(2) 以前の HDMap では、地図認識指数を最大 6.34% 向上させることができました。
(3) P-MapNet は、精度と効率をトレードオフするために、さまざまな推論モードに切り替えることができます。
P-MapNet は、より遠くのセンシング範囲に大きな改善をもたらす長距離 HD マップ生成ソリューションです。私たちのコードとモデルは https://jike5.github.io/P-MapNet/ で公開されています。
関連作業のレビュー
(1)オンライン マップ生成
HD マップの作成には主に SLAM マッピングが含まれます。自動注釈、手動注釈、その他の手順。これにより、コストが高くなり、HD マップの鮮度が制限されます。したがって、オンライン地図生成は自動運転システムにとって非常に重要です。 HDMapNet は、グリッド化を通じてマップ要素を表現し、ピクセル単位の予測および後処理メソッドを使用してベクトル化された予測結果を取得します。 MapTR、PivotNet、Streammapnet などの最近のメソッドは、Transformer アーキテクチャに基づいてエンドツーエンドのベクトル化予測を実装していますが、これらのメソッドはセンサー入力のみを使用し、オクルージョンなどの複雑な環境ではパフォーマンスが依然として制限されています。そして異常気象。
(2)長距離地図認識
オンライン地図によって生成された結果を下流モジュールでより適切に使用できるようにするために、一部の研究では範囲をさらに拡大しようとしています。地図認識のです。 SuperFusion[7] は、LIDAR とカメラを融合し、深度を考慮した BEV 変換を使用することで、前方 90 メートルの長距離予測を実現します。 NeuralMapPrior[8] は、グローバル ニューラル マップ事前分布を維持および更新することで、現在のオンライン観察の品質を向上させ、認識の範囲を拡大します。 [6] は衛星画像と車両センサーデータを集約することで BEV の特徴を取得し、さらにそれらを予測します。 MV-Map はオフラインの長距離マップ生成に焦点を当てており、関連するすべてのフレーム特徴を集約し、神経放射場を使用することで BEV 特徴を最適化します。
P-MapNet の概要
全体的なフレームワークを図 2 に示します。
図 2
入力: システム入力は点群: 、サラウンド カメラ:、 はサラウンド カメラの数です。一般的な HDMap 生成タスク (HDMapNet など) は次のように定義できます。
ここで、 は特徴抽出を表し、 はセグメンテーション ヘッドを表し、 は HDMap 予測を表します。結果。
私たちが提案した P-MapNet は、SD マップと HD マップの事前情報を組み合わせたものです。この新しいタスク ( 設定) は次のように表現できます:
where, は以前の SDMap を表し、 はこの記事で説明されている改良モジュールを表します。 モジュールは、事前トレーニングを通じて HD マップの配布を学習します。同様に、以前に SDMap のみを使用した場合、 のみの設定:
出力: マップ生成タスクの場合、通常、ラスター化とベクトル化という 2 つのマップ表現があります。この記事の研究では、この記事で設計された 2 つのアプリオリ モジュールがラスタライズされた出力により適しているため、主にラスタライズされた表現に焦点を当てます。
3.1 SDMap 事前モジュール
SDMap データ生成
この記事は、研究用の nuScenes および Argoverse2 データ セットに基づいています。 OpenStreetMapデータを使用して、上記のデータセットの対応するエリアのSDマップデータを生成し、車両GPSを通じて座標系を変換して、対応するエリアのSDマップを取得します。
BEV クエリ
図 2 に示すように、まず画像データに対して特徴抽出と透視変換を実行し、点群に対して特徴抽出を実行して BEV 特徴を取得します。次に、BEV 特徴が畳み込みネットワークを通じてダウンサンプリングされて新しい BEV 特徴が取得され、特徴マップが平坦化されて BEV クエリが取得されます。
SD Map 事前融合
SD Map データの場合、畳み込みネットワークによる特徴抽出後、得られた特徴を BEV Query Cross と比較します。 -アテンション メカニズム: クロス アテンション メカニズムの後に取得された BEV フィーチャは、セグメンテーション ヘッドを通じてマップ要素の初期予測を取得できます。
3.2. HDMap 以前のモジュールは、ラスタライズされた HD マップを元の MAE の入力として直接使用し、MAE は MSE 損失を通じてトレーニングされるため、改良モジュールを使用できない。そこでこの記事では、MAE の出力をセグメンテーション ヘッドに置き換えます。予測されたマップ要素に連続性と信頼性(実際の HD マップの分布に近づける)を持たせるために、事前トレーニングされた MAE モジュールを使用して改良します。このモジュールのトレーニングは 2 つのステップで構成されます。最初のステップは、自己教師あり学習を使用して MAE モジュールをトレーニングし、HD マップの分布を学習することです。2 番目のステップは、取得した重みを使用してネットワークのすべてのモジュールを微調整することです。最初のステップで初期重みとして使用されます。
事前トレーニングの最初のステップでは、データセットから取得した実際の HD マップがランダム マスクを通過し、ネットワーク入力として使用されます
、トレーニングの目標は、 HD マップ:
微調整の 2 番目のステップでは、
最初のステップで事前にトレーニングされた重みを初期重みとして使用します。ネットワークは:
4.1 データセットと指標
私たちnuScenes と Argoverse2 という 2 つの主流のデータセットに対して評価を実施しました。長距離における提案手法の有効性を証明するために、3 つの異なる検出距離を設定しました:,
, 。このうち、 範囲の BEV Grid の解像度は 0.15m、他の 2 つの範囲の解像度は 0.3m です。 mIOU メトリックを使用してラスター化された予測結果を評価し、mAP を使用してベクトル化された予測結果を評価します。地図の信頼性を評価するために、地図認識指標として LPIPS 指標も使用します。
4.2 結果SOTA 結果との比較: 提案手法と現行 SOTA 手法を短距離 (60m × 30m) および長距離 (90m × 30m) で比較します。 ) ) を使用してマップ生成結果を比較します。表 II に示すように、私たちの方法は、既存の視覚のみおよびマルチモーダル (RGB LiDAR) 方法と比較して優れたパフォーマンスを示します。
さまざまな距離およびさまざまなセンサー モードを使用して、HDMapNet [14] とのパフォーマンス比較を実行しました。結果は表 I および表 III にまとめられています。私たちの方法では、240m × 60m の範囲で mIOU が 13.4% 向上しました。知覚された距離がセンサーの検出範囲を超える、または超えると、SDMap 事前の有効性がより重要になり、SDMap 事前の有効性が検証されます。最後に、HD マップを活用して、初期の予測結果をより現実的なものにし、誤った結果を排除することで、パフォーマンスをさらに向上させます。
HD 先験的な知覚指標をマップします。 HDMap の以前のモジュールは、ネットワークの初期予測を HD マップの分布にマッピングし、より現実的なものにします。 HDMap の以前のモジュール出力の信頼性を評価するために、評価には知覚メトリック LPIPS (値が低いほどパフォーマンスが良い) を使用しました。表 IV に示すように、
設定の LPIPS インジケーターは、 のみの設定よりも大幅に改善されています。 ########################視覚化: ###
以上が量産型キラー! P-Mapnet: 従来の低精度地図 SDMap を使用することで、マッピングのパフォーマンスが 20 ポイント近く大幅に向上しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
