原題: Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
論文リンク: https://arxiv.org/abs/2312.03031
コードリンク: https://github.com/NVlabs/BEV-Planner
著者単位: 南京大学 NVIDIA
最近、フルスタックの観点から自動化を追求することを目的とした、エンドツーエンドの自動運転が有望な研究方向として浮上しています。これに沿って、最近の研究の多くは、開ループ評価設定に従って、nuScenes での計画動作を研究しています。この記事では、徹底的な分析を実施し、謎をより詳細に明らかにすることで、この問題をより深く探求します。この論文は当初、比較的単純な運転シーンを特徴とする nuScenes データセットが、自我の速度などの自我ステータスを統合するエンドツーエンド モデルにおける知覚情報の活用不足につながることを観察しました。これらのモデルは、将来の経路計画において主に自車両の状態に依存する傾向があります。データセットの制限に加えて、論文では、現在の指標は計画の品質の包括的な評価を提供しておらず、既存のベンチマークから導き出される潜在的に偏った結論につながると指摘しています。この問題を解決するために、この論文では、予測された軌道が道路に従っているかどうかを評価するための新しい指標を導入します。この論文はさらに、知覚的な注釈に依存せずに競争力のある結果を達成できるシンプルなベースラインを提案します。既存のベンチマークと指標の限界を考慮して、この記事では、学術コミュニティが関連する主流研究を再評価し、最先端技術の継続的な追求によって説得力のある一般的な結論が得られるかどうかを慎重に検討することを推奨します。
nuScenes に基づくオープンループ自動運転モデルは、車両の状態 (速度、加速度、ヨー角) に大きく影響されます。計画に使用される要素は、パフォーマンスにおいて重要な役割を果たします。自車両の状態が関与する場合、モデルの軌道予測は主に自車両の状態によって制御されるため、感覚情報の利用が低下する可能性があります。
既存の計画指標では、モデルの実際のパフォーマンスを完全に評価できない可能性があります。指標が異なるとモデルの評価結果に大きな差異が生じる可能性があります。したがって、モデルが特定の指標の下でのみ良好なパフォーマンスを示し、他の潜在的なリスクが無視されることを避けるために、モデルのパフォーマンスを評価するために、より多様で包括的な指標を導入することをお勧めします。
既存の nuScenes データセットで最先端のパフォーマンスを達成することと比較して、より適用可能なデータセットとメトリクスを開発することは、より重要かつ緊急の課題であると考えられています。
エンドツーエンドの自動運転の目標は、知覚と計画を包括的に検討し、フルスタック方式で実装することです [1, 5、32、35]。基本的な動機は、自動運転車 (AV) の認識を、フィッティングのための認識指標に過度に依存するのではなく、目標 (計画) を達成する手段として見ることです。
知覚とは異なり、計画は通常、より自由であり、定量化することが困難です[6、7]。理想的には、計画のオープンな性質により、他のエージェントが自車の動作に反応し、生のセンサー データがそれに応じて変更できる閉ループ評価セットアップがサポートされます。しかし、閉ループ シミュレータでのエージェントの動作モデリングと実世界データ シミュレーション [8、19] には、これまでのところ未解決の問題が残されています。したがって、閉ループ評価では、必然的に現実世界との相当な領域ギャップが生じます。
一方、開ループ評価は人間の運転を現実の状況として扱い、模倣学習として計画を立てることを目的としています[13]。この表現により、単純なログ再生を通じて現実世界のデータセットを直接使用できるようになり、シミュレーションによるドメイン ギャップが回避されます。また、シミュレーションで忠実度を高く生成するのが難しい複雑で多様な交通シナリオでモデルをトレーニングおよび検証できる機能など、他の利点も提供します [5]。これらの利点のため、確立された研究分野は、実世界のデータセットを使用したオープンループのエンドツーエンド自動運転に焦点を当てています [2、12、13、16、43]。
現在人気のあるエンドツーエンドの自動運転手法 [12、13、16、43] では、通常、計画動作の開ループ評価に nuScenes [2] が使用されます。たとえば、UniAD [13] は、さまざまな知覚タスク モジュールが最終的な計画行動に及ぼす影響を研究しました。しかし、ADMLP [45] は最近、単純な MLP ネットワークでも自我ステータス情報のみに依存して最先端の計画結果を達成できることを指摘しました。このことが、この記事で重要な疑問を提起するきっかけとなりました:
オープンループのエンドツーエンド自動運転には自我のステータス情報のみが必要ですか?
現在のベンチマークで自我ステータス情報を使用することの長所と短所を考慮すると、この記事の答えは「はい」または「いいえ」です。######はい。
速度、加速度、ヨー角などの自我ステータスの情報は、計画タスクの実行に明らかに有益であるはずです。これを検証するために、この論文では AD-MLP の未解決の問題を解決し、潜在的なラベル漏洩を防ぐために履歴軌跡のグランド トゥルース (GT) の使用を削除します。この論文で再現されたモデルである Ego-MLP (図 1 a.2) は、エゴのステータスのみに依存しており、既存の L2 距離と衝突率のメトリクスの点で最先端の方法に匹敵します。もう 1 つの観察は、自我ステータス情報を計画モジュールに組み込む既存の方法 [13、16、43] のみが Ego-MLP と同等の結果を達成できるということです。これらの方法は追加の知覚情報 (追跡、HD マップなど) を使用しますが、Ego-MLP よりも優れていることは示されていません。これらの観察は、エンドツーエンドの自動運転オープンループ評価における自我ステータスの支配的な役割を検証します。 #########いいえ。 明らかに、自動運転は安全性が重要なアプリケーションであるため、意思決定を行う際に自我の状態だけに依存すべきではありません。では、なぜ自我ステータスのみを使用して最も高度な計画結果を達成できるのでしょうか?この質問に答えるために、この論文では、既存の開ループのエンドツーエンド自動運転アプローチをカバーする一連の包括的な分析を紹介します。このペーパーでは、データセット、評価指標、特定のモデルの実装に関連する側面を含む、既存の研究の主要な欠点を特定します。この文書では、このセクションの残りの部分でこれらの欠陥を列挙し、詳しく説明します:
データセットの不均衡。 NuScenes は、開ループ評価タスクに一般的に使用されるベンチマークです [11–13、16、17、43]。ただし、この論文の分析では、図 2 に示す軌道分布に反映されているように、nuScenes データの 73.9% に直線運転シナリオが含まれていることが示されています。このような直線の運転シナリオでは、ほとんどの場合、現在の速度、方向、またはステアリング速度を維持するだけで十分です。したがって、Ego ステータス情報は、計画タスクに適応するためのショートカットとして簡単に使用でき、nuScenes での Ego-MLP の強力なパフォーマンスにつながります。
既存の評価指標は包括的ではありません。 NuScenes データの残り 26.1% には、より困難な運転シナリオが含まれており、行動を計画するためのより優れたベンチマークとなる可能性があります。しかし、現在広く使われている予測と計画真値とのL2距離や自車と周囲の障害物との衝突率などの評価指標では、モデルの計画挙動の良し悪しを正確に測ることはできないと本稿では考えている。この論文では、さまざまな方法で生成された多数の予測軌跡を視覚化することで、道路から逸脱するなどの一部の高リスク軌跡は既存の指標では厳しく罰せられない可能性があることに注目しています。この問題に対処するために、本論文では、予測軌跡と道路境界との相互作用率を計算するための新しい評価指標を導入する。道路境界線との交差率に焦点を当てると、ベンチマークは大幅に変化します。この新しい評価指標の下では、Ego-MLP は UniAD よりも頻繁に道路から逸脱する軌道を予測する傾向があります。
自我ステータスバイアスは、駆動ロジックと矛盾します。 自我の状態が過剰適合につながる可能性があるため、この記事ではさらに興味深い現象を観察します。この論文の実験結果は、場合によっては、既存のエンドツーエンドの自動運転フレームワークから視覚入力を完全に削除しても、計画行動の品質が大幅に低下しないことを示しています。知覚は計画に役立つ情報を提供すると期待されているため、これは基本的な運転ロジックに矛盾します。たとえば、VAD [16] ですべてのカメラ入力をブロックすると、知覚モジュールが完全に機能しなくなりますが、自我ステータスがある場合、計画の低下は最小限にとどまります。ただし、入力自体の速度を変更すると、最終的な予測軌道に大きな影響を与える可能性があります。
つまり、この記事は、エンドツーエンドの自動運転分野における最近の取り組みと nuScenes での最先端の成果は、自我の状態に過度に依存していることと、それが組み合わさった結果である可能性が高いと推測しています。支配的なポジションによって引き起こされるシンプルな運転シナリオを備えています。さらに、現在の評価指標は、モデルの予測軌道の品質を包括的に評価するには不十分です。これらの未解決の疑問と欠点は、計画タスクの潜在的な複雑さを過小評価し、オープンループのエンドツーエンドの自動運転に必要なのは自我の状態だけであるという誤解を招く印象を与える可能性があります。現在のオープンループのエンドツーエンド自動運転研究における自我ステータスの潜在的な干渉は、別の疑問を引き起こします:モデル全体から自我ステータスを除去することで相殺できるかどうか、この影響は?ただし、自我状態の影響を除外したとしても、nuScenes データセットに基づくオープンループ自動運転研究の信頼性には依然として疑問があることは注目に値します。
###図1。 (a) AD-MLP は、自我の状態と過去の軌跡の真の値の両方を入力として使用します。この記事で再現したバージョン (Ego-MLP) では、過去の痕跡が削除されています。 (b) 既存のエンドツーエンドの自動運転プロセスには、認識、予測、計画のモジュールが含まれています。自我ステータスは、鳥瞰図 (BEV) 生成モジュールまたは計画モジュールに統合できます。 (c) この文書では、既存の方法と比較するための単純なベースラインを設計します。この単純なベースラインは知覚モジュールや予測モジュールを利用せず、BEV の特徴に基づいて最終的な軌道を直接予測します。 図 2。 (a) nuScenes データセット内の車両軌道のヒート マップ。 (b) nuScenes データセット内のほとんどのシーンは、直進運転状況で構成されています。#画像 3.現在の方法 [12、13、16] では、自車両のヨー角変化の考慮が無視され、常に 0 ヨー角 (灰色の車両で表される) が維持されるため、偽陰性 (a) および偽陽性 (b) の衝突検出が発生します。イベントが増えます。この論文では、車両の軌道の変化を推定することによって車両のヨー角 (赤い車両で表されます) を推定し、衝突検出の精度を向上させます。
#図 4.この論文では、さまざまな画像破損シナリオの下での VAD モデル (プランナーに自我の状態を組み込んでいる) の予測される軌跡を示します。特定のシーン (20 秒にわたる) 内のすべての軌跡は、グローバル座標系で表されます。各三角形のマークは自車の実際の軌跡点を表し、色の違いは時間ステップの違いを表します。入力が空白の画像であっても、モデルの予測軌道は妥当なままであることに注意してください。ただし、図 5 で詳しく説明されているように、赤いボックス内の軌道は最適ではありません。すべてのサラウンドビュー画像が破損していますが、視覚化を容易にするために、最初の時間ステップに対応するフロントビュー画像のみが示されています。
#図 5.オープンループ自動運転方式では、自車の開始位置から将来の軌道を予測します。模倣学習パラダイム内では、予測された軌跡は、理想的には実際のグラウンドトゥルースの軌跡と厳密に一致している必要があります。さらに、運転戦略の連続性と滑らかさを確保するために、連続するタイム ステップで予測される軌道は一貫性を保つ必要があります。したがって、図 4 の赤いボックスに示されている予測軌跡は、実際の軌跡から逸脱しているだけでなく、異なるタイムスタンプで大きな乖離も示しています。#図 6.プランナーに自我ステータスを組み込んだ VAD ベースのモデルの場合、この論文では視覚入力を一定に保ちながら自我の速度にノイズを導入します。自車の速度データが乱れると、結果として生じる軌跡が大幅に変化することに注意してください。車両の速度をゼロに設定すると静止運動が予測されますが、速度を 100 m/s に設定すると非現実的な軌道が予測されます。これは、知覚モジュールが正確な周囲情報を提供し続けているにもかかわらず、モデルの意思決定プロセスが自我の状態に依存しすぎていることを示しています。
#図 7. BEVFormer は、BEV クエリの初期化プロセスで自我ステータス情報を結合しますが、これは現在のエンドツーエンドの自動運転方法ではカバーされていない詳細です [13、16、43]。#図 8. BEV-Planner に自我ステータス情報を導入することで、モデルを非常に迅速に収束させることができます。
# 図 9.この記事のベースラインの BEV 特性を対応するシナリオと比較してください。 #########実験結果:###############
以上が自車両状態はオープンループのエンドツーエンド自動運転に必要なすべてなのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。