実装をさらに加速:自動運転のエンドツーエンドの動作計画モデルを圧縮
原題: On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving
論文リンク: https://arxiv.org/pdf/2403.01238.pdf
コードリンク: https://github.com/tulerfeng/PlanKD
著者の所属: 北京理工大学 ALLRIDE.AI 河北省ビッグデータ科学およびインテリジェント技術重点研究所
論文のアイデア
エンドツーエンドの動作計画モデルにはディープ ニューラル ネットワークが装備されており、完全自動運転の実現に大きな可能性を示しています。 。ただし、ニューラル ネットワークが大きすぎると、間違いなくより多くのコンピューティング時間とリソースが必要となる、リソースに制約のあるシステムへの展開には適していません。この問題に対処するために、知識の蒸留は、より小さな生徒モデルをより大きな教師モデルから学習させることでモデルを圧縮することで有望なアプローチを提供します。それにもかかわらず、知識の蒸留を適用してモーション プランナーを圧縮する方法は、これまでのところ未開発です。この論文では、圧縮されたエンドツーエンドのモーション プランナー向けに調整された最初の知識抽出フレームワークである PlanKD を提案します。まず、運転シナリオは本質的に複雑で、計画に無関係な情報やノイズが含まれることが多いことを考えると、この情報を転送することは学生計画担当者にとって有益ではありません。したがって、この文書では、すべての情報を無差別に移行するのではなく、計画関連の情報のみを抽出する、情報ボトルネックに基づいた戦略を設計します。第 2 に、出力計画軌道内の異なるウェイポイントは動作計画に対する重要性が異なる可能性があり、一部の重要なウェイポイントのわずかな偏差が衝突につながる可能性があります。したがって、この論文では、重要度に基づいてさまざまなウェイポイントに適応的な重みを割り当てる安全性を意識したウェイポイント注意蒸留モジュールを設計し、学生モデルがより重要なウェイポイントをより正確に模倣するように促し、それによって全体的な安全性を向上させます。実験の結果、PlanKD は小規模プランナーのパフォーマンスを大幅に向上させ、参照時間を大幅に短縮できることがわかりました。
主な貢献:
- この論文は、自動運転におけるエンドツーエンドのモーション プランナーを圧縮するための専用の知識抽出方法を探索する最初の試みを構築します。
- この文書では、学生プランナーが中間層で計画関連の知識を継承できるようにし、安全性を向上させるために重要なウェイポイントの正確なマッチングを容易にする、一般的で革新的なフレームワーク PlanKD を提案します。
- 実験の結果、この記事の PlanKD は小規模プランナーのパフォーマンスを大幅に向上させ、限られたリソースでの展開に、より移植性が高く効率的なソリューションを提供できることがわかりました。
ネットワーク設計:
最近、エンドツーエンドの動作計画が自動運転における有望な方向性として浮上しています [3、10、30、31、 40、47、48]、生のセンサー データを計画されたアクションに直接マッピングします。この学習ベースのパラダイムは、手作りのルールへの大きな依存を減らし、複雑なカスケード モジュール (通常は検出、追跡、予測、計画) 内でのエラーの蓄積を軽減するという利点を示します [40、48]。成功にもかかわらず、モーション プランナーのディープ ニューラル ネットワークのかさばるアーキテクチャは、エッジ デバイスのコンピューティング能力に依存する自律型配送ロボットなど、リソースに制約のある環境での展開に課題をもたらします。さらに、従来の車両であっても、車載デバイスのコンピューティング リソースは制限されることがよくあります [34]。したがって、深くて大規模なプランナーを直接展開すると、必然的により多くのコンピューティング時間とリソースが必要となり、潜在的な危険に迅速に対応することが困難になります。この問題を軽減するには、より小規模なバックボーン ネットワークを使用してネットワーク パラメータの数を減らすのが簡単なアプローチですが、図 1 に示すように、エンドツーエンドの計画モデルのパフォーマンスが急激に低下することがこのホワイト ペーパーで観察されています。たとえば、典型的なエンドツーエンドのモーション プランナーである InterFuser [33] の推論時間は 5,290 万から 2,630 万に短縮されましたが、その運転スコアも 53.44 から 36.55 に低下しました。したがって、エンドツーエンドの動作計画に適したモデル圧縮手法を開発する必要があります。
ポータブルな動作プランナーを入手するために、この記事では知識蒸留 [19] を使用してエンドツーエンドの動作計画モデルを圧縮します。知識蒸留 (KD) は、オブジェクト検出 [6、24]、セマンティック セグメンテーション [18、28] など、さまざまなタスクにおけるモデル圧縮のために広く研究されています。これらの研究の基本的な考え方は、より大規模な教師モデルから知識を継承することによって単純化された学生モデルをトレーニングし、展開中にその学生モデルを教師モデルの置き換えに使用することです。これらの研究は大きな成功を収めていますが、それをエンドツーエンドの動作計画に直接適用すると、次善の結果が得られます。これは、動作計画タスクに固有の 2 つの新たな課題から生じています。(i) 運転シナリオは本質的に複雑であり [46]、複数の動的および静的なオブジェクト、複雑な背景シーン、および多面的な道路や交通情報を含む多様な情報が含まれます。ただし、この情報すべてが計画に役立つわけではありません。たとえば、背景の建物や遠くの車両は計画に無関係であるか、騒音さえあります [41] が、近くの車両や信号機は決定的な影響を与えます。したがって、教師モデルから計画に関連する情報のみを自動的に抽出することが重要ですが、これまでの KD 手法では実現できませんでした。 (ii) 出力計画軌道内の異なるウェイポイントは、通常、動作計画にとって異なる重要性を持ちます。たとえば、交差点をナビゲートする場合、他の車両に近い軌道内のウェイポイントが他のウェイポイントよりも重要になる場合があります。これらのポイントでは、自車は他の車両と積極的に対話する必要があり、わずかな逸脱でも衝突につながる可能性があるためです。ただし、主要なウェイポイントを適応的に決定し、それらを正確に模倣する方法は、以前の KD 手法のもう 1 つの大きな課題です。
上記 2 つの課題に対処するために、この論文では、PlanKD と呼ばれる、圧縮自動運転におけるエンドツーエンドのモーション プランナー向けに調整された最初の知識蒸留方法を提案します。まず、本論文では、情報ボトルネック原理 [2] に基づいた戦略を提案します。その目標は、最小限かつ十分な計画情報を含む計画関連の特徴を抽出することです。具体的には、抽出された計画関連特徴量と本論文で定義した計画状態の真の値との間の相互情報量を最大化し、抽出された特徴量と中間特徴量マップとの間の相互情報量を最小化する。この戦略により、この論文では中間層でのみ主要な計画関連情報を抽出できるようになり、それによって学生モデルの有効性が向上します。第二に、主要なウェイポイントを動的に識別し、それらを忠実に模倣するために、この論文では、注意メカニズム [38] を採用して、各ウェイポイントと、鳥瞰図 (BEV) 内の関連するコンテキストとの間の各ウェイポイントとその注意の重みを計算します。蒸留中に安全性が重要なウェイポイントの正確な模倣を促進するために、移動する障害物に近いウェイポイントに高い注意を払うことを奨励する、安全性を意識したランキングの損失を設計します。これにより、学生プランナーのセキュリティを大幅に向上させることができる。図 1 に示されている証拠は、学生プランナーの運転スコアが PlanKD によって大幅に改善できることを示しています。さらに、私たちの方法は、Town05 Long Benchmark で教師用プランナーと同等のパフォーマンスを維持しながら、参照時間を約 50% 削減できます。
図 1. Town05 Long Benchmark [31] でパラメーターの数が減少するにつれて InterFuser [33] のパフォーマンスが低下する概略図。 PlanKD を活用することで、コンパクトなモーション プランナーのパフォーマンスを向上させ、参照時間を大幅に短縮できます。推論時間は、サーバー上の GeForce RTX 3090 GPU で評価されます。
図 2. この記事の PlanKD フレームワークの概略図。 PlanKD は 2 つのモジュールで構成されています: 情報ボトルネック (IB) を通じて中間特徴マップから計画関連特徴を抽出する計画関連特徴抽出モジュール、主要なウェイポイントを動的に決定し、そこから知識を抽出する安全性を意識したウェイポイント注意蒸留モジュール全体的なセキュリティを強化します。
実験結果:
図 3. さまざまな運転シナリオにおける安全を意識した注意の重みの視覚化。緑色のブロックは自車両を表し、黄色のブロックは他の道路利用者 (車、自転車など) を表します。ウェイポイントが赤くなるほど、注目の重みが高くなります。
概要:
この文書では、圧縮されたエンドツーエンドのモーション プランナー向けに調整された知識抽出方法である PlanKD を提案します。提案手法は、情報ボトルネックを通じて計画関連の特徴を学習し、効果的な特徴の抽出を実現します。さらに、この論文は、ウェイポイント蒸留における各ウェイポイントの重要性を適応的に決定するために、安全性を意識したウェイポイント注意蒸留メカニズムを設計します。広範な実験により私たちのアプローチの有効性が検証され、PlanKD がリソースが限られた展開向けのポータブルで安全なソリューションとして機能できることが実証されました。
引用:
Feng K、Li C、Ren D 他、ポータビリティへの道: 自動運転のためのエンドツーエンドのモーション プランナーの圧縮[ J].arXiv プレプリント arXiv:2403.01238、2024.
以上が実装をさらに加速:自動運転のエンドツーエンドの動作計画モデルを圧縮の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力
