エンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブ ラーニング!
#自動運転のためのエンドツーエンドの微分可能学習は、最近、顕著なパラダイムとなっています。大きなボトルネックは、3D ボックスやセマンティック セグメンテーションなどの高品質のラベル付きデータへの需要が膨大であることです。これらのデータは、手動で注釈を付けるのに費用がかかることで知られています。この問題は、AD におけるサンプル内挙動が長い尾部分布を持つことが多いという顕著な事実によってさらに悪化します。言い換えれば、収集されるデータのほとんどは取るに足らないもの (直線道路での前進走行など) であり、安全上重要な状況はほんのわずかです。この論文では、エンドツーエンドの AD でサンプルとラベルの効率をどのように達成するかという、実用上重要だが十分に研究されていない問題を検討します。
具体的には、この論文は、提案された計画ルートの多様性と有用性の基準に基づいて、収集された生データの一部に徐々に注釈を付ける計画指向のアクティブ ラーニング手法を設計します。経験的には、提案された計画指向のアプローチは、一般的なアクティブ ラーニング アプローチよりも大幅に優れたパフォーマンスを発揮できます。特に、私たちの手法は、nuScenes データのわずか 30% を使用して、最先端のエンドツーエンド AD 手法と同等のパフォーマンスを達成します。私たちの研究が、方法論的な取り組みに加えて、データ中心の観点からの将来の研究にインスピレーションを与えることを願っています。
論文リンク: https://arxiv.org/pdf/2403.02877.pdf
この記事の主な貢献:
- E2E-AD データの問題を抱えている人。また、限られた予算内で計画を立てるために貴重なデータを特定して注釈を付けるための、シンプルかつ効果的なソリューションも提供します。
- エンドツーエンドのアプローチの計画指向の哲学に基づいて、ルートを計画するためにタスク固有の新しい多様性と不確実性の尺度が設計されています。
- 多数の実験とアブレーション研究により、この方法の有効性が証明されています。 ActiveAD は、一般的なピアツーピア メソッドよりも大幅にパフォーマンスが優れており、nuScenes データの 30% のみを使用して完全なラベルを使用する SOTA メソッドと同等のパフォーマンスを達成します。
手法の紹介
ActiveAD はエンドツーエンド AD フレームワークで詳細に説明され、データの特性に基づいて多様性と不確実性の指標が設計されます。 ADの。
1) ラベルの最初のサンプル選択
コンピュータ ビジョンのアクティブ ラーニングの場合、最初のサンプル選択は通常、追加情報や学習特性を含まない元の画像のみに基づいて行われます。そのため、ランダムな初期化が一般的に行われるようになりました。 AD の場合、追加の事前情報が利用可能です。具体的には、センサーからデータを収集する際に、自車の速度や軌跡といった従来の情報も同時に記録できる。さらに、天候や照明の状態は継続的なことが多く、フラグメント レベルで注釈を付けるのが簡単です。この情報により、初期セット選択の情報に基づいた選択が容易になります。したがって、初期選択のための自己多様性尺度を設計しました。
Ego Diversity: 1) 気象照明、2) 運転指示、3) 平均速度の 3 つの部分で構成されます。まず、nuScenes の記述を使用して、完全なデータ セットを 4 つの相互に排他的なサブセット、Day Sunny (DS)、Day Rainy (DR)、Night Sunny (NS)、NightRainy (NR) に分割します。次に、各サブセットは、完全なセグメント内の左、右、直進の運転コマンドの数に基づいて、左折 (L)、右折 (R)、追い越し (O)、および直進 (S) の 4 つのカテゴリに分類されます。この論文ではしきい値 τc を設計しており、クリップ内の左右のコマンドの数がしきい値 τc 以上の場合、それをクリップ内の超越的な動作と見なします。左コマンドの数のみが閾値 τc より大きい場合、左折を示します。右方向のコマンドの数だけが閾値τcより大きい場合、それは右折を示す。他のすべてのケースは直接とみなされます。 3 番目に、各シーンの平均速度を計算し、関連するサブセット内で昇順に並べ替えます。
2) 増分選択の基準設計
このセクションでは、注釈付きフラグメントでトレーニングされたモデルに基づいて、フラグメントの新しい部分に増分注釈を付ける方法を紹介します。中間モデルを使用してラベルのないセグメントに対して推論を実行し、その後の選択はこれらの出力に基づいて行われます。それにもかかわらず、計画指向の観点が採用され、その後のデータ選択のための 3 つの基準、つまり変位誤差、ソフト衝突、代理不確実性が導入されます。 標準 1: 変位誤差 (DE)。は、モデルの予測計画ルート τ とデータセットに記録されている人の軌跡 τ* との間の距離として表されます。ここで、T はシーン内のフレームを表します。変位誤差自体がパフォーマンス メトリックであるため (注釈は必要ありません)、アクティブな選択では当然、最初で最も重要な基準になります。
標準 2: ソフトコリジョン (SC)。 LSC は、予測される自車両の軌道と予測されるエージェントの軌道の間の距離として定義されます。信頼性の低いエージェントの予測は、しきい値 ε によって除外されます。各シナリオでは、ハザード係数の尺度として最短距離が選択されます。同時に、項と最近接距離との間の正の相関関係を維持します。
「ソフト衝突」を基準として使用する理由は次のとおりです。 一方で、「変位誤差」とは異なります。 , " 「衝突率」の計算は、ラベルのないデータでは利用できない、ターゲットの 3D ボックスの注釈に依存します。したがって、モデルの推論結果のみに基づいて基準を計算できるはずです。一方、ハード衝突基準を考慮します。予測された自車の軌道が他の予測されたエージェントの軌道と衝突する場合は 1 を割り当て、そうでない場合は 0 を割り当てます。ただし、AD の最先端モデルの衝突率は通常小さい (1% 未満) ため、ラベル 1 のサンプルが少なすぎる可能性があります。したがって、「衝突率」指標の代わりに、他のターゲットのペアまでの最も近い距離を使用することが選択されました。他の車両や歩行者との距離が近すぎる場合、リスクは非常に高くなると考えられます。つまり、「ソフト衝突」は衝突の可能性を測る効果的な尺度であり、集中的な監視を提供できます。
標準 III: エージェントの不確実性 (AU)。周囲のエージェントの将来の軌道の予測は当然ながら不確実であるため、動作予測モジュールは通常、複数のモダリティと対応する信頼スコアを生成します。私たちの目標は、近くのエージェントの不確実性が高いデータを選択することです。具体的には、遠くにある被写体が距離閾値 δ によって除外され、残りの被写体に対する複数のモードの予測確率の重み付きエントロピーが計算されます。モダリティの数が であり、さまざまなモダリティにおけるエージェントの信頼スコアが Pi(a) であると仮定します (i∈{1,…,Nm})。次に、エージェントの不確実性は次のように定義できます。
3) 全体的なイニシアチブ 学習パラダイム
Alg1 では、メソッドのワークフロー全体を紹介します。利用可能な予算 B、初期選択サイズ n0、各ステップで行われるアクティビティ選択の数 ni、および合計 M 個の選択ステージが与えられるとします。選択は、まず、前述のランダム化または自己多様性の方法を使用して初期化されます。次に、現在注釈が付けられているデータを使用してネットワークをトレーニングします。訓練されたネットワークに基づいて、ラベルのないネットワークを予測し、総損失を計算します。最後に、サンプルは全体の損失に従って並べ替えられ、現在の反復で注釈が付けられる上位 ni 個のサンプルが選択されます。このプロセスは、反復が上限 M に達し、選択されたサンプルの数が上限 B に達するまで繰り返されます。実験結果
実験は、広く使用されている nuScenes データセットに対して行われました。すべての実験は PyTorch を使用して実装され、RTX 3090 および A100 GPU で実行されます。#表 1: 計画のパフォーマンス。 ActiveAD は、すべてのアノテーション予算設定において、一般的なアクティブ ラーニング ベースラインを上回ります。さらに、30% のデータを含む ActiveAD は、データセット全体を使用したトレーニングと比較して、わずかに優れた計画パフォーマンスを達成しました。 * の付いた VAD は、元の研究で報告された結果よりも優れた更新された結果を示します。 UniAD に † が付いている場合は、結果の更新に VAD のインジケーターが使用されていることを示します。
表 2: 計画されたアブレーション実験。 「RA」と「ED」は、ランダム性と自己多様性に基づく初期セットの選択を表します。 「DE」、「SC」、「AU」は変位誤差を表し、それぞれソフト衝突とエージェントの不確実性を表します。 「ED」との組み合わせはすべて同じ 10% データで初期化されます。 LDE、LSC、LAU はそれぞれ [0, 1] に正規化され、ハイパーパラメータ α と β は 1 に設定されます。
図 3: 選択したシーンの視覚化。データの 10% でトレーニングされたモデルに基づく、選択されたフロント カメラ画像に基づく、変位誤差 (列 1)、ソフト衝突 (列 2)、エージェントの不確実性 (列 3)、およびハイブリッド (列 4) 基準。混合は、最終的な選択戦略である ActiveAD を表し、最初の 3 つのシナリオが考慮されます。
# 図 4: 複数の基準間の類似性。これは、変位誤差 (DE)、ソフト衝突 (SC)、エージェントの不確実性 (AU)、混合 (MX) の 4 つの基準によって選択された 10% (左) と 20% (右) の新しいサンプリング シナリオを示しています
エンドツーエンドの自動運転データ アノテーションの高コストとロングテールの問題を解決するために、私たちはカスタマイズされたアノテーションの開発を主導しました。アクティブ ラーニング ソリューション ActiveAD を開発しました。 ActiveAD は、計画指向の哲学に基づいて、タスク固有の新しい多様性と不確実性の尺度を導入します。この手法の有効性は多くの実験によって実証されており、わずか30%のデータを使用するだけで、従来の一般的な手法を大幅に超え、最先端機種と同等の性能を実現します。これは、データ中心の観点からのエンドツーエンドの自動運転の有意義な探求を表しており、私たちの研究が将来の研究と発見に刺激を与えることを願っています。
以上がエンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブ ラーニング!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較
