データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?-AI-php.cn

前に書いた&著者の個人的な理解

SOTA 自動運転データセット: 分類と開発

自動運転データセットのマイルストーン開発

データセットの取得、設定、および主要な機能

クローズドループデータ駆動型自動運転システム

SOTA 閉ループ自動運転パイプライン

自動運転データセットの自動ラベル付け方法

実証研究

結論

ホームページ

テクノロジー周辺機器

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

PHPz

Feb 02, 2024 pm 12:03 PM

モデルオートパイロット圧縮技術エミュレータ

前に書いた&著者の個人的な理解

次世代の自動運転技術は、インテリジェントな認識、予測、計画と低レベルの間の特殊な統合と統合に依存すると予想されますコントロール、インタラクション。自動運転アルゴリズムの性能上限には常に大きなボトルネックが存在しており、ボトルネックを克服する鍵はデータ中心の自動運転技術にあるということで学者も産業界も一致しています。 AD シミュレーション、閉ループモデルトレーニング、AD ビッグデータエンジンは最近、貴重な経験を積みました。しかし、AD アルゴリズムの自己進化とより優れた AD ビッグデータの蓄積を実現するために、効率的なデータ中心の AD テクノロジーを構築する方法についての体系的な知識と深い理解が不足しています。この研究ギャップを埋めるために、ここでは、主にマイルストーン、主要な機能、データ収集設定などを含む自動運転データセットの包括的な分類に焦点を当てて、最新のデータ駆動型自動運転技術に細心の注意を払います。さらに、クローズドループフレームワークのプロセス、主要テクノロジー、実証研究を含む、業界最前線からの既存のベンチマーククローズドループ AD ビッグデータパイプラインの体系的なレビューを実施しました。最後に、自動運転のさらなる開発を促進するための学界と産業界の共同の取り組みを引き出すために、将来の開発の方向性、潜在的なアプリケーション、限界、懸念事項について議論します。

要約すると、主な貢献は次のとおりです:

マイルストーン世代、モジュール式タスク、センサースイート、主要機能によって分類された自動運転データセットの最初の包括的な分類法を導入しました ;
深層学習と生成人工知能モデルに基づいた、最先端の閉ループデータ駆動型自動運転パイプラインと関連する主要テクノロジーの体系的なレビュー。
閉ループビッグデータドライバーを提供しますパイプラインが自動運転産業用アプリケーションでどのように機能するかについての実証的研究。
では、現在のパイプラインとソリューションの長所と短所、およびデータの将来についての研究について説明します。自動運転中心の方向性。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

SOTA 自動運転データセット: 分類と開発

自動運転データセットの進化は、この分野の技術の進歩と開発を反映しています。成長する野心。 20 世紀末の先端研究所での初期の AVT 研究とカリフォルニア大学バークレー校の PATH プログラムは、基本的なセンサーデータの基礎を築きましたが、当時の技術レベルによって制限されました。過去 20 年間、センサー技術、計算能力、洗練された機械学習アルゴリズムの進歩により、大きな進歩が見られました。 2014 年に自動車技術者協会 (SAE) は、体系的な 6 レベル (L0 ～ L5) の自動運転システムを一般に発表し、自動運転の研究開発の進展により広く認知されました。深層学習によって推進され、コンピュータービジョンベースの手法がインテリジェントな認識を支配してきました。深層強化学習とそのバリアントは、インテリジェントな計画と意思決定に重要な改善をもたらします。最近、大規模言語モデル (LLM) と視覚言語モデル (VLM) の強力なシーン理解、運転行動の推論と予測、インテリジェントな意思決定機能が実証され、将来の自動運転開発の新たな可能性が開かれています。

自動運転データセットのマイルストーン開発

図 2 は、オープンソースの自動運転データセットのマイルストーン開発を時系列で示しています。大きな進歩により、主流のデータセットは 3 世代に分類され、データセットの複雑さ、量、シーンの多様性、アノテーションの粒度が大幅に向上し、この分野が技術的成熟度の新たなフロンティアに押し上げられています。具体的には、横軸は開発タイムラインを表します。各行のヘッダーには、データセット名、センサーモダリティ、適切なタスク、データ収集場所、および関連する課題が含まれます。世代間でデータセットをさらに比較するために、異なる色の棒グラフを使用して、認識されたデータセットのサイズと予測/計画されたデータセットのサイズを視覚化します。 KITTI と Cityscapes が主導した 2012 年に始まった第 1 世代の初期段階では、知覚タスクに高解像度の画像が提供され、ビジョンアルゴリズムのベンチマーク進歩の基礎となりました。第 2 世代に進むと、NuScenes、Waymo、Argoverse 1 などのデータセットはマルチセンサー方式を導入し、車載カメラ、高精度地図 (HD マップ)、ライダー、レーダー、GPS、IMU、軌跡、およびデータからのデータを統合しました。これは、包括的な運転環境モデリングと意思決定プロセスにとって重要です。最近では、NuPlan、Argoverse 2、Lyft L5 が影響力の基準を大幅に引き上げ、前例のないデータ規模を実現し、最先端の研究に役立つエコシステムを育成しました。巨大なサイズとマルチモーダルセンサーの統合を特徴とするこれらのデータセットは、認識、予測、計画タスクのためのアルゴリズムの開発において重要な役割を果たし、高度な End2End またはハイブリッド自動運転モデルへの道を切り開きました。 2024 年には、第 3 世代の自動運転データセットが登場します。 VLM、LLM、その他の第 3 世代の人工知能テクノロジーによってサポートされている第 3 世代のデータセットは、データのロングテール配信の問題、配信範囲外の検出、コーナーケース分析など。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

データセットの取得、設定、および主要な機能

表 1 は、運転シナリオ、センサースイート、注釈を含む、非常に影響力のある知覚データセットのデータ取得と注釈の設定をまとめたものです。データセットシナリオにおける天気/時間/運転条件カテゴリの合計数。天気には通常、晴れ/曇り/霧/雨/雪/その他 (極端な条件)、時間帯には通常、朝、午後、夜間が含まれます。運転条件は通常、市街路、幹線道路、脇道、田園地帯、高速道路、トンネル、駐車場などが含まれます。シナリオが多様であればあるほど、データセットはより強力になります。また、(アジア)、EU (ヨーロッパ)、NA (北アメリカ)、SA (南アメリカ)、AU (オーストラリア)、AF (アフリカ) として示される、データセットが収集された地域も報告します。 Mapillary は AS/EU/NA/SA/AF/AF を通じて収集され、DAWN は Google および Bing 画像検索エンジンから収集されることは注目に値します。センサースイートについては、カメラ、LIDAR、GPS、IMU などを検討しました。表１中のＦＶはフロントビューカメラ、ＳＶはストリートビューカメラの略称である。 360° パノラマカメラのセットアップは通常、複数のフロントビューカメラ、レアビューカメラ、サイドビューカメラで構成されます。 AD テクノロジーの発展に伴い、データセットに含まれるセンサーの種類と数が増加し、データパターンがますます多様化していることがわかります。データセットのアノテーションに関しては、初期のデータセットでは通常手動のアノテーション方法が使用されていましたが、最近の NuPlan、Argoverse 2、DriveLM では AD ビッグデータに自動アノテーションテクノロジが採用されています。私たちは、従来の手動アノテーションから自動アノテーションへの移行が、将来のデータ中心の自動運転の大きなトレンドになると考えています。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

予測タスクと計画タスクについて、主流のデータセットの入出力コンポーネント、センサースイート、シーン長、予測長を表 2 にまとめます。動きの予測/予測タスクの場合、入力コンポーネントには通常、自車両の履歴軌跡、周囲のエージェントの履歴軌跡、高精度地図、交通状況情報 (信号状況、道路 ID、一時停止標識など) が含まれます。）。目標出力は、短期間における自車両および／または周囲の対象物の最も可能性の高いいくつかの軌道（上位 5 位または上位 10 位の軌道など）です。モーション予測タスクは通常、スライディングタイムウィンドウ設定を採用して、シーン全体をいくつかの短い時間ウィンドウに分割します。たとえば、NuScenes は過去 2 秒間の GT データと高精度マップを使用して次の 6 秒の軌道を予測しますが、Argoverse 2 は過去の 5 秒間のグラウンドトゥルースと高精度マップを使用して次の 6 秒の軌道を予測します。秒。 NuPlan、CARLA、ApoloScape は、最も人気のある計画タスクデータセットです。入力コンポーネントには、自車/周囲車両の履歴軌跡、自車の運動状態、および運転シーンの表現が含まれます。 NuPlan と ApoloScape は現実世界で取得されたものですが、CARLA はシミュレートされたデータセットです。 CARLA には、さまざまな町での模擬運転中に撮影された道路画像が含まれています。各道路画像はステアリング角度に関連付けられており、車両を適切に動かし続けるために必要な調整を表します。計画の予測の長さは、さまざまなアルゴリズムの要件に応じて変化する可能性があります。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

クローズドループデータ駆動型自動運転システム

私たちは今、ソフトウェアによって定義された以前の自動運転の時代から移行しつつあります。とアルゴリズムが新たな時代へインスピレーションを与えるビッグデータ駆動型とインテリジェントモデルの協調型自動運転時代。閉ループのデータ駆動型システムは、AD アルゴリズムのトレーニングと実際のアプリケーション/展開の間のギャップを埋めることを目的としています。人間の顧客の運転や路上テストから収集されたデータセットに基づいてモデルが受動的にトレーニングされる従来の開ループアプローチとは異なり、閉ループシステムは実際の環境と動的に対話します。このアプローチは、分布の変動という課題に対処します。つまり、静的なデータセットから学習した動作が、現実世界の運転シナリオの動的な性質に変換されない可能性があります。クローズドループシステムにより、AV はインタラクションから学習して新しい状況に適応し、アクションとフィードバックの反復サイクルを通じて改善することができます。

ただし、実際のデータ中心の閉ループ AD システムの構築は、いくつかの重要な問題があるため、依然として困難です。最初の問題は、AD データ収集に関連しています。実際のデータ収集では、ほとんどのデータサンプルは一般的な/通常の運転シナリオですが、カーブや異常な運転シナリオに関するデータを収集することはほとんど不可能です。第二に、AD データに対する正確かつ効率的な自動アノテーション方法を探索するには、さらなる努力が必要です。第三に、都市環境の特定のシーンにおける AD モデルのパフォーマンスが低いという問題を軽減するために、シーンデータマイニングとシーンの理解を重視する必要があります。

SOTA 閉ループ自動運転パイプライン

自動運転業界は、大量のデータの蓄積によってもたらされる課題に対処するために、統合ビッグデータプラットフォームを積極的に構築しています。 ADデータ。データドリブンな自動運転時代の新たなインフラと呼ぶにふさわしいものです。一流の AD 企業/研究機関が開発したデータ駆動型の閉ループシステムを調査したところ、次のような共通点が見つかりました。

これらのパイプラインは通常、(I) データ収集、(II) データ保存、(III) データ選択と前処理、(IV) データ注釈、(V) などのワークフローサイクルに従います。 ) AD モデルのトレーニング、(VI) シミュレーション/テストの検証、および (VII) 現実世界の展開。
システム内の閉ループの設計について、既存のソリューションでは、「データ閉ループ」と「モデル閉ループ」を個別に設定するか、「研究開発段階」という異なる段階でサイクルを設定するかを選択します。クローズドループ」、「展開ステージクローズドループ」。
さらに、業界は、現実世界の AD データセットの長期的な配布問題と、特殊なケースに対処する際の課題も強調しました。 Tesla と Nvidia はこの分野の業界の先駆者であり、彼らのデータシステムアーキテクチャはこの分野の発展に重要な参考資料を提供します。

NVIDIA MagLev AV プラットフォーム図 3 (左)) は、プログラムとして「収集 → 選択 → ラベル付け → ドラゴンの訓練」を踏襲しており、SDC のアクティブラーニングを実現できる複製可能なワークフローであり、スマートループ内の注釈。 MagLev には主に 2 つの閉ループパイプラインが含まれています。最初のサイクルは自動運転データを中心としており、データの取り込みとインテリジェントな選択から始まり、注釈と注釈、そしてモデルの検索とトレーニングを経ます。トレーニングされたモデルは評価、デバッグされ、最終的に現実世界に展開されます。 2 番目の閉ループは、データセンターバックボーンやハードウェアインフラストラクチャを含むプラットフォームのインフラストラクチャサポートシステムです。このループには、安全なデータ処理、スケーラブルな DNN とシステム KPI、追跡とデバッグ用のダッシュボードが含まれます。 AV 開発の全サイクルをサポートし、開発プロセス中の現実世界のデータとシミュレーションフィードバックの継続的な改善と統合を保証します。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

Tesla 自動運転データプラットフォーム (図 3 (右)) は、もう 1 つの代表的な AD プラットフォームであり、ビッグデータ駆動型の閉ループパイプライン# の使用に重点を置いています。 ## 自動運転モデルのパフォーマンスを大幅に向上させます。パイプライン通常はテスラのフリート学習、イベントトリガーの車両側データ収集、およびシャドウモードからのソースデータ収集から開始します。収集されたデータは、データプラットフォームアルゴリズムまたは人間の専門家によって保存、管理、およびレビューされます。例外的なケース/不正確さが発見されるたびに、データエンジンは既存のデータベースからその例外的なケース/不正確さに非常に類似したデータサンプルを取得して照合します。同時に、シナリオを再現し、システムの応答を厳密にテストするための単体テストが開発されます。取得されたデータサンプルは、自動注釈アルゴリズムまたは人間の専門家によって注釈が付けられます。その後、十分に注釈が付けられたデータが AD データベースにフィードバックされ、AD データベースが更新されて、AD センシング/予測/計画/制御モデル用の新しいバージョンのトレーニングデータセットが生成されます。モデルのトレーニング、検証、シミュレーション、実世界でのテストの後、より高いパフォーマンスを備えた新しい AD モデルがリリースされ、展開されます。

Generative AI に基づく高忠実度の AD データ生成とシミュレーション

現実世界から収集された AD データサンプルのほとんどは、一般的/通常の運転シナリオであり、その中にはデータベースにはすでに多数の同様のサンプルが存在します。ただし、実際の収集からある種の AD データサンプルを収集するには、飛躍的に長時間運転する必要がありますが、これは産業用アプリケーションでは現実的ではありません。したがって、高忠実度の自動運転データ生成およびシミュレーション手法は、学術コミュニティから大きな注目を集めています。 CARLA は、ユーザーが指定したさまざまな設定で自動運転データを生成できる自動運転研究用のオープンソースシミュレーターです。 CARLA の強みは柔軟性にあり、ユーザーはさまざまな道路状況、交通シナリオ、気象ダイナミクスを作成できるため、包括的なモデルのトレーニングとテストが容易になります。ただし、シミュレータとしての主な欠点はドメインギャップです。 CARLA によって生成された AD データは、現実世界の物理的および視覚的効果を完全にシミュレートすることはできず、実際の運転環境の動的で複雑な特性も表現できません。

最近、ワールドモデルは、より高度な固有の概念とより有望なパフォーマンスを備えた高忠実度の AD データ生成に使用されています。世界モデルは、認識する環境の内部表現を構築し、学習した表現を使用して環境内のデータやイベントをシミュレートする人工知能システムとして定義できます。一般世界モデルの目標は、成熟した人間が現実世界で遭遇するのと同じように、状況や相互作用を表現し、シミュレートすることです。自動運転の分野では、GAIA-1 と DriveDreamer は世界モデルに基づいたデータ生成の代表作です。 GAIA-1 は、生の画像/ビデオをテキストとアクションプロンプトとともに入力として取得することで、画像/ビデオから画像/ビデオの生成を実現する生成人工知能モデルです。 GAIA-1 の入力モダリティは、統一されたトークンのシーケンスにエンコードされます。これらの注釈は、後続の画像注釈を予測するために、ワールドモデル内の自己回帰変換器によって処理されます。次に、ビデオデコーダは、これらの注釈を時間解像度が向上したコヒーレントなビデオ出力に再構築し、動的でコンテキストに富んだビジュアルコンテンツの生成を可能にします。 DriveDreamer は、そのアーキテクチャに拡散モデルを革新的に採用し、現実世界の運転環境の複雑さを捉えることに重点を置いています。その 2 段階のトレーニングパイプラインにより、モデルは最初に構造化された交通制約を学習し、次に将来の状態を予測できるようになり、自動運転アプリケーションに合わせた強力な環境理解を確保します。

自動運転データセットの自動ラベル付け方法

成功と信頼性のためには、高品質のデータラベル付けが不可欠です。これまでのところ、データアノテーションパイプラインは、従来の手動アノテーションから半自動アノテーション、最先端の全自動アノテーション手法まで 3 つのタイプに分類できます。図 4 に示すように、AD データアノテーションは通常次のようにみなされます。タスク/モデルに特化してください。ワークフローは、アノテーションタスクの要件と元のデータセットを慎重に準備することから始まります。次に、人間の専門家、自動アノテーションアルゴリズム、または End2End の大規模モデルを使用して、初期のアノテーション結果を生成します。その後、アノテーションの品質は、事前定義された要件に基づいて人間の専門家または自動化された品質チェックアルゴリズムによってチェックされます。このラウンドの注釈結果が品質チェックに合格しなかった場合、それらは再び注釈サイクルに戻され、事前定義された要件を満たすまでこの注釈ジョブが繰り返されます。最後に、既製のラベル付き AD データセットを取得できます。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

自動アノテーション方法は、閉ループ自動運転ビッグデータプラットフォームの鍵であり、労働集約的な手動アノテーションを軽減し、閉ループの AD データの効率を向上させます。循環を促進し、関連コストを削減します。従来の自動ラベル付けタスクには、シーンの分類と理解が含まれます。最近では、BEV 手法の普及に伴い、AD データアノテーションの業界標準も継続的に改善されており、自動アノテーションタスクはより複雑になっています。今日の産業の最先端のシナリオでは、3D 動的ターゲットの自動ラベル付けと 3D 静的シーンの自動ラベル付けが、一般的に使用される 2 つの高度な自動ラベル付けタスクです。

シーンの分類と理解は自動運転ビッグデータプラットフォームの基礎であり、システムはビデオフレームを走行場所 (道路、高速道路、都市高架、主要道路など) やシーンなどの事前定義されたシーンに分類します。天気（晴れの日、雨の日、雪の日、霧の日、雷雨の日など）。 CNN ベースの手法は、シーンの分類に一般的に使用されます。これには、事前トレーニングされた微調整された CNN モデル、マルチビューおよびマルチレイヤー CNN モデル、シーン表現を改善するためのさまざまな CNN ベースのモデルが含まれます。シーンの理解は単なる分類を超えています。これには、周囲の車両エージェント、歩行者、信号機など、シーン内の動的要素の解釈が含まれます。画像ベースのシーン理解に加えて、SemanticKITTI などの LIDAR ベースのデータソースも、提供されるきめ細かい幾何学的情報により広く採用されています。

3 次元の動的オブジェクトの自動アノテーションと 3 次元の静的シーンの自動アノテーションの出現は、広く採用されている純粋な電気自動車の認識技術の要件を満たすためです。 Waymo は、LIDAR 点群シーケンスデータに基づく 3D 自動ラベル付けパイプラインを提案しました。これは、3D 検出器を使用してフレームごとにターゲットの位置を特定します。次に、フレーム全体で識別されたオブジェクトの境界ボックスが、マルチオブジェクトトラッカーを介してリンクされます。オブジェクトの軌跡データ (各フレームでの対応する点群 3D バウンディングボックス) がオブジェクトごとに抽出され、分割統治アーキテクチャを使用してオブジェクト中心の自動ラベル付けが実行され、最終的に洗練された 3D バウンディングボックスがラベルとして生成されます。 Uber が提案した Auto4D パイプラインは、AD 知覚マーカーを初めて時空間スケールで調査します。自動運転の分野では、空間スケールでの 3D ターゲット境界ボックスマーキングと、時間スケールでの 1D 対応するタイムスタンプマーキングは、4D マーキングと呼ばれます。 Auto4D パイプラインは、連続 LIDAR 点群から開始して、オブジェクトの初期軌道を確立します。軌道は、ターゲット観測を使用してターゲットサイズをエンコードおよびデコードするターゲットサイズブランチによって洗練されます。同時に、モーションパスブランチはパスの観測とモーションをエンコードし、パスデコーダが一定のターゲットサイズで軌道を調整できるようにします。

3D 静的シーンの自動ラベリングは、車線、道路境界線、横断歩道、信号機、および運転シーン内のその他の関連要素にラベルを付ける必要がある HDMap 生成と考えることができます。このトピックの下には、MVMap、NeMO などのビジョンベースの手法、VMA などの LIDAR ベースの手法、OccBEV、OccNet/ADPT、ALO などの事前トレーニング済み 3D シーン再構成手法など、いくつかの魅力的な研究成果があります。 VMA は、3D 静的シーンの自動ラベル付けのために最近提案された機能です。 VMA フレームワークは、クラウドソースのマルチトリップ集約 LIDAR 点群を利用して静的シーンを再構築し、処理用のユニットにセグメント化します。 MapTR ベースのユニットアノテーターは、クエリとデコードを通じて生の入力を特徴マップにエンコードし、意味的に型付けされた点シーケンスを生成します。 VMA の出力はベクトル化されたマップであり、閉ループアノテーションと手動検証を通じて改良され、自動運転に満足のいく高精度マップが提供されます。

実証研究

この記事で言及されている高度な閉ループ AD データプラットフォームをより詳しく説明するために、実証研究を提供します。全体のプロセス図を図 5 に示します。この場合、研究者の目標は、自動運転アルゴリズム開発と自動運転アルゴリズム開発の間のスムーズな移行を実現するために、生成 AI とさまざまな深層学習ベースのアルゴリズムに基づいた AD ビッグデータ閉ループパイプラインを開発することです。フェーズと OTA アップグレードフェーズ (実際の展開後) により、データの閉ループが実現されます。具体的には、生成された人工知能モデルは、(1) エンジニアが提供するテキストプロンプトに基づいて、特定のシナリオ向けの高忠実度の AD データを生成するために使用されます。 (2) AD ビッグデータの自動ラベル付けにより、グラウンドトゥルースラベルを効果的に作成します。

図は 2 つの閉ループを示しています。より大きな段階の 1 つは自動運転アルゴリズムの開発フェーズであり、人工知能モデルと現実世界の運転から得られたデータサンプルを生成するための合成自動運転データのデータ収集から始まります。これら 2 つのデータソースは自動運転データセットに統合され、クラウドでマイニングされて貴重な洞察が得られます。その後、データセットは二重ラベル付けパスに入ります。深層学習に基づく自動ラベル付けまたは手動による手動ラベル付けにより、アノテーションの速度と精度が保証されます。次に、ラベル付けされたデータは、大容量自動運転スーパーコンピューティングプラットフォーム上でモデルをトレーニングするために使用されます。これらのモデルはシミュレーションと実際の道路でテストされ、その有効性が評価され、自動運転モデルのリリースとその後の展開につながります。小さい方は、実際の展開後の OTA アップグレードフェーズ用であり、AD アルゴリズムの不正確さ/コーナーケースを収集するための大規模なクラウドシミュレーションと現実世界のテストが含まれます。特定された不正確さ/例外的なケースは、モデルのテストと更新の次の反復に通知するために使用されます。たとえば、トンネル運転シナリオでは AD アルゴリズムのパフォーマンスが低いことが判明したとします。識別されたトンネル運転曲線はすぐにリングに通知され、次の反復で更新されます。生成人工知能モデルは、トンネル運転シーンの関連説明をテキストプロンプトとして使用して、大規模なトンネル運転データサンプルを生成します。生成されたデータと生のデータセットは、シミュレーション、テスト、モデルの更新にフィードされます。これらのプロセスの反復的な性質は、モデルを最適化して困難な環境や新しいデータに適応し、自動運転機能の高い精度と信頼性を維持するために重要です。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

第 3 世代以降の新しい自動運転データセットについて議論します。 LLM/VLM などの基本モデルは、言語理解やコンピュータビジョンにおいて成功を収めていますが、それらを自動運転に直接適用することは依然として困難です。これには 2 つの理由があります。1 つは、これらの LLM/VLM には、マルチソースの AD ビッグデータ (FOV 画像/ビデオ、LIDAR クラウドポイント、高解像度マップ、 GPS/IMU データなど）は、日常生活で目にする画像を理解するのがさらに困難です。一方で、自動運転分野における既存データの規模や品質は他の分野（金融や医療など）に比べて及ばず、大容量のLLM/VLMの学習や最適化を支援することが困難です。自動運転用のビッグデータは、現在、規制、プライバシーへの懸念、コストのため、規模と品質が制限されています。私たちは、関係者全員の協力により、次世代の AD ビッグデータの規模と品質が大幅に向上すると信じています。

自動運転アルゴリズムのハードウェアサポート。現在のハードウェアプラットフォームは、特に GPU や TPU などの専用プロセッサの出現により大幅な進歩を遂げ、深層学習タスクに不可欠な大規模な並列コンピューティング能力を提供します。車載およびクラウドインフラストラクチャの高性能コンピューティングリソースは、車両センサーによって生成される大量のデータストリームをリアルタイムで処理するために不可欠です。これらの進歩にもかかわらず、自動運転アルゴリズムの複雑さの増大に対処する場合、スケーラビリティ、エネルギー効率、および処理速度には依然として限界があります。 VLM/LLM 誘導によるユーザーと車両のインタラクションは、非常に有望なアプリケーションケースです。このアプリケーションに基づいて、ユーザー固有の行動ビッグデータを収集できます。ただし、VLM/LLM 車載デバイスには高水準のハードウェアコンピューティングリソースが必要であり、対話型アプリケーションの遅延は低いことが期待されます。したがって、将来的には軽量で大規模な自動運転モデルが登場するか、LLM/VLM の圧縮技術がさらに研究される可能性があります。

ユーザー行動データに基づいたパーソナライズされた自動運転の推奨事項。スマートカーは、単純な交通手段からスマートターミナルシナリオにおける最新のアプリケーション拡張まで発展してきました。したがって、高度な自動運転機能を搭載した車両には、運転スタイルやルートの好みなどのドライバーの行動の好みを過去の運転データ記録から学習できることが期待されています。これにより、将来的にはスマートカーがユーザーのお気に入りの車両とより連携し、ドライバーの車両制御、運転決定、ルート計画を支援できるようになります。上記の概念をパーソナライズされた自動運転推奨アルゴリズムと呼びます。レコメンデーションシステムは、電子商取引、オンラインショッピング、食品配達、ソーシャルメディア、ライブストリーミングプラットフォームで広く使用されています。ただし、自動運転の分野では、パーソナライズされた推奨事項はまだ初期段階にあります。近い将来、より適切なデータシステムとデータ収集メカニズムが設計され、ユーザーの許可と関連規制の遵守のもとでユーザーの運転行動の好みに関するビッグデータが収集され、それによってユーザー向けにカスタマイズされた自動運転システムの推奨が実現されると私たちは考えています。。

データセキュリティと信頼できる自動運転。大量の自動運転ビッグデータは、データセキュリティとユーザーのプライバシー保護に大きな課題をもたらしています。コネクテッド自動運転車 (CAV) や車両のインターネット (IoV) テクノロジーの発展に伴い、車両のコネクテッド化が進み、運転習慣から頻繁に使用するルートに至るまで詳細なユーザーデータが収集されるため、個人情報の悪用の可能性についての懸念が生じています。収集されるデータの種類、保持ポリシー、サードパーティの共有に関する透明性の必要性を推奨します。「追跡しない」要求の尊重や個人データを削除するオプションの提供など、ユーザーの同意と制御の重要性を強調しています。自動運転業界にとって、イノベーションを促進しながらこのデータを保護するには、これらのガイドラインを厳守し、ユーザーの信頼と進化するプライバシー法への準拠を確保する必要があります。

データのセキュリティとプライバシーに加えて、信頼できる自動運転をどのように実現するかという問題もあります。 AD テクノロジーの驚異的な発展により、インテリジェントアルゴリズムと生成人工知能モデル (LLM、VLM など) は、ますます複雑になる運転上の意思決定やタスクを実行する際に「駆動要素として機能」するようになります。この分野では、人間は自動運転モデルを信頼できるのか?という当然の疑問が生じます。私たちの見解では、信頼性の鍵は自動運転モデルの解釈可能性にあると考えています。ドライバーは、単に運転操作を実行するだけでなく、人間のドライバーに決定の理由を説明できる必要があります。 LLM/VLM は、高度な推論とリアルタイムでのわかりやすい説明を提供することで、信頼性の高い自動運転を強化することが期待されています。

結論

この調査は、ビッグデータシステム、データマイニング、クローズドループテクノロジーなど、自動運転におけるデータ中心の進化に関する初めての体系的なレビューを提供します。この調査では、まずマイルストーン生成ごとにデータセットの分類を作成し、歴史的なタイムライン全体で AD データセットの開発をレビューし、データセットの取得、セットアップ、および主要な機能を紹介します。さらに、閉ループデータ駆動型自動運転システムについて、学術と産業の両方の観点から詳しく解説します。データ中心の閉ループシステムにおけるワークフローパイプライン、プロセス、および主要なテクノロジについて詳しく説明します。実証研究を通じて、アルゴリズム開発および OTA アップグレードにおけるデータ中心のクローズドループ AD プラットフォームの利用率と利点が実証されています。最後に、既存のデータ駆動型自動運転技術の長所と短所、および今後の研究の方向性について包括的に議論します。新しいデータセット、ハードウェアサポート、パーソナライズされた AD の推奨事項、および第 3 世代以降の説明可能な自動運転に重点が置かれています。また、生成 AI モデルの信頼性、データのセキュリティ、自動運転の将来の開発についての懸念も表明しました。

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

元のリンク: https://mp.weixin.qq.com/s/YEjWSvKk6f-TDAR91Ow2rA

以上がデータは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1655

CakePHP チュートリアル

1413

Laravel チュートリアル

1306

PHP チュートリアル

1252

C# チュートリアル

1226

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジシナリオの「ロングテール」とは、自動運転車 (AV) におけるエッジケースを指します。エッジケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

joiplayシミュレーターのフォント設定方法の紹介 May 09, 2024 am 08:31 AM

jojplay シミュレーターは実際にゲームのフォントをカスタマイズすることができ、テキスト内の文字抜けや囲み文字の問題を解決できます。おそらく、多くのプレイヤーは操作方法を知らないと思います。次のエディターは、その設定方法を提供します。 jojplayシミュレータのフォントを紹介します。 joiplay シミュレーターのフォントを設定する方法 1. まず、joiplay シミュレーターを開き、右上隅にある設定 (3 つの点) をクリックして見つけます。 2. [RPGMSettings] 列で、3 行目の CustomFont カスタムフォントをクリックして選択します。 3. フォントファイルを選択し、[OK] をクリックします。右下隅の [保存] アイコンをクリックしないように注意してください。クリックしないと、デフォルト設定が復元されます。 4. 創始者および準元の簡体字中国語文字が推奨されます (ゲーム Fuxing および Rebirth のフォルダにすでに入っています)。攘夷

雷と稲妻シミュレーターのアプリケーションを削除するにはどうすればよいですか? -Thunderbolt Simulator でアプリケーションを削除するにはどうすればよいですか? May 08, 2024 pm 02:40 PM

Thunderbolt Simulator の公式バージョンは、非常に専門的な Android エミュレータツールです。では、雷と稲妻のシミュレータアプリケーションを削除するにはどうすればよいでしょうか? Thunderbolt シミュレーターでアプリケーションを削除するにはどうすればよいですか?雷と稲妻のシミュレータアプリケーションを削除する方法を編集者に教えてください。 1. 削除するアプリのアイコンをクリックしたままにします。 2. アプリをアンインストールまたは削除するオプションが表示されるまで、しばらく待ちます。 3. アプリをアンインストールオプションにドラッグします。 4. ポップアップ表示される確認ウィンドウで、「OK」をクリックしてアプリケーションの削除を完了します。

cURL と wget: どちらが適していますか? May 07, 2024 am 09:04 AM

Linux コマンドラインから直接ファイルをダウンロードしたい場合、wget と cURL という 2 つのツールがすぐに思い浮かびます。これらは多くの同じ特性を持ち、同じタスクの一部を簡単に実行できますが、いくつかの類似した特性がありますが、まったく同じではありません。これら 2 つのプログラムはさまざまな状況に適しており、特定の状況では独自の特徴があります。 cURL と wget: 類似点 wget と cURL はどちらもコンテンツをダウンロードできます。これが、核となる部分がどのように設計されているかです。インターネットにリクエストを送信したり、リクエストされたアイテムを返したりすることができます。これは、ファイル、画像、または Web サイトの生の HTML などの何かです。どちらのプログラムも HTTPPOST リクエストを行うことができます。これは、全員が送信できることを意味します

ライフリスタートシミュレーターガイド May 07, 2024 pm 05:28 PM

Life Restart Simulator は非常に興味深いシミュレーションゲームです。このゲームにはさまざまな方法があります。以下に、Life Restart Simulator の完全なガイドを示します。戦略はあるのか？ライフリスタートシミュレーターガイドガイドライフリスタートシミュレーターの特徴プレイヤーが自由な発想で遊べる、非常にクリエイティブなゲームです。毎日完了すべきタスクがたくさんあり、この仮想世界で新しい生活を楽しむことができます。ゲーム内にはたくさんの曲があり、さまざまな人生があなたを待っています。ライフリスタートシミュレーターゲーム内容才能カード抽選: 才能: 不滅になるためには、神秘的な小箱を選択する必要があります。途中で死んでしまうことを避けるために、さまざまな小さなカプセルが用意されています。クトゥルフは選ぶかもしれない

総合的にDPOを超える：Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた Jun 01, 2024 pm 04:41 PM

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマンフィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシーモデルを最適化することが含まれます。最近、一部の研究者はより単純なオフラインアルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシーモデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

See all articles

データは王様です!データを基に効率的な自動運転アルゴリズムを段階的に構築するにはどうすればよいでしょうか?

前に書いた&著者の個人的な理解

SOTA 自動運転データセット: 分類と開発

自動運転データ セットのマイルストーン開発

データセットの取得、設定、および主要な機能

クローズドループデータ駆動型自動運転システム

SOTA 閉ループ自動運転パイプライン

Generative AI に基づく高忠実度の AD データ生成とシミュレーション

自動運転データセットの自動ラベル付け方法

実証研究

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

自動運転データセットのマイルストーン開発