北京大学とEVLOイノベーションチームは共同で、自動運転用の4次元時空事前トレーニングアルゴリズムであるDriveWorldを提案した。この方法では、事前トレーニングにワールド モデルを使用し、4 次元時空間モデリング用の記憶状態空間モデルを設計し、シーンの占有グリッドを予測することで自動運転が直面するランダムな不確実性と知識の不確実性を軽減します。この論文は CVPR 2024 に受理されました。
論文のタイトル: DriveWorld: 自動運転のための世界モデルによる 4D 事前トレーニング済みシーンの理解
論文のリンク: https://www.php.cn/link/293643def1ba1161bcdcfbfe434ab76d
1.
自動運転のシーン理解タスクには、シーンの認識や将来の変化の予測など、複数のレベルが含まれます。これらのレベルには、空間の 3 次元構造だけでなく、時間次元での動的な変化も含まれます。この複雑なシーンを理解するには、正確な意思決定を行うために、モデルが 4 次元の空間と時間の本質的な相関関係を捉えて理解できる必要があります。自然シーンの確率的性質、環境の局所的な観測可能性、およびさまざまな下流タスクの多様性により、4 次元の時空間表現を学習することは非常に困難です。事前トレーニングは、大量のデータから普遍的な表現を取得する上で重要な役割を果たし、普遍的な知識を備えた基本モデルの構築を可能にします。しかし、自動運転における 4 次元時空に関する事前トレーニング研究はまだ比較的少数です。
自動運転システムの設計と実装では、さまざまな不確実性に直面し、対処する必要があります。不確実性は、主に 2 つのカテゴリに分類されます: 偶然的な不確実性と認識的な不確実性。偶然の不確実性は、歩行者の突然の動きや車両の予期せぬ動作など、世界に固有のランダム性から発生します。認識論的不確実性は、オクルージョンやセンサーの限界による情報の欠如など、環境に関する不完全な知識から生じます。これらの不確実性に効果的に対処するために、自動運転システムは過去の経験を利用して起こり得る将来の状態を予測し、目に見えない領域について推論できなければなりません。この研究では、事前トレーニングされた 4 次元の時空間モデルを通じてこの課題に対処し、認識、予測、計画タスクにおける自動運転システムのパフォーマンスを向上させることを目的としています。
2. 方法
自動運転サラウンドカメラシステムによって観察された一連の T ビデオフレーム o1:T と、それらに対応する専門家の行動 a1:T および 3 次元占有グリッド ラベル y1:T について、ここで、3 次元占有ラスター ラベルは、3D LiDAR 点群と姿勢データを使用して取得できます。私たちは、過去のマルチビュー画像とアクションから現在および将来の 3D 占有グリッドを予測する世界モデルからコンパクトな BEV 表現を学習することを目指しています。
2.1 時系列確率モデル
モデルに 4 次元の空間と時間をモデル化する機能を与えるために、最初に 2 つの潜在的な変数 (h1:T、s1:T) を導入します。ここで、ht はタイム ステップ t、st におけるすべての履歴情報を含む履歴情報変数は、将来の状態を予測するモデルの鍵となるランダムな状態変数を表します。 ht は履歴情報 h1:t−1 とランダム状態 s1:t−1 を通じて更新されます。将来の状態を予測するために、リカレント状態空間モデル (RSSM) に従い、事後状態分布 q(st∣o≤t,a BEV 特徴の次元が高いことを考慮して、それを 1 次元ベクトル xt に変換し、(ht,at−1,xt) からガウス分布をサンプリングして事後状態分布を生成します: 観察された画像がない場合、モデルは履歴情報と予測されたアクションに基づいて以前の状態分布を導出します: 2.1.1 動的メッセージング 自動運転のシーン理解では、将来の状態を正確に予測するために、物体の動きを考慮することが重要です。この動的情報を捕捉するために、動的情報の伝播中に運動知覚を実現するための運動パラメータを導入することによって物体の運動をモデル化することを提案します。モーション認識レイヤー正規化 (MLN) を導入します。動きの属性には、速度 v と相対時間間隔 Δt が含まれます。 (v,Δt) は平坦化され、2 つの線形層 (ξ1,ξ2) を介してアフィン ベクトル γ と β に変換されます: γ=ξ1(v,Δt),β=ξ2(v,Δt)。 次に、アフィン変換が実行されて、st=γ⋅LN(st)+β として表される、運動知覚の基礎となる確率的状態が取得されます。車両が移動すると、決定論的な履歴状態 ht によって動的メモリ ライブラリ h1:t が構築されます。ダイナミック メモリ バンクを使用してクロスアテンション メカニズムの計算を実行することにより、決定論的な履歴状態 ht を取得できます。 2.1.2 空間情報伝達 自動運転のシーン理解では、動的変化情報に加えて、空間構造情報も同様に重要です。連続したシーン フレームには通常、わずかな変更しか含まれておらず、シーンの主要なコンテンツは多くの場合、道路、樹木、交通標識などの静的なオブジェクトで構成されているため、この情報を処理するときに、入力画像を直接変換することができます。これにより、重要な空間構造情報が失われます。 1 ~ T フレームからフレーム o' をランダムに選択し、その BEV 特徴 b' を使用して、空間知覚構造を記述する潜在静的表現 b^=zθ(b') を構築します。空間を意識した静的表現 b^ と動的に変化する動き表現 st を組み合わせて、周囲のシーンの包括的な表現を取得します。 2.2 事前トレーニング補助タスク 自動運転には、周囲環境を包括的に理解することが不可欠です。私たちは、車両の周囲の環境を記述するために、物理世界を 3 次元の占有グリッド構造としてモデル化することを提案します。 3 次元占有グリッド デコーダは y^t=lθ(mθ(h~t,st),b^) に設定されます。ここで、mθ は 1 次元特徴を BEV 次元に拡張するネットワークであり、lθ は次のように使用されます。占有グリッド 3D 畳み込みネットワークを予測します。この 4 次元占有グリッドの事前トレーニングでは、シーンの静的な構造を捉えるだけでなく、時間の経過に伴うシーンの動的な変化も理解できるため、自動運転システムにとってより豊かで動的な環境の理解を実現できます。 2.3 タスクプロンプトメカニズム 4 次元の時空間表現はワールドモデルによって設計された事前トレーニングタスクを通じて学習できますが、異なる下流タスクは異なる情報に焦点を当てます。この問題を軽減するために、数ショットの画像認識のためのセマンティック キューと、マルチタスク学習における視覚的な例に基づいたキューにヒントを得て、さまざまなタスクに特定のキューを提供し、タスク関連の抽出をガイドする「タスク ヒント」メカニズムが導入されました。特徴。異なるタスク間には意味的な相関関係があるため、大規模言語モデル gφ(⋅) (例: BERT、CLIP) を利用してこれらのタスク ヒントを構築します。たとえば、3 次元占有グリッド再構成タスクのタスク プロンプトは、現在のシーンにより重点を置き、「タスクは現在のシーンの 3 次元占有グリッドを予測することです」に設定されています。プロンプト ptext を gφ(⋅) に入力して、プロンプト エンコーディング gφ(ptext) を取得します。次に、qφ(gφ(ptext)) で示される BEV の次元に拡張され、学習された時空間特徴と統合されます。 2.4 事前トレーニング目的関数 DriveWorld の事前トレーニング目標には、事後状態分布と事前状態分布の差 (つまり、カルバック ライブラー (KL) 発散) を最小限に抑えること、および過去と過去の状態分布の間の差を最小限に抑えることが含まれます。将来の 3 次元占有グリッド (すなわち、クロスエントロピー損失 (CE)) およびアクション (すなわち、L1 損失) に関連する損失。このモデルを採用して、T タイムステップの入力を観察し、将来の 3 次元占有グリッドとアクションの L ステップを予測します。 3. 実験 3.1 実験設定 自動運転データセットについて nuScenes と OpenScenes で事前トレーニングし、nuScenes で微調整しました。マルチフレーム LiDAR 点群集約を使用して、高密度の 3D 占有グリッド ラベルを取得します。 3.2 実験結果 結果の一部をここに示します。詳細な結果については、論文を参照してください。 4. まとめ DriveWorld は、ワールド モデルに基づく 4 次元時空の事前トレーニングを通じて、自動運転システムの周囲環境の理解と予測能力を向上させ、自動運転が直面する不確実性を軽減します。 DriveWorld は、時空間モデリングのためのメモリ状態空間モデルを提案しました。これには、タイミングを意識した表現を学習するための動的メモリ ストレージ モジュールと、空間を意識した表現を学習するための静的シーン伝播モジュールが含まれています。モデルの適応性と柔軟性をさらに向上させるために、DriveWorld はタスク プロンプト メカニズムも導入しています。これにより、モデルは現在のタスク要件に応じてその表現を適応的に調整できるため、さまざまな自動運転タスクで最高のパフォーマンスを実現できます。 参考 [1]Chen Min、他、3D シーン再構築によるマルチカメラ統合事前トレーニング[J]、IEEE Robotics and Automation Letters、2024。 [2]Chen Min、他。 Occupancy-mae: マスクされた占有オートエンコーダを使用した自己教師付き事前トレーニング大規模 LIDAR 点群 [J]。IEEE Transactions on Intelligent Vehicles、2023 年。 EVOL イノベーション チームの紹介 Zhao Jian、中国電信人工インテリジェント研究所のマルチメディア認知学習研究所 (EVOL Lab) のインテリジェンス ディレクターおよび若手科学者、ノースウェスタン工科大学オプトエレクトロニクスおよびインテリジェンス研究所の研究員および博士指導者。シンガポール国立大学を卒業し、博士号を取得しました。研究対象には、マルチメディア分析、ローカル セキュリティ、およびインテリジェントな実装が含まれます。 T-PAMI×2 (IF: 24.314) と IJCV×3 (IF: 13.369) を含む、合計 60 以上の CCF-A 論文が公開されています。最初の発明者は 5 つの国内発明特許を承認しました。関連する技術成果は、Baidu、Ant Financial、Qihoo 360 を含むテクノロジー業界の大手企業 6 社によって適用され、大きな利益をもたらしています。中国科学技術協会と北京科学技術協会の「若手人材育成プロジェクト」に選出され、国家自然青少年科学基金など6つのプロジェクトを主催した。 Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023)、Wu Wenjun Artificial Intelligence Natural Science Award の最優秀賞 (2022 年 2 月 5 日)、シンガポールパターン認識機械知能協会 (PREMIA) Lee Hwee Kuan Award、およびACM Multimedia Paper Award の唯一の最優秀学生(最初の作品、1/208、CCF-A カンファレンス、2018 年)は、重要な国際科学技術イベントで 7 回優勝しました。 北京画像グラフィック協会の理事、国際的に有名なジャーナル「Artificial Intelligence Advances」および「IET Computer Vision」の編集委員、「Pattern Recognition Letters」および「Electronics」の特別号のゲスト編集者を務めました。 」、VALSE シニアフィールドチェアマン、および ACM Multimedia 2021 スコアラー。フォーラム会長、CICAI 2022/2023 エリア会長、CCBR 2024 フォーラム会長、中国人工知能協会/中国画像グラフィックス協会の上級会員、「チャレンジ」の審査員「Cup」大学生科学技術作品コンテスト、中国人工知能コンテスト専門委員会委員など GitHub ホームページ: https://zhaoj9014.github.io 大学ホームページ: https://www.php.cn/link/2e36742b377be90ffbf553692153d9a1 Jin Lei 、北京郵電大学特別准教授研究者、主な研究分野には、コンピュータ ビジョン、データ マイニング、パターン認識が含まれ、人間の姿勢推定、人間の行動認識、人体分析、その他の分野に関する詳細な研究が行われており、関連する成果はハイレベルの会議や雑誌で発表されています。 CVPR、AAAI、NIPS、ACMMM として出版されており、合計 40 以上の SCI/EI インデックス付き論文があり、そのうち 11 件のハイレベル論文が含まれており、その中には中国学士院の JCR エリア 1 の筆頭著者として掲載された論文も含まれます。 of Sciences (IEEE Transactions on MultiMedia)、CCF-A カンファレンス CVPR、ACMMM 論文、中国科学院 JCR Area 2 (センサー)、IEEE Sensor Journal) 論文など。中国国家自然科学財団青年基金を主催し、2つの国家重点研究開発プロジェクトと4つの中国自然科学財団プロジェクトに参加した。私たちは、トップカンファレンスを利用して ICCV2021/CVPR2023 ワークショップ (Anti-UAV Workshop & Challenge) を何度も開催してきました。全国大学バイオインターネット技術および応用「3 つの革新」コンペティション (北京郵電大学が認定するカテゴリー A コンペティション) で学生が優勝するよう指導します。 Min Cheng、北京大学コンピューターサイエンス学部出身、中国科学院コンピューター技術研究所特別研究助手 彼の主な研究方向には、自動運転、身体化された知能、および 3 つの分野が含まれます。次元再構成に関する研究結果は、CVPR、ICCV、ICRA、RAL などのハイレベルの会議や学術誌に掲載されており、CCF-A 会議の筆頭著者としての CVPR、トップのロボット工学会議 ICRA、権威あるロボット工学雑誌 RAL などが含まれます。 。数多くの国家的重要研究開発プロジェクトに参加。
p(st ∣ht− 1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
ここで、 st は対角共分散を持つ正規分布としてパラメータ化され、初期分布は s1∽N(0,I) に設定されます。 (μϕ,σϕ) は、パラメーター化された事後状態分布を持つ多層パーセプトロンです。
p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1) ,σθ(ht,a^t−1)I),
ここで、(μθ,σθ) は事前状態分布をパラメータ化します。 ?? は、履歴情報 ht-1 とランダム状態 st-1 に基づいて、アクション a^t-1 を予測するために使用されるポリシー ネットワークです。
決定論的な歴史的状態は ht+1=fθ(ht,st) です。
以上がCVPR 2024 | 自動運転世界モデルの 4 次元時空事前トレーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。