最近、生成 AI テクノロジーの台頭により、多くの新しい自動車製造勢力が視覚言語モデルと世界モデルの新しい方法を模索しており、エンドツーエンドのインテリジェント運転新技術が一般的な研究方向になっているようです。先月、Li Autoはエンドツーエンド+VLMビジュアル言語モデル+ワールドモデルの第3世代自動運転技術アーキテクチャをリリースした。このアーキテクチャは、インテリジェントな運転動作を体現し、AI の情報処理効率を向上させ、複雑な道路状況を理解して対応する能力を強化します。 Li Xiang 氏はかつて、ほとんどのアルゴリズムでは識別して処理することが難しい稀な運転環境に直面しても、VLM (Visual Language Model) によって自動運転の能力を系統的に向上させることができ、この方法は理論的には画期的な進歩であると公開共有で述べました。 。
新世代の自動運転システムは、能力の上限を大幅に高め、これまで解決が困難だった多くの状況に AI が対処できるようにし、閾値も下げました - 技術研究開発の規模の必要性を削減します近い将来、より多くの人が運転できるようになると予想されており、将来的には大幅に向上したエクスペリエンスを得ることができます。昨年後半から、アイデアルは戦略を調整し、軌道を変更し始めました。今年 2 月、清華大学相互情報研究所とリー オートが提出した DriveVLM 論文では、研究者らは生成 AI の分野で最近登場した視覚言語モデル (VLM) を適用し、視覚的な理解と推論における並外れた能力を実証しました。 。
業界では、これは自動運転速度システムを提案する最初の作業であり、その方法は、主流の自動運転パイプラインと論理的思考を備えた大規模モデルパイプラインを完全に組み合わせ、最終テストの大規模モデル作業を完了した最初の作業です。展開 (NVIDIA Orin プラットフォームに基づく)。
DriveVLM システムDriveVLM は、3 つの主要モジュールを備えた Chain-of-Though (CoT) プロセスで構成されています:
これらのモジュールは、従来の自動運転システムのプロセスにおける認識、予測、計画のコンポーネントに対応します。違いは、物体認識、意図レベルの予測、およびタスクレベルの計画を処理する能力にあります。これらは、自動運転システムでは非常に困難でした。過去。
技術検証
理想的な検証テクノロジーは、ロングテールシナリオで効果的です:
実際のアプリケーション
Li AutoのエンドツーエンドモデルとVLMモデルはリアルタイムで実行されます:
複雑な都市のシナリオでは、VLM は意思決定が不可能な状況で役割を果たし、意思決定の結果と軌跡をエンドツーエンドのモデルに提供します。
エンドツーエンドのアプローチ
エンドツーエンドのアプローチは技術的な分水嶺となり、AI の本格的な使用の始まりを示しています。
新世代AIモデル
新世代AIモデルは、質問作成者として機能します:
コンピューティングパワーチャレンジ
차량 측면에 VLM과 같은 모델을 배포하면 컴퓨팅 성능 문제에 직면하게 됩니다.
경쟁 전망
Tesla FSD는 곧 국내 지능형 운전 분야 진출 새로운 경쟁 무대 진입 :
以上がL3は遅くとも来年上半期に発売される予定:理想的なエンドツーエンド自動運転と大幅に向上した性能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。