L3は遅くとも来年上半期に発売される予定:理想的なエンドツーエンド自動運転と大幅に向上した性能

PHPz
リリース: 2024-08-07 04:35:32
オリジナル
545 人が閲覧しました

最近、生成 AI テクノロジーの台頭により、多くの新しい自動車製造勢力が視覚言語モデルと世界モデルの新しい方法を模索しており、エンドツーエンドのインテリジェント運転新技術が一般的な研究方向になっているようです。先月、Li Autoはエンドツーエンド+VLMビジュアル言語モデル+ワールドモデルの第3世代自動運転技術アーキテクチャをリリースした。このアーキテクチャは、インテリジェントな運転動作を体現し、AI の情報処理効率を向上させ、複雑な道路状況を理解して対応する能力を強化します。 Li Xiang 氏はかつて、ほとんどのアルゴリズムでは識別して処理することが難しい稀な運転環境に直面しても、VLM (Visual Language Model) によって自動運転の能力を系統的に向上させることができ、この方法は理論的には画期的な進歩であると公開共有で述べました。 。

L3は遅くとも来年上半期に発売される予定:理想的なエンドツーエンド自動運転と大幅に向上した性能

新世代の自動運転システムは、能力の上限を大幅に高め、これまで解決が困難だった多くの状況に AI が対処できるようにし、閾値も下げました - 技術研究開発の規模の必要性を削減します近い将来、より多くの人が運転できるようになると予想されており、将来的には大幅に向上したエクスペリエンスを得ることができます。
この一連の自動運転技術アーキテクチャは、ノーベル賞受賞者ダニエル・カーネマンの高速システム理論と低速システム理論に触発されています。自動運転の分野で人間の思考と意思決定のプロセスをシミュレートするには、「高速システム」と「低速システム」も必要です。 。その中には:
・ 高速システム (システム 1) は単純なタスクの処理に優れており、自動運転における経験と習慣に基づいて形成された人間の直感であり、知覚と計画を含むエンドツーエンドの大規模なモデルで構成されています。これは、車両を運転するときの問題の 95% を処理するのに十分です。
・ 遅いシステム (システム 2) は、人間が深い理解と学習を通じて形成する論理的推論、複雑な分析、および計算能力であり、自動運転システムでは主に VLM モデルが使用され、複雑な問題や未知の問題を解決するために使用されます。自動車運転時のトラブル 日常の運転シーンのうち交通シーンは約5%を占めます。
先週、Li Auto の北京 R&D 本社で開催されたイベントで、Li Auto のインテリジェント運転担当副社長、Lang Xianpeng 氏は、Li Auto のインテリジェント運転がエンドツーエンド + 大型モデルのソリューションに完全に統合され、車両が複雑な道路状況や交通ルールを理解する。
「エンドツーエンドモデルと従来の知覚意思決定モデルの両方で、トレーニングに大量のデータが必要です。潜在的な問題の 1 つは、目に見えないシーンに遭遇するとシステムがうまく機能しないことです」と Lang Xianpeng 氏は述べています。 「私たちは車両が人間と同じように考え、決定できる能力を研究しています。」

L3は遅くとも来年上半期に発売される予定:理想的なエンドツーエンド自動運転と大幅に向上した性能

リーオート北京本社。

昨年後半から、アイデアルは戦略を調整し、軌道を変更し始めました。今年 2 月、清華大学相互情報研究所とリー オートが提出した DriveVLM 論文では、研究者らは生成 AI の分野で最近登場した視覚言語モデル (VLM) を適用し、視覚的な理解と推論における並外れた能力を実証しました。 。

業界では、これは自動運転速度システムを提案する最初の作業であり、その方法は、主流の自動運転パイプラインと論理的思考を備えた大規模モデルパイプラインを完全に組み合わせ、最終テストの大規模モデル作業を完了した最初の作業です。展開 (NVIDIA Orin プラットフォームに基づく)。

L3は遅くとも来年上半期に発売される予定:理想的なエンドツーエンド自動運転と大幅に向上した性能

DriveVLM システム

DriveVLM は、3 つの主要モジュールを備えた Chain-of-Though (CoT) プロセスで構成されています:

  1. シナリオの説明: 言語を使用して運転環境を説明し、主要なオブジェクトを特定します。
  2. シナリオ分析: 主要なオブジェクトの特徴と、それらが自我という乗り物に与える影響を詳しく掘り下げます。
  3. 階層型計画: メタアクションと意思決定の説明からウェイポイントまでの段階的な計画開発。

これらのモジュールは、従来の自動運転システムのプロセスにおける認識、予測、計画のコンポーネントに対応します。違いは、物体認識、意図レベルの予測、およびタスクレベルの計画を処理する能力にあります。これらは、自動運転システムでは非常に困難でした。過去。

技術検証

理想的な検証テクノロジーは、ロングテールシナリオで効果的です:

  • 実際の環境データを分解する
  • 生成モデルを使用して新しい視点を補完する
  • 天気、時間、交通の流れ、その他の条件の変更をカスタマイズする

実際のアプリケーション

Li AutoのエンドツーエンドモデルとVLMモデルはリアルタイムで実行されます:

  • エンドツーエンドモデル: より高いフレームレート
  • VLMモデル: より多くのパラメータ、より低いフレームレート

複雑な都市のシナリオでは、VLM は意思決定が不可能な状況で役割を果たし、意思決定の結果と軌跡をエンドツーエンドのモデルに提供します。

エンドツーエンドのアプローチ

エンドツーエンドのアプローチは技術的な分水嶺となり、AI の本格的な使用の始まりを示しています。

新世代AIモデル

新世代AIモデルは、質問作成者として機能します:

  • 自家用車ドライバーの基準を満たすユーザーのデータを「本当の質問」として選択します
  • 世界と組み合わせる「シミュレーションの質問」を生成するモデル

コンピューティングパワーチャレンジ

차량 측면에 VLM과 같은 모델을 배포하면 컴퓨팅 성능 문제에 직면하게 됩니다.

  • 최적의 매개변수 수 유지
  • 엔지니어링 최적화로 의사결정 지연 시간 개선

경쟁 전망

Tesla FSD는 곧 국내 지능형 운전 분야 진출 새로운 경쟁 무대 진입 :

  • 이상차 목표 : End to End + VLM 자율주행 양산 납품

以上がL3は遅くとも来年上半期に発売される予定:理想的なエンドツーエンド自動運転と大幅に向上した性能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート