Tesla V12 が北米で広く普及しており、その優れたパフォーマンスによりユーザーの認知度がますます高まっていることを誰もが理解できるわけではありませんが、エンドツーエンドの自動運転は誰もが最も懸念している技術的方向でもあります。自動運転産業。最近、さまざまな業界の一流のエンジニア、プロダクトマネージャー、投資家、メディア関係者と交流する機会があり、誰もがエンドツーエンドの自動運転に非常に興味を持っていることがわかりました。エンドツーエンドの自動運転に対する基本的な理解については、この種の誤解が依然として存在します。国内一流ブランドの写真ありとなしの都市機能、および FSD V11 と V12 の 2 つのバージョンを経験する幸運に恵まれた者として、ここでは私の考えに基づいて現在の開発についていくつかお話したいと思います。この段階では、全員がエンドツーエンドの自動運転に関するよくある誤解について話し合い、これらの問題について私なりの解釈を述べました。
センサー入力から計画、その後の制御信号出力までのすべてのステップはエンドツーエンドで導出可能であるため、モデルのトレーニング中に、勾配降下トレーニングや勾配逆伝播を通じてシステム全体を大規模なモデルとしてトレーニングできます。入力から出力までモデルのあらゆる側面で更新および最適化されるため、システム全体の運転挙動は、ユーザーが直接知覚する運転決定軌道に合わせて最適化できます。最近、エンドツーエンドの自動運転を推進する際に、エンドツーエンドのセンシングやエンドツーエンドの意思決定を行っていると主張する友人もいます。実際、これらは両方ともエンドツーエンドとして数えることはできないと思います。これは、純粋なデータ駆動型の認識および純粋なデータ駆動型の意思決定計画と呼ばれるものであり、エンドツーエンドの自動運転とのみ見なされます。
エンドツーエンド計画とも呼ばれる、セキュリティ チェックサム軌道最適化のための従来の方法のハイブリッド戦略と組み合わせた特定のモデルに基づいて意思決定を行う人もいます。さらに、Tesla V12 は純粋に正確なモデル出力制御信号ではなく、いくつかのルール手法を組み合わせたハイブリッド戦略であると信じている人もいます。 http://X.com の有名な Green 氏によると、彼は少し前に、ルールのコードがまだ V12 テクノロジー スタックに存在するというツイートを投稿しました。これについての私の理解は、Green によって発見されたコードは、V12 高速テクノロジー スタックによって保持されている V11 バージョン コードである可能性が高いということです。なぜなら、現在 V12 は実際には元の都市テクノロジー スタックをエンドツーエンドで置き換えるだけであることがわかっているからです。高速では依然として V11 ソリューションが使用されるため、解明されたコード内で通常のコードの一部が見つかっても、V12 が「エンドツーエンド」で間違っていることを意味するわけではありませんが、見つかったコードは高速である可能性があります。コード。実際、2022 年の AI+Day からは、V11 とそれ以前のバージョンがすでにハイブリッド ソリューションであることがわかります。したがって、V12 がすぐに完成したモデルでない場合、ソリューションは以前のバージョンとそれほど変わりません。このように、V12 のパフォーマンスが飛躍的に向上する合理的な説明はありません。テスラのこれまでの計画については、AI+Day での EatElephant の私の解釈を参照してください: Tesla AI Day 2022 -- 世界の言葉の解釈: 彼は自動運転春祭りを分散型 R&D チームと呼び、 AIテクノロジー企業。
2022 AI Day から判断すると、V11 はすでに NN Planner と混合された計画ソリューションです
一般に、認識の後処理コードであっても、ルール候補の軌道スコアリングであっても、あるいは安全ポケット戦略であっても、ルールが確立されれば、コードが導入され、if else 分岐があると、システム全体の安定した伝送が切り詰められ、トレーニングを通じて全体的な最適化を実現するというエンドツーエンド システムの最大の利点も失われます。
もう一つのよくある誤解は、エンドツーエンドとは、これまで蓄積してきた技術を覆し、徹底的に新しい技術革新を行うことであり、テスラがエンドツーエンドの自動運転システムのユーザープッシュを達成したばかりなので、そう思っている人が多いということです。他のメーカーはそれを実装することができません。認識、予測、計画の元のモジュール技術スタックを反復する必要はなく、代わりにエンドツーエンドのシステムに直接入力できます。後発企業の利点から、テスラにすぐに追いつき、さらには追い越すこともできます。確かに、大規模なモデルを使用してセンサー入力から制御信号の計画までのマッピングを完了するのが最も徹底したエンドツーエンドのアプローチです。たとえば、Nvidia の DAVE-2 や Wayve も同様の方法を長い間試してきました。同様の方法を使用しました。この徹底的なエンドツーエンド技術は実際にはブラックボックスに近く、画像や点群などのセンサー入力信号は非常に高次元の入力空間であるため、デバッグや反復的な最適化が困難です。ハンドル角やスロットル制御などの可動ペダルは比較的低次元の出力空間であり、実車試験には全く使用できません。
徹底的なエンドツーエンド システムは、モデルの収束とデバッグを支援するために、セマンティック セグメンテーションや深度推定などのいくつかの一般的な補助タスクも使用します
つまり、私たちが実際に見た FSD V12 は、以前の視覚化コンテンツのほぼすべてを保持しており、これは、FSD V12 が元の強力な知覚基盤に基づいてエンドツーエンドでトレーニングされていること、および 2020 年 10 月から始まる FSD の反復が放棄されていないことを示しています。 、V12 の強固な技術基盤となっています。 Andrej Karparthy 氏は以前にも同様の質問に答えていますが、V12 の開発には関与していませんでしたが、これまでの技術の蓄積はすべて放棄されたわけではなく、表舞台から舞台裏に移されただけだと考えています。したがって、ルールコードの一部を段階的に削除することで、独自の技術に基づいてエンドツーエンドのナビゲーションが徐々に実現されます。
V12 は、FSD のほぼすべての認識を保持し、コーン バレルなどの限られたビジュアル コンテンツのみをキャンセルします
UniAD が 2023 CVPR Best Paper となったことは、間違いなく、エンドツーエンドの自動運転システムに対する学術コミュニティの高い期待を表しています。テスラが 2021 年に革新的な BEV 視覚認識技術を導入して以来、国内の学術コミュニティは自動運転 BEV 認識に多大な熱意を注ぎ、BEV 手法の性能最適化と実装展開を促進する一連の研究が生まれました。では、エンドツーエンドも、学術界が主導し、産業界が後追いするという同様のルートをたどって、製品へのエンドツーエンドテクノロジーの迅速な反復実装を促進できるでしょうか?比較的難しいと思います。まず第一に、BEV センシングは依然として比較的モジュール化されたテクノロジーであり、よりアルゴリズム レベルであり、エントリー レベルのパフォーマンスにはそれほど大量のデータは必要ありません。高品質の学術オープンソース データ セット Nuscenes のリリースは、BEV センシングに便利な前駆体を提供します。多くの BEV 研究の状況では、Nuscenes で反復された BEV センシング ソリューションは製品レベルの性能要件を満たすことはできませんが、概念実証とモデル選択として非常に参考になります。しかし、学術界には、利用可能な大規模なエンドツーエンドのデータが不足しています。現在、Nuplan の最大のデータセットには 4 都市での 1,200 時間分の実際の車両収集データが含まれていますが、2023 年の財務報告会議でマスク氏は、エンドツーエンドの自動運転について「100 万件のビデオ ケースがトレーニングされており、ほとんど機能しません。」 ; 200 万では少し良くなります; 300 万では「すごい」と感じるでしょう; 1,000 万に達すると、そのパフォーマンスは信じられないほどになります。 Tesla の Autopilot リターン データは一般に 1 分のセグメントであると考えられているため、エントリーレベルの 100 万ビデオのケースは約 16,000 時間であり、これは最大の学術データセットよりも少なくとも 1 桁多いことに注意する必要があります。 nuplan は継続的にデータを収集するため、データの分布と多様性に致命的な欠陥があり、データの大部分は単純なシーンであり、nuplan のような学術的なデータセットを使用しても、かろうじて取得できるバージョンさえ取得できません。電車。
Nuplan データセットはすでに非常に大規模な学術データセットですが、エンドツーエンドのソリューションとしての探索だけでは十分ではない可能性があります
そのため、エンドツーエンドの自律型データセットの大部分が見られます。 UniAD を含む運転 どのソリューションも実際の車両で実行できず、次善の選択肢として開ループ評価に頼るしかありません。開ループ評価指標の信頼性は非常に低く、開ループ評価ではモデルの混乱や因果関係の問題を特定できないため、モデルが履歴パス外挿の使用のみを学習した場合でも、非常に良好な開ループを得ることができます。 2023 年に、Baidu はオープンループ計画評価指標の欠点について議論する AD-MLP (https://arxiv.org/pdf/2305.10430) という論文を発表しました。論文は過去の情報のみを使用し、認識を導入せずに、現在の SOTA の研究に近い非常に優れた開ループ評価指標を取得しました。しかし、誰も目を閉じて車をうまく運転できないことは明らかです。
AD MLP は、感覚入力に依存しないことで優れた開ループ指標を実現します。これは、開ループ指標を基準として使用することは実用上ほとんど意味がないことを示しています
それでは、閉ループポリシー検証は次の問題を解決できるでしょうか?オープンループの模倣学習?少なくとも現時点では、学術コミュニティは一般的にエンドツーエンドの研究開発のためにCARLA閉ループシミュレーションシステムに依存していますが、ゲームエンジンに基づいてCARLAによって取得されたモデルも現実世界に転送するのが困難です。
結局のところ、エンドツーエンドは単なる新しいアルゴリズムではありません。モジュール式自動運転システムのさまざまなモジュールのモデルは、それぞれのタスクのデータを使用して個別に反復的にトレーニングできますが、エンドツーエンド システムの各機能は同時にトレーニングされるため、トレーニング データが必要になります。非常に一貫性があり、各データは正確でなければなりません。タスクのラベル付けが失敗すると、そのデータをエンドツーエンドのトレーニング タスクで使用することが困難になります。自動ラベル付けパイプラインの速度とパフォーマンス。第 2 に、エンドツーエンド システムでは、エンドツーエンドの意思決定計画出力タスクでより良い結果を達成するために、すべてのモジュールが高いパフォーマンス レベルに達する必要があります。したがって、一般に、エンドツーエンドのデータしきい値は、エンドシステムの要求は個々のモジュールのデータよりもはるかに高く、データのしきい値は絶対量の要件だけでなく、データの分布と多様性も完全に制御できないことを意味します。エンドツーエンドのシステムを開発する場合、さまざまなモデルの顧客を持つ複数のサプライヤーに適応する必要があります。計算能力の限界について、マスク氏は今年 3 月初旬に X.com で、FSD の最大の制限要因は計算能力であると述べ、最近、ほぼ同時に、ボス・マー氏も計算能力の問題が大幅に改善されたと述べました。 , 2024年第1四半期の財務報告会議で、テスラは現在35,000のH100コンピューティングリソースを保有していることを明らかにし、この数が2024年末までに85,000に達することを明らかにしました。 Tesla が非常に強力なコンピューティング パワー エンジニアリング最適化機能を備えていることは疑いの余地がありません。つまり、FSD V12 の現在のレベルに到達するには、35,000 H100 と数十億ドルのインフラ設備投資が必要な前提条件となる可能性が高くなります。テスラほど効率的ではない場合、このしきい値はさらに引き上げられる可能性があります。
3月初旬、マスク氏は、FSDの反復における主な制限要因はコンピューティングパワーであると述べた
4月初旬、マスク氏は、テスラの今年のコンピューティングパワーへの総投資額は100億米ドルを超えるだろうと述べた
http://X.com にもあります。あるネチズンは、今年の会議で Nvidia 自動車業界幹部の Norm Marks のスクリーンショットを共有しました。そこから、2023 年末までに Nvidia が所有する NV グラフィックス カードの数が増加することがわかります。ヒストグラムでは Tesla が完全に圧倒しています (左の図の右端にある緑色の矢印。中央のテキストでは、この No.1 OEM が所有する NV グラフィックス カードの数が 7,000 DGX ノードを超えていることが説明されています。この OEM は明らかに Tesla です。各ノードは 8 枚のカードとして計算され、23 年末までに、Tesla はおそらく 56,000 枚以上の A100 グラフィックス カードを搭載することになるでしょう。これは、2 位の OEM の 4 倍以上になります。 2024 年に 35,000 枚の新しい H100 カードが購入される)、中国製グラフィックス カードの輸出に対する米国の制限政策と相まって、このコンピューティング能力に追いつくことはさらに困難になります。
Norm Marks が社内でスクリーンショットを共有しました。出典: 、問題をできるだけ早く検出し、データ駆動型の方法で解決し、ルール コードを使用できない場合に迅速に反復する方法は、現在、ほとんどの自律型システムにとって未知の課題です。研究開発チームを推進します。
最後のエンドツーエンドは、現在の自動運転研究開発チームにとって依然として組織変更です。L4 自動運転以降、ほとんどの自動運転チームの組織構造はモジュール化されており、認識グループ、予測グループ、位置決めグループ、計画制御グループ、さらには知覚グループが視覚知覚、レーザー知覚などに分かれています。エンドツーエンドの技術アーキテクチャでは、異なるモジュール間のインターフェイスの障壁が直接取り除かれるため、エンドツーエンドの研究開発チームは新しいテクノロジー パラダイムに適応するためにすべての人的資源を統合する必要があり、これは柔軟性のないチーム組織にとって大きな課題となります。文化。
以上が2024 年に、中国ではエンドツーエンドの自動運転に大きな進歩と進歩が見られるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。