テスラの自動運転技術ソリューションの詳細な分析-AI-php.cn

01 認識: リアルタイム 4D 自動運転シーンの構築" >01 認識: リアルタイム 4D 自動運転シーンの構築

1. Tesla カメラのレイアウト" >1. Tesla カメラのレイアウト

2. テスラ画像データの前処理" >2. テスラ画像データの前処理

7.占有ネットワーク: BEV は 2D から 3D へ" >7.占有ネットワーク: BEV は 2D から 3D へ

9. オブジェクトの知覚: 他の交通参加者の知覚と予測 " >9. オブジェクトの知覚: 他の交通参加者の知覚と予測

2. 従来の最適化手法: [ジョイント複数オブジェクト軌道計画]: 複数オブジェクト MPC" >2. 従来の最適化手法: [ジョイント複数オブジェクト軌道計画]: 複数オブジェクト MPC

ホームページ

テクノロジー周辺機器

テスラの自動運転技術ソリューションの詳細な分析

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 17, 2023 am 08:55 AM

オートパイロットテスラ

01 認識: リアルタイム 4D 自動運転シーンの構築

1. Tesla カメラのレイアウト

テスラの自動運転技術ソリューションの詳細な分析

テスラのカメラの視野は車体の周囲 360 度をカバーでき、前方には 120 度の魚眼レンズと望遠レンズがあり、観察を強化します。

2. テスラ画像データの前処理

テスラの自動運転技術ソリューションの詳細な分析

テスラは 36Hz 1280*960-12 ビットのオリジナル画像データを使用しますこれには、8 ビット ISP 後処理データのみと比較して 4 ビット多くの情報が含まれており、動的方向性は 16 倍に拡張されています。 Tesla がこれに対処する理由は 2 つあります:

1) ISP が自動フォーカス (AF)、自動露出 (AE)、自動ホワイトバランス (AWB)、デッドピクセル補正 (DNS) を実行します。、ハイダイナミックレンジイメージング（HDR）、色補正（CCM）など、これらは人間の目の視覚化のニーズを満たしますが、必ずしも自動運転のニーズを満たしているわけではありません。ルールベース ISP と比較して、ニューラルネットワークはより強力な処理能力を備えており、ISP によるデータ損失を回避しながら、画像の元の情報をより有効に活用できます。

2) ISP の存在はデータの高速伝送に役立たず、画像のフレームレートに影響を与えます。ネットワーク操作では元の信号を処理する方がはるかに高速です。

この方法は、従来の ISP のような専門知識をバイパスし、バックエンドの要求からネットワークを直接駆動して、より強力な ISP 機能を学習させます。これにより、暗い場所や低環境下でシステムを強化できます。人間の目の認識を超えた視界条件。この原則に基づいて、ネットワークフィッティングに LIDAR とレーダーの生データを使用する方が良い方法となるはずです。

##3.バックボーンネットワーク: ネットワーク設計スペースの設計

テスラの自動運転技術ソリューションの詳細な分析

##RegNet

Tesla は、ResNet よりも高い抽象レベルを持つ RegNet を使用し、NAS 検索設計空間 (畳み込み、プーリング、その他のモジュール: 接続の組み合わせ /トレーニング評価/最適の選択) を解決します。新しいモジュールを作成するために、新しい設計空間パラダイムを作成し、新しい「ResNet」に適応するためのより多くのシナリオを探索できるため、ニューラルネットワークアーキテクチャを特別に調査および設計する必要がなくなります。もっと良いBackBoneが出てきたらこの部分は交換可能です。

4. ネックワーク : EfficientDet: スケーラブルで効率的なオブジェクト検出

テスラの自動運転技術ソリューションの詳細な分析

#BiFPN

テスラの自動運転技術ソリューションの詳細な分析

FPN->BiFPN

#5.BEV 融合 : FSD知覚の空間理解能力

テスラの自動運転技術ソリューションの詳細な分析

2D知覚

BEV が登場する前、自動運転知覚の主流のソリューションはすべてカメラの 2D 画像空間に基づいていましたが、知覚の下流アプリケーションである意思決定や経路計画はすべてシステム内で実行されます。車両が位置する 2D BEV 空間規制と制御の間の認識と障壁が FSD の発展を妨げます。この障壁を取り除くためには、2D画像空間から2D自車基準系空間、すなわちBEV空間に知覚を再配置する必要がある。

従来の技術に基づく:

地面が平坦であり、 use Camera-auto 車両外部参照は、2D 画像空間を BEV 鳥瞰図空間である 2D 自車両空間に変換します。ここには明らかな欠陥があります。道路で上り下りがある場合、平面の仮定はもはや当てはまりません。

テスラの自動運転技術ソリューションの詳細な分析

マルチカメラエッジステッチの問題

視野角によるには制限があるため、IPM を使用して 2D 画像空間を 2D BEV 空間に変換する場合でも、複数のカメラ画像の BEV 空間スプライシングを解決する必要があります。これには実際には、高精度のマルチカメラキャリブレーションアルゴリズムとオンラインリアルタイム補正アルゴリズムが必要です。要約すると、達成する必要があるのは、キャリブレーションと非平面仮定によって生じる変換の重複問題を解決しながら、マルチカメラ 2D 画像空間の特徴を BEV 空間にマッピングすることです。

Tesla の Transformer に基づく BEV レイヤーの実装:

テスラの自動運転技術ソリューションの詳細な分析

BEV_FUSION

まず、各カメラは CNN バックボーンネットワークと BiFPN を通じてマルチスケールフィーチャレイヤーを抽出します。一方で、マルチスケールフィーチャレイヤーは、一方、グローバルプーリング操作は、マルチスケールの特徴マップに対して実行され、グローバル記述ベクトル (つまり、図のコンテキストサマリ) を取得し、同時にターゲット出力 BEV 空間がラスタライズされます。、その後、各 BEV ラスターは位置コード化され、これらの位置コードはグローバル記述ベクトルと連結 (Concatenate) され、その後、MLP 層の層を使用して、Transformer に必要なクエリが取得されます。

クロスアテンション操作では、クエリのスケールによって最後の BEV レイヤー後の出力スケール (つまり、BEV グリッドのスケール) が決まり、キーと値はTransformer の原理に従って、Query と Key を使用して 2D 画像平面のピクセルを受け取る各 BEV ラスターの影響重みを確立し、それによって BEV と入力画像の間の関連付けを確立します。これらの重みを使用して、画像平面下の特徴によって得られた特徴に重み付けを行い、最終的に BEV 座標系での特徴マップを取得し、BEV 座標変換層の使命を完了します。その後、BEV での特徴マップに基づいて、成熟したセンシング機能ヘッドを使用して、BEV 空間で直接センシングできます。 BEV 空間での知覚結果は意思決定計画の座標系と統合されるため、知覚とその後のモジュールは BEV 変換を通じて密接にリンクされます。

テスラの自動運転技術ソリューションの詳細な分析

##キャリブレーション

この方法を通じて、実際には、カメラと地面の形状の変化は、トレーニングプロセス中にニューラルネットワークモデルによってパラメーターに組み込まれます。ここでの問題の 1 つは、同じモデルパラメーターのセットを使用するさまざまな車のカメラの外部パラメーターにわずかな違いがあることです。Karparthy 氏は、テスラが AI デーに外部パラメーターの違いに対処するための方法を追加しました。収集された画像は、歪みの除去、回転、歪みの復元を通じて、仮想標準カメラ配置位置の同じセットに均一に変換されるため、異なる車両カメラの外部パラメータのわずかな違いが排除されます。

テスラの自動運転技術ソリューションの詳細な分析

BEV の手法は、非常に効果的なマルチカメラフュージョンフレームワークです。BEV のソリューションにより、元々は正確に関連付けることが困難であった、複数のカメラにまたがる近接した大きなターゲットのサイズ推定と追跡がはるかに簡単になりました。同時に、このソリューションにより、アルゴリズムが 1 つまたは複数のカメラの短期的な遮蔽や損失に対してより堅牢になります。つまり、BEV は複数のカメラの画像融合と結合の問題を解決し、堅牢性を高めます。

テスラの自動運転技術ソリューションの詳細な分析

#マルチカメラの車線ラインと境界融合を解決する

テスラの自動運転技術ソリューションの詳細な分析

障害物がより安定する

#(PPT の観点から見ると、テスラの初期計画は主な A 前進となるはずです)カメラは知覚と車線の予測に使用されます。)

6.ビデオニューラルネットアーキテクチャ: 時空間シーケンス特徴の構築

テスラの自動運転技術ソリューションの詳細な分析

BEV の使用により、複数のカメラによって分散された 2D 画像空間から 2D BEV 空間への知覚が向上しますが、自動運転の実際の環境は 4D です。空間の問題では、たとえ高度が考慮されていないとしても、唯一欠けている次元は時間です。 Tesla は、画像の代わりに時間情報を含むビデオクリップを使用してニューラルネットワークをトレーニングし、知覚モデルに短期記憶機能を持たせます。この機能を実現する方法は、時間次元と空間次元の特徴キューをニューラルネットワークに導入することです。モデル。。ルール: 27 ミリ秒のプッシュキューごと、または 1 メートルの移動ごとに、モーション情報とともにビデオシーケンスにキャッシュされます。

テスラの自動運転技術ソリューションの詳細な分析

タイミング情報を融合する方法に関して、テスラは 3D コンボリューション、Transformer、RNN という 3 つの主流ソリューションを試しました。これら 3 つの方法はすべて、自車の運動情報と単一フレームの認識を組み合わせる必要があります。カーパルシー氏は、自車の運動情報には速度と加速度を含む 4 次元情報のみが使用されます。この運動情報は IMU から取得でき、その後、 BEV 空間と結合されます。特徴マップ (20x80x256) と位置エンコーディングが結合 (連結) されて、20x80x300x12 次元の特徴ベクトルキューが形成されます。ここでの 3 次元は、256 次元の視覚特徴、4 次元の運動学的特徴 (vx、vy) で構成されます、ax、ay) と 40 次元の位置エンコーディング (位置エンコーディング) であるため、300 = 256 4 40、最後の次元はダウンサンプリング後の 12 フレームの時間/空間次元になります。

テスラの自動運転技術ソリューションの詳細な分析

3D Conv、Transformer、および RNN はすべてシーケンス情報を処理できます。3 つのそれぞれには、さまざまなタスクにおいて独自の長所と短所がありますが、ほとんどの場合、ソリューションが使用されますか? 実際には、大きな違いはありませんが、AI デーでは、Karpartthy は、Spatial RNN と呼ばれる、シンプルで効果的で、非常に興味深く解釈可能なソリューションも共有しました。上記の 3 つの方法とは異なり、空間 RNN は元々 RNN がシーケンス情報をシリアルに処理し、フレーム間の順序が保持されるため、BEV の視覚特徴を位置エンコーディングなしで直接 RNN ネットワークに入力できます。情報には、20x80x256 の BEV 視覚特徴マップと 1x1x4 の自車運動情報のみが含まれます。

テスラの自動運転技術ソリューションの詳細な分析

CNN の空間特徴は、画像平面上の幅と高さの次元の特徴を指すことがよくあります。ここで、空間 RNN の空間とは、同様の特徴を指します。ある瞬間におけるBEV座標は、基準を基準としたローカル座標系の２次元である。ここでは、LSTM の RNN 層を説明に使用します。LSTM の利点は、その強力な解釈可能性です。例として理解するのが適切です。

LSTM の特徴は、Hidden State が以前の N 瞬間の状態のエンコーディング (つまり、短期記憶) を可変長で保持でき、現在の瞬間がその状態のどの部分であるかを決定できることです。メモリ状態は入力と隠し状態を通じて必要とされ、使用されるか、どの部分を忘れる必要があるかなど。 Spatial RNN では、Hidden State は、BEV グリッド空間よりも大きい、(WxHxC) のサイズを持つ長方形のグリッド領域です (上図を参照、WxH は BEV サイズ 20x80 より大きくなります)。連続 BEV データが継続的に隠れ状態の大きな長方形領域を更新するように、隠れ状態グリッドのどの部分が影響を受けるか、それぞれの更新の位置は前方と後方の BEV 特徴の動きと一致します。自家用車。継続的な更新の後、次の図に示すように、ローカルマップに似た隠れ状態特徴マップが形成されます。

テスラの自動運転技術ソリューションの詳細な分析

#逐次キューを使用すると、ニューラルネットワークはフレーム間で連続的な知覚結果を取得できるようになります。結合後、FSD は視野内の死角と遮蔽に対処し、ローカルマップを選択的に読み書きする機能を持ちます。リアルタイムのローカルマップを構築するこの機能により、FSD は都市計画を実行できます。高精度地図に依存しないナビゲーション。 3D マップ機能だけでなく、予測などに使用できるローカル 4D シーン構築機能も備えています。 Occupancy が登場した後、Spatial RNN に基づくソリューションは前述のトランスフォーマーソリューションに変更されたと一般に考えられていました。

テスラの自動運転技術ソリューションの詳細な分析

7.占有ネットワーク: BEV は 2D から 3D へ

2D の鳥瞰図実際の自動運転が直面する 3D シーンとの間にはまだギャップがあるため、特定のシナリオでは BEV2D 認識が失敗する状況が存在するはずです。 2021年にはテスラが深層ビルを構築できるようになるため、2Dから3Dになるのは時間の問題であり、2022年にはBEVネットワークを高さ方向にさらに拡張したOccupancy Networkが登場する予定です。 BEV 座標系をダウンさせる 2D ラスター位置エンコーディングによって生成されたクエリは、3D ラスター位置エンコーディングによって生成されたクエリにアップグレードされ、BEV フィーチャは占有フィーチャに置き換えられます。

CVPR2022 で、Ashork は、画像ベースの深度推定の代わりに占有特徴を使用する理由を次のように述べました:

テスラの自動運転技術ソリューションの詳細な分析

##1) 距離の推定は近くでは問題ありませんが、遠方の距離では一貫性がなく、地面に近づくほど奥行き値のポイントが少なくなります (これは画像の結像原理によるもので、20m 離れているためです)。ピクセルで表される距離は 30cm を超える場合があります）、このデータをその後の計画プロセスで使用するのは困難です。

2) ディープネットワークは回帰に基づいて構築されており、オクルージョンによる予測が難しいため、境界での予測が難しく、車両から背景にスムーズに移行する可能性があります。

占有を使用する利点は次のとおりです:

テスラの自動運転技術ソリューションの詳細な分析

占有の利点

1) 統合されたボクセルが BEV 空間で生成され、任意のボクセルの占有確率を予測できます。

2) すべてのビデオカメラはフローを取得し、統合されています (ライダーとカメラの融合の問題はなく、情報の次元がライダーより高い)

3) 遮蔽されたオブジェクトの状態を予測できるリアルタイム (占有率のダイナミクス。記述能力は 3D から 4D への移行です)

4) 対応する意味カテゴリをボクセルごとに生成できます (画像認識能力ははるかに強力です) LIDAR より)

テスラの自動運転技術ソリューションの詳細な分析

カテゴリを認識しなくても移動オブジェクトを処理できます

5) 各ボクセルの運動状態を予測し、ランダムな運動をモデル化できます。

6) 各位置の解像度を調整できます (つまり、 BEV スペースズーム機能)

##7) Tesla のハードウェアのおかげで、Occupancy には効率的なストレージとコンピューティングの利点があります

8) 計算は次の時間内で完了できます10 ミリ秒、処理周波数は非常に高くなります (36 Hz の画像出力能力は、10 Hz の LIDAR 周波数よりもすでに強力です)

バウンディングボックスと比較した占有ソリューションの利点認識ソリューション理由は次のとおりです:

は、固定の境界ボックスを持たず、自由に形状を変更し、自由に移動できる未知のオブジェクトを記述できます。これにより、障害物の記述の粒度が向上します。ボックスからボクセルまでの粒度を調整することで、知覚の問題や多くのロングテール問題を解決できます。

Occupancy の全体的な計画を見てみましょう:

テスラの自動運転技術ソリューションの詳細な分析

##Occupancy Network

1) 画像入力: 元の画像情報を入力し、データ次元とダイナミックレンジを拡張します

2)画像特徴: RegNet BiFPN はマルチスケール画像特徴を抽出します

3) 空間的注意: 3D 空間位置を使用した空間クエリによる 2D 画像特徴の注意ベースのマルチカメラ融合

実装計画 1: 各カメラの内部および外部パラメーターに従って 3D 空間クエリを 2D 特徴マップに投影し、対応する位置の特徴を抽出します。

実装計画 2: 位置埋め込みを使用して暗黙的マッピングを実行します。つまり、カメラの内部パラメータと外部パラメータ、ピクセル座標などの 2D 特徴マップの各位置に適切な位置埋め込みを追加します。など。その後、モデルに 2D 特徴と 3D 特徴の間の対応関係をそれ自体で学習させます。

4) 時間的アライメント: 軌跡情報を使用して、各フレームの 3D 占有特徴を時系列でつなぎ合わせます。空間チャネル次元。時間の経過とともに重みが減衰し、結合された特徴がデコンボリューションモジュールに入力されて解像度が向上します。

5) ボリューム出力: 占有と占有フローを出力します。固定サイズラスター

6) クエリ可能な出力: 暗黙的なクエリ可能な MLP デコーダーは、任意の座標値 (x、y、z) を入力して、より高解像度の連続ボクセルセマンティクスを取得するように設計されています。および占有フロー情報は、モデル解像度の制限を打ち破ります。

7) 3 次元のジオメトリとセマンティクスを備えた走行可能エリアの舗装を生成します。これは、坂道や曲線道路での制御に有益です。

テスラの自動運転技術ソリューションの詳細な分析

#地面は占有率と一致しています

8) NeRF 状態: Nerf はシーンの幾何学的構造を構築し、あらゆる視点から画像を生成し、高解像度の実際のシーンを復元できます。

アップグレードまたはナーフとの交換が可能であれば、実際のシーンを復元する機能があり、このシーン復元機能は過去、現在、未来になります。これは、テスラの技術ソリューションが追求する 4D シーンの自動運転を大幅に補完し、改善するものとなるはずです。

8.FSD 車線ニューラルネットワーク: 車線のトポロジー接続関係の予測

車線の境界線をセグメント化して識別するだけでは十分ではありません。車線間のトポロジー的な接続関係を取得する推論も必要であり、軌道計画に使用できます。

テスラの自動運転技術ソリューションの詳細な分析

FSD 車線のトポロジー関係の認識

1) 車線誘導モジュール: ナビゲーションマップ内の道路の幾何学的および位相関係、車線レベル、量、幅、属性情報を使用し、この情報を占有機能と統合して、高密度ワールドテンソルをエンコードして生成します。トポロジ関係を確立するモジュールに対して、ビデオストリームの密な特徴がシーケンス生成パラダイムを通じて解析され、疎な道路トポロジ情報 (車線ノードの車線セグメントと隣接する接続関係) が取得されます。

2) 言語コンポーネント: 車線関連情報には、車線ノードの位置、属性 (始点、中間点、終点など)、分岐点、合流点、車線スプラインが含まれます。ジオメトリパラメーターは、言語モデルの単語トークンに似たコードにエンコードされ、タイミング処理メソッドを使用して処理されます。具体的なプロセスは次のとおりです。

テスラの自動運転技術ソリューションの詳細な分析

レーンプロセスの言語

テスラの自動運転技術ソリューションの詳細な分析

レーンの言語

最終的に、レーンの言語は、グラフ内のトポロジー的な接続関係を表します。

9. オブジェクトの知覚: 他の交通参加者の知覚と予測

テスラの自動運転技術ソリューションの詳細な分析

障害物の知覚FSD のオブジェクト認識は 2 段階の方法です。第 1 段階では、3D 空間内の障害物の位置が占有率から特定されます。第 2 段階では、これらの 3D オブジェクトのテンソルを連結して、運動学的情報 (自己など) をエンコードします。 -車両の動き、ターゲットの走行車線、信号機、交通信号など）を追跡し、軌道予測、オブジェクトモデリング、歩行者の姿勢予測などのヘッドにアクセスします。複雑なセンシングヘッドを限られた ROI エリアに集中させることで、処理遅延が軽減されます。上の図からわかるように、ビデオモジュールには 2 つのステップがあり、それぞれ自車と他車の予測を行います。

ここに質問を残してください: 上の図の 2 つのビデオモジュールの違いは何ですか?効率に問題はありませんか？

#02 意思決定計画

1. 複雑なシナリオ: 高頻度で多様なトラフィック参加者との対話計画

交差点での無防備な左折の意思決定と計画のシナリオ

テスラの自動運転技術ソリューションの詳細な分析

決定- 上記のシナリオの作成と計画問題は次のとおりです。

車両が交差点シーンで保護されていない左折を実行する場合、歩行者や通常の直進車両と対話する必要があります。、複数の当事者間の相互関係を理解します。

前者との対話の決定は、後者との対話戦略に直接影響します。ここで選択される最終的な解決策は、他の交通参加者の移動を妨げないようにすることです。

2. 従来の最適化手法: [ジョイント複数オブジェクト軌道計画]: 複数オブジェクト MPC

8 次元状態表現軌道 (位置、方位) 、速度、水平方向と垂直方向の加速度、水平方向と垂直方向のジャーク）
最適化コスト: すべてのオブジェクトが目標に到達できるように、自分の車の自我と他の車のオブジェクトのそれぞれの軌道を見つけます。目標は、水平および垂直でありながら、できるだけ小さくすることです。ジャークはできるだけ小さくします (快適レベル)
制約:

オブジェクトのそれぞれの軌道の最近接距離が安全距離より大きいです
オブジェクトのペアの軌道の早期到着制約と遅到着制約

欠点: リアルタイムパフォーマンスが低く (組み合わせごとに 10 ミリ秒かかります。これが Tesla が達成できる限界です)、組み合わせの爆発が発生します。目標は、全体の計画時間を 50 ミリ秒 (20 Hz) にすることです。

テスラの自動運転技術ソリューションの詳細な分析

3. インタラクティブなツリー検索: 並列パスの計画と評価枝刈り

テスラの自動運転技術ソリューションの詳細な分析

意思決定と計画のプロセス

Tesla は、この目標を達成するために「対話型検索」を使用しています。一連の可能な運動軌跡が並行して検索され、対応する状態空間には車両、障害物、走行可能エリア、車線、信号機などが含まれます。解決空間では、他のトラフィックとのインタラクティブな意思決定に参加した後に分岐する一連のターゲット運動候補軌道を使用し、その後、漸進的な意思決定と計画を進め、最終的に最適な軌道を選択します。上図:

1) 道路トポロジまたは人間の運転データに基づいて、ゴール地点またはその確率分布 (ビッグデータ軌跡) をアプリオリに取得します

2) 目標点に基づいて候補軌道を生成 (最適化アルゴリズムニューラルネットワーク)

3) 候補軌道に沿ったロールアウトとインタラクティブな意思決定、パスの再計画、評価各パスのリスクとスコア、最適なパスの探索に優先順位を付け、ゴールポイントを知る

意思決定計画全体の最適化表現:

テスラの自動運転技術ソリューションの詳細な分析

意思決定計画の最適化表現

テスラの自動運転技術ソリューションの詳細な分析

軽量計画軌道クエリネットワーク

Tesla 新しい意思決定制約が増分的に継続的に追加され、より少ない制約の下での最適解が初期値として使用されて解決が続けられます。より複雑な最適化問題を解決し、最終的に最適解が得られます。ただし、多くの可能な分岐が存在するため、意思決定と計画のプロセス全体が非常に効率的である必要があります。従来の最適化アルゴリズムに基づくプランナーの各意思決定計画には 1 ～ 5 ミリ秒かかります。高密度の交通参加者がいます。 Tesla が使用する Neural Planner は軽量ネットワークであり、クエリプランニングの軌道は、Tesla フリートの人間ドライバーの運転データと、時間制約のないオフライン条件下で計画されたグローバル最適パスの真の値を使用してトレーニングされ、各意思決定が行われます。計画には 100 秒しかかかりません。

テスラの自動運転技術ソリューションの詳細な分析

#計画決定の評価

各決定後にクエリされるクエリの数各候補軌道を評価する必要があります。評価は、衝突チェック、快適性分析、乗っ取りの可能性、人物との類似性などの仕様に基づいて行われます。これは、検索ブランチを枝刈りし、決定木全体が大きくなりすぎることを避けるのに役立ちます。計算能力は最も可能性の高い分岐に集中します。テスラは、このソリューションはオクルージョンシーンにも適用可能であり、プランニングプロセスではオクルージョンされたオブジェクトの動きの状態が考慮され、「ゴースト」を追加してプランニングが実行されると強調しました。

テスラの自動運転技術ソリューションの詳細な分析

ゴーストオクルージョンシーン

CVPR での衝突回避のためのネットワークプロセスと対応する計画についても共有しました。プロセスについては詳しく説明しません。

テスラの自動運転技術ソリューションの詳細な分析

衝突回避ネットワーク

テスラの自動運転技術ソリューションの詳細な分析

##03 シーンの再構成と自動アノテーション

Tesla は強力です認識能力が必要ですサポートとしての強力なアノテーション機能 2018 年から現在まで、Tesla のアノテーションは 4 つの段階を経ています:

テスラの自動運転技術ソリューションの詳細な分析

## Tesla のアノテーションの反復

フェーズ 1 (2018): 純粋に手動による 2 次元画像注釈のみがあり、非常に非効率です

フェーズ 2 (2019):最初に 3D ラベルが表示されますが、これは単一の手動プロセスです

フェーズ 3 (2020): ラベル付けと再投影に BEV スペースを使用します精度は大幅に低下します

フェーズ 4 (2021): アノテーションに複数の再構成が使用され、精度、効率、トポロジー関係が非常に高いレベルに達しました

##テスラの自動ラベル付けシステムは 500 万時間の手作業を置き換えることができます。手動による検査と漏れの修理に必要なのは、非常に小さな部品 (

このマルチトラベル軌道再構築ソリューションのプロセスは次のとおりです。 (オフラインのセマンティックスラムシステムと同様)

テスラの自動運転技術ソリューションの詳細な分析自動ラベル付けシステム

ステップ 1: VIO が高精度の軌道を生成します。ビデオストリーム、IMU、オドメトリをニューラルネットワークにフィードし、点、線、地面、セグメンテーションの特徴を推論して抽出し、マルチカメラ VIO を使用して BEV 空間での追跡と最適化を行い、100Hz 6dof 軌道と 3dof 構造を出力します。カメラのキャリブレーション値も出力できます。再構成された軌道の精度は 1.3cm/m、0.45rad/m とあまり高くありません。すべての FSD はこのプロセスを実行して、特定の旅行の前処理された軌跡と構造情報を取得できます。 (ビデオを見ると、vio は点の特徴のみを明示的に使用し、線と面の特徴を暗黙的に使用しているように感じます。)

テスラの自動運転技術ソリューションの詳細な分析続きトリップ軌跡の再構築

#ステップ 2: マルチトリップ軌跡の再構築。異なる車両からの複数の再構成データは、大まかな位置合わせ -> 特徴マッチング -> 結合最適化 -> 路面改良のためにグループ化され、その後、手動介入が実行されて最終的にラベリング結果を検証および確認されます。ここでは, 結合最適化後に路面最適化も実行した. 視覚的再構成の誤差は比較的大きいと推測される. 全体最適化後, ローカル道路には階層的な重複問題が存在する. この部分の誤差を除去するには,グローバル最適化の割り当てミス、路面最適化が追加されました。アルゴリズムロジックの観点から見ると、自動運転の要件はどこでも運転できることであるため、グローバルな最適化に続いてローカルな最適化が必須となります。プロセス全体がクラスター上で並列化されます。

テスラの自動運転技術ソリューションの詳細な分析粗調整

ステップ 3: 新しい軌跡データに自動的にラベルを付けます。事前構築マップ上では、複数の軌跡再構成と同じ再構成プロセスが新しい運転軌跡データに対して実行されるため、位置合わせされた新しい軌跡データは、事前構築マップから意味論的な注釈を自動的に取得できます。これは実際には、セマンティックタグを取得するための再配置のプロセスです。この自動ラベル付けは、実際には、車線境界線や道路境界線などの静的オブジェクトのみを自動的にラベル付けできます。知覚モデルを通じて、車線境界線などの意味カテゴリを実際に取得できますが、過酷なシナリオでは整合性や誤認識の問題が発生しますが、これらの問題は、この自動アノテーションによって解決できます。ただし、移動する車両や歩行者などの動的障害物には適さない可能性があるという欠点があります。使用シナリオは次のとおりです:

テスラの自動運転技術ソリューションの詳細な分析

自動ラベル付けの使用シナリオ

Tes La が表示する画像の多くには、ぼやけや汚れのオクルージョンがあるという特徴がありますが、知覚結果には重大な影響を与えません。通常の使用では、車両のカメラレンズは簡単に汚れてしまいますが、この自動ラベル付けにより、テスラの認識は非常に堅牢になり、カメラのメンテナンスコストが削減されます。

テスラの自動運転技術ソリューションの詳細な分析

#自動ラベル付けは動的車両には適用されません

2021 年の振り返りAI Day は、上記の再構成によって静的な世界が構築されるが、車線や車線の境界線だけでなく、車両や建物も構築されることが示されています。

テスラの自動運転技術ソリューションの詳細な分析

##3D 再構築

テスラの自動運転技術ソリューションの詳細な分析

# #静的な世界を再構築してラベルを付ける

テスラの自動運転技術ソリューションの詳細な分析 ##4D 空間のラベル付け

BEV 空間のアノテーションが完了すると、そのアノテーションは複数のカメラの画像にマッピングされるため、4D 空間の 1 つのアノテーションを 2D の複数のフレームに適用できます。

シーンの再構成に関しては、現在の再構成能力と精度ではまだテスラのエンジニアの期待を満たしていない可能性がありますが、最終的な目標は、テスラ車が走行したすべてのシーンを真に復元および再構成することです。シーン、およびこれらのシーンの条件を実際に変更して新しい実際のシーンを生成する機能が最終的な目標です。

現実世界を復元テスラの自動運転技術ソリューションの詳細な分析

現実世界の再構築

テスラの自動運転技術ソリューションの詳細な分析

04 シーンシミュレーション: 実際の道路情報に基づいた自動運転シナリオの作成

#シーンシミュレーション

テスラの自動運転技術ソリューションの詳細な分析

##シミュレーションは完全に正しいラベルを取得できます

再構成に基づいて構築される現実のシーンは、データやアルゴリズムなどによって制限されており、現状では大規模に実装することは難しく、長時間を要します。上の写真は2週間かかります。ただし、自動運転の実装はさまざまなシナリオでのトレーニングとテストに依存しているため、テスラは自動運転シナリオをシミュレートするシミュレーションシステムを構築しました。このシステムは現実のシナリオを真にシミュレートすることはできませんが、利点は、上記の実際の一般的な再構成ソリューションよりも 1,000 倍高速であることです。現実では取得またはラベル付けが困難なデータを提供でき、依然として非常に意味のあるデータを提供できます。自動運転の訓練。

テスラの自動運転技術ソリューションの詳細な分析

シミュレーションのアーキテクチャ

このシミュレータのアーキテクチャは次のとおりです。上の図のように、シーン作成プロセスでは次の手順が必要です。

ステップ 1: シミュレーションワールドに道路を広げ、境界ラベルを使用してエンティティ道路メッシュを生成します。それを道路トポロジ関係に再度関連付けます。

ステップ 2: 道路表面上の車線の境界線と幾何学的記述要素を車線セグメントに投影し、車線の詳細を構築します

ステップ 3 ステップ: 道路の中央境界領域に中央車線分離領域を生成し、それを埋める植物と交通標識をランダムに生成します。道路境界の外側では、ランダムヒューリスティックを使用します。一連の建物、樹木、交通標識などを生成するメソッドです。

ステップ 4: 地図から信号機または一時停止標識の位置を取得します。番号も取得できます。車線の数、道路名など。

ステップ 5: 車線マップを使用して車線の位置を取得します。トポロジ関係を取得し、運転方向 (左折および右折標識) と補助マーカーを生成します。

#ステップ 6: 車線マップ自体を使用して、車線の隣接関係やその他の有用な情報を決定します

ステップ 7: ランダムな交通流の組み合わせに基づいて生成します車線関係について

上記のプロセスでは、シミュレーションパラメーターを変更して、車線ナビゲーションマップの真の値のセットに基づいて変更を生成し、複数の組み合わせシナリオを生成できます。さらに、トレーニングのニーズに応じて、真の値の一部の属性を変更して、トレーニングの目的を達成するための新しいシナリオを作成することもできます。

テスラの自動運転技術ソリューションの詳細な分析

#データはタイルストレージに分割されます

テスラの自動運転技術ソリューションの詳細な分析

タイル粒度に基づいて構築された世界

#上記で構築されたシミュレーションは実際の道路情報に基づいているため、多くの実際的な問題はシミュレーションのヘルプ。たとえば、自動運転機能は、シミュレートされたロサンゼルスの道路環境でテストできます。 (上記の保存方法は、シミュレーションのマッピング、保存、読み込みで使用されます)

テスラの自動運転技術ソリューションの詳細な分析

#シミュレーションシナリオでの自動運転

実感: 自動運転にとってかけがえのない地図情報とは? このシミュレーション構築プロセスから、その答えが見えてきます。

#05 データエンジン: マイニングのコーナーケースデータ

テスラの自動運転技術ソリューションの詳細な分析データは終了しました-ループ処理

データエンジンは、シャドウモードからモデルによって誤って判断されたデータをマイニングし、それを呼び出し、自動アノテーションツールを使用してラベルを修正し、それをトレーニングとテストセットは、ネットワークを継続的に最適化できます。このプロセスはデータ閉ループのキーノードであり、コーナーケースのサンプルデータを生成し続けます。

テスラの自動運転技術ソリューションの詳細な分析

彎道停車的資料探勘

上圖是彎道停車資料探勘對模型提升的案例，隨著資料源源不絕的加入到訓練中，準確率指標持續提升。

以上がテスラの自動運転技術ソリューションの詳細な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7469

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジシナリオの「ロングテール」とは、自動運転車 (AV) におけるエッジケースを指します。エッジケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。

先頭と開始点に書かれているエンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパースアーキテクチャが、検出、追跡、オンラインマッピングなどのタスク認識のために設計されています。さらに、重い

エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 Apr 15, 2024 pm 04:13 PM

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンドシステムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー（カメラ/LiDAR）からのデータを入力

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

Tesla Dojo のスーパーコンピューティングデビュー、マスク氏: 年末までに AI をトレーニングするためのコンピューティング能力は、NVIDIA H100 GPU 8,000 個とほぼ同等になるでしょう Jul 24, 2024 am 10:38 AM

7 月 24 日のこの Web サイトのニュースによると、テスラ CEO イーロンマスク (イーロンマスク) は、本日の決算電話会議で、同社が 2,000 台の NVIDIA H100 を搭載するこれまでで最大の人工知能トレーニングクラスターを完成させようとしていると述べました。 GPU。マスク氏はまた、同社の決算会見で投資家に対し、NvidiaのGPUは高価であるため、テスラはDojoスーパーコンピューターの開発に取り組むと語った。このサイトは、マスク氏のスピーチの一部を次のように翻訳しました: Dojo を通じて NVIDIA と競争する道は困難ですが、私たちは今、NVIDIA に過度に依存しています。 NVIDIA の観点からすると、市場が耐えられるレベルまで GPU の価格を引き上げるのは必然ですが、

テスラがついに行動を起こす！自動運転タクシーは間もなく発表されるでしょうか? ！ Apr 08, 2024 pm 05:49 PM

4月8日のニュースによると、テスラのCEOイーロン・マスク氏は最近、テスラが自動運転車技術の開発に取り組んでいることを明らかにし、待望の無人自動運転タクシー「ロボタクシー」が8月8日に正式デビューすると発表した。データ編集者は、マスク氏の発言が次のことであることを知った。以前ロイターは、テスラの自動車運転計画はロボタクシーの生産に焦点を当てていると報じた。しかし、マスク氏はこれに反論し、ロイター通信が低価格車の開発計画を中止し、再び虚偽の報告書を発表したと非難し、一方、低価格車のモデル2とロボタックスの開発は明らかになったと明らかにした。

量産型キラー！ P-Mapnet: 従来の低精度地図 SDMap を使用することで、マッピングのパフォーマンスが 20 ポイント近く大幅に向上しました。 Mar 28, 2024 pm 02:36 PM

上で書いたように、高精度地図への依存を取り除くために現在の自動運転システムで使用されているアルゴリズムの 1 つは、長距離領域での知覚性能が依然として低いという事実を利用するものです。この目的を達成するために、私たちは P-MapNet を提案します。「P」はモデルのパフォーマンスを向上させるためにマップ事前分布を融合することに焦点を当てています。具体的には、SDMap と HDMap の事前情報を活用します。一方で、OpenStreetMap から弱く調整された SDMap データを抽出し、入力をサポートするためにそれを独立した用語にエンコードします。厳密に変更された入力と実際の HD+Map の間には調整が弱いという問題がありますが、クロスアテンションメカニズムに基づく構造は、SDMap スケルトンに適応的に焦点を合わせ、大幅なパフォーマンスの向上をもたらします。

自動運転の初の純粋な視覚的静的再構築 Jun 02, 2024 pm 03:24 PM

純粋に視覚的な注釈ソリューションでは、主に視覚に加えて、GPS、IMU、および車輪速度センサーからのデータを動的注釈に使用します。もちろん、量産シナリオでは、純粋な視覚である必要はありません。一部の量産車両には固体レーダー (AT128) などのセンサーが搭載されています。大量生産の観点からデータの閉ループを作成し、これらすべてのセンサーを使用すると、動的オブジェクトのラベル付けの問題を効果的に解決できます。しかし、私たちの計画には固体レーダーはありません。したがって、この最も一般的な量産ラベルソリューションを紹介します。純粋に視覚的な注釈ソリューションの中核は、高精度のポーズ再構築にあります。再構築の精度を確保するために、Structure from Motion (SFM) のポーズ再構築スキームを使用します。でもパスする

See all articles

テスラの自動運転技術ソリューションの詳細な分析

01 認識: リアルタイム 4D 自動運転シーンの構築

1. Tesla カメラのレイアウト

2. テスラ画像データの前処理

##3.バックボーン ネットワーク: ネットワーク設計スペースの設計

7.占有ネットワーク: BEV は 2D から 3D へ

9. オブジェクトの知覚: 他の交通参加者の知覚と予測

1. 複雑なシナリオ: 高頻度で多様なトラフィック参加者との対話計画

2. 従来の最適化手法: [ジョイント複数オブジェクト軌道計画]: 複数オブジェクト MPC

3. インタラクティブなツリー検索: 並列パスの計画と評価枝刈り

#シーン シミュレーション

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

##3.バックボーンネットワーク: ネットワーク設計スペースの設計

#シーンシミュレーション