視覚的自動運転のための最新の技術的ルートの簡単な分析
背景
自動運転は予測段階から産業化段階へと段階的に移行しており、その具体的な性能は4つのポイントに分けられます。まず、ビッグ データの文脈では、データ セットの規模が急速に拡大しています。その結果、これまで小規模なデータ セットで開発されたプロトタイプの詳細は大幅に除外され、大規模なデータ セットで有効な作業のみが抽出されることになります。・スケールデータは残ります。 2 つ目は、単眼シーンから多視点シーンへの焦点の切り替えであり、これにより複雑さが増します。次に、出力空間を画像空間から BEV 空間に移すなど、アプリケーションフレンドリーな設計への傾向があります。
最後に、純粋に精度を追求することから、徐々に推論速度も同時に考慮するように変更していきます。同時に、自動運転シナリオでは迅速な応答が求められるため、パフォーマンス要件では速度が考慮され、さらにエッジデバイスへの展開方法もより考慮されます。
背景のもう 1 つの部分は、過去 10 年間で視覚認識が深層学習によって急速に発展したことです。多くの研究が行われ、次のような主流の方向での研究もいくつかありました。分類、検出、セグメンテーション。かなり成熟したパラダイム。自動運転シナリオにおける視覚知覚の開発プロセスでは、特徴エンコーディングのターゲット定義、知覚パラダイム、監視などの側面が、これらの主流の方向に大きく依存しているため、自動運転の知覚に取り組む前に、これらの主流の方向を検討する必要があります。少し。
これらの背景に対して、図 1 に示すように、大規模なデータセットに対する多数の 3D ターゲット検出の研究が過去 1 年間に登場しました (赤色でマークされたものは、最初のもの) アルゴリズム)。
#図 1 過去 1 年間の 3 次元ターゲット検出の開発
技術的ルートリフティング
自動運転シナリオにおける視覚認識と主流の視覚との違いは主に次の点にあります。対象定義空間は異なり、主流の視覚認識の対象は画像空間で定義されますが、自動運転シーンの対象は 3 次元空間で定義されます。入力がすべて画像の場合、3 次元空間で結果を取得するにはリフト プロセスが必要であり、これは自動運転における視覚の中心的な問題です。
Lift オブジェクトの問題を解く方法は、入力、中間特徴、出力に分けることができます。入力レベルの例として、視点の変更があります。原理は、画像を使用して推論することです。深度情報を使用して画像の RGB 値を 3 次元空間に投影し、色付きの点群を取得します。点群検出の関連作業は後ほど続きます。
現在、より有望なものは、フィーチャレベルの変換またはフィーチャレベルのリフトです。たとえば、DETR3D では、これらはすべてフィーチャ レベルで空間変更を実行します。画像レベルの特徴を抽出するための計算量は少なく、出力レベルのルックアラウンド結果融合の問題も回避できます。もちろん、機能レベルの変換には、通常、奇妙な OP が使用され、デプロイメントが不親切になるなど、いくつかの典型的な問題もあります。
現在、特徴レベルでのリフト プロセスは、主に深度および注意メカニズム戦略に基づいて比較的堅牢であり、代表的なものはそれぞれ BEVDet と DETR3D です。深度ベースの戦略は、画像の各点の深度を計算し、カメラのイメージング モデルに従って特徴を 3 次元空間に投影することによってリフトのプロセスを完了します。注意メカニズムに基づく戦略は、3 次元空間内のオブジェクトをクエリとして事前定義し、内部パラメータと外部パラメータを通じて 3 次元空間の中点に対応する画像の特徴をキーと値として見つけます。注意を通じて 3 次元の物体を計算する、空間内の物体の特性。
現在のすべてのアルゴリズムは、基本的に、深度に基づいているか、注意メカニズムに基づいているかにかかわらず、カメラ モデルに大きく依存しており、そのため、キャリブレーションに対する感度が高く、一般に複雑な計算プロセスが発生します。カメラモデルを放棄するアルゴリズムは堅牢性に欠けることが多いため、この点はまだ完全に成熟していません。
時間的
時間的情報は、ターゲット検出の効果を効果的に向上させることができます。自動運転シナリオでは、ターゲットの速度が現在のシナリオにおける主要な認識ターゲットの 1 つであるため、タイミングはより深い意味を持ちます。速度の焦点は変化にあり、単一フレーム データには十分な変化情報が含まれていないため、時間次元で変化情報を提供するにはモデリングが必要です。既存の点群時系列モデリング方法は、複数のフレームの点群を入力として混合することで、比較的密度の高い点群を取得し、検出をより正確に行うことができます。さらに、マルチフレーム点群には連続情報が含まれており、その後のネットワーク トレーニング プロセス中に、BP を使用してこの連続情報を抽出し、連続情報を必要とする速度推定などのタスクを解決する方法を学習します。
視覚のタイミング モデリング手法は、主に BEVDet4D と BEVFormer から来ています。 BEVDet4D は、2 つのフレームの特徴を単純に融合することで、後続のネットワークに継続的な情報を提供します。もう 1 つのパスはアテンションに基づいており、単一時間フレームと反時計回りの両方の特徴をクエリのオブジェクトとして提供し、アテンションを通じてこれら 2 つの特徴を同時にクエリしてタイミング情報を抽出します。
深度
レーダー知覚と比較した自動運転視覚知覚の最大の欠点の 1 つは、深度の精度です。見積もり、支出。論文「確率的および幾何学的深さ: 遠近感のあるオブジェクトの検出」では、GT メソッドを置き換えることによって、さまざまな要因がパフォーマンス スコアに与える影響を研究しています。分析の主な結論は、正確な深度推定によりパフォーマンスが大幅に向上するということです。
しかし、奥行き推定は、現在の視覚認識における大きなボトルネックです。これを改善するには、現在、主に 2 つの方法があります。1 つは、PGD で幾何学的制約を使用して、奥行きマップ上で予測を実行することです。リファイン。もう 1 つは、LIDAR を監視として使用して、より堅牢な深度推定値を取得することです。
このプロセスにおいて優れている現在のソリューションである BEVDepth は、トレーニング プロセス中に LIDAR によって提供される深度情報を使用して、変化プロセス中の深度推定と知覚の主なタスクを監視します。同時に。
#マルチモダリティ/マルチタスク
#マルチタスクは希望です統一されたフレームワークを使用してさまざまな認識タスクを完了し、この計算を通じて、リソースの節約や計算推論の高速化という目的を達成できます。しかし、現状の手法は基本的に、統合された特徴量を取得した上で、異なるレベルの特徴量を処理するだけでマルチタスクを実現しているため、タスクのマージ後の性能低下という共通の問題があります。マルチモダリティは、判断全体に直接融合できる形式を見つけて、単純な融合を達成するという点でもほぼ普遍的です。
BEVDet シリーズBEVDet
BEVDet ネットワークを図 2 に示します。特徴抽出プロセスでは、主に、抽出された画像空間の特徴を BEV 空間の特徴に変換し、この特徴をさらにエンコードします。 、予測に使用できる特徴を取得し、最後に密予測を使用してターゲットを予測します。
#図 2 BEVDet ネットワーク構造
視点変更モジュールのプロセスは次のとおりです。段階的に、変換対象の特徴量を VxCxHxW と仮定し、画像空間上で分類的に奥行きを予測し、ピクセルごとに D 次元の奥行き分布を取得します。これら 2 つを使用して、異なる深度を組み合わせることができます。フィーチャをレンダリングして視覚的なフィーチャを取得し、次にカメラ モデルを使用してそれを 3 次元空間に投影し、3 次元空間をボクセル化してから、スプラット プロセスを実行します。 BEV機能を取得します。視点変更モジュールの非常に重要な機能は、データの速度低下において相互分離の役割を果たすことです。具体的には、カメラの内部パラメータを通じて、カメラ座標系上の点を 3 次元空間に投影することで取得できますが、画像空間内の点にデータ拡張を適用する場合、座標を維持するために、カメラ座標系上の点が不変である場合は、逆変換を行う必要があります。つまり、カメラ座標系上の座標は拡張の前後で変化せず、相互分離効果があります。相互分離の欠点は、画像空間の拡張によって BEV 空間の学習が正規化されないことです。その利点により、BEV 空間学習の堅牢性が向上します。 私たちは、次のことから始めます。実験 上記からいくつかの重要な結論を導き出すことができます。まず、BEV 空間エンコーダを使用した後、アルゴリズムが過剰適合に陥る可能性が高くなります。もう 1 つの結論は、BEV 空間の拡大は画像空間の拡大よりもパフォーマンスに大きな影響を与えるということです。 BEV 空間のターゲット サイズとカテゴリの高さの間には相関関係もありますが、同時に、ターゲット間のオーバーラップ長が小さいと、いくつかの問題が発生することが観察されます。画像空間で設計された非極性オブジェクトは、大きな値の抑制方法が最適ではありません。同時アクセラレーション戦略の中核は、並列コンピューティング手法を使用して独立したスレッドをさまざまな小さなコンピューティング タスクに割り当て、並列コンピューティングのアクセラレーションの目的を達成することであり、追加のビデオ メモリのオーバーヘッドがないという利点があります。 BEVDet4D ネットワーク構造を図 3 に示します。このネットワークの主な焦点は、リバース タイム フレームの特徴を現在のフレームにどのように適用するかです。入力特徴を保持オブジェクトとして選択しますが、ターゲット変数がすべて定義されているため、この画像特徴は選択しません。 BEV 空間、および画像の特性は、直接タイミング モデリングには適していません。同時に、BEV エンコーダーで連続特徴を抽出する必要があるため、BEV エンコーダーの背後にある特徴は連続融合特徴として選択されません。 視点変更モジュールによって出力される特徴が比較的まばらであることを考慮して、視点変更後に追加の BEV エンコーダーを接続して予備的な BEV 特徴を抽出し、時系列モデリングを実行します。タイミング フュージョン中、反時計回りのフレームのフィーチャを現在のニードルと位置合わせしてスプライスし、タイミング フュージョンを完了します。実際、ここではタイミング フィーチャを抽出するタスクを後のものに任せます。BEV がそれを行います。 #図 3 BEVDet4D ネットワーク構造 自動運転知覚アルゴリズムの出力空間は、一般に車両周囲の一定範囲の空間として定義され、特徴マップは連続空間上の一様分布とみなすことができ、コーナーポイントを離散サンプルに合わせて配置します。特徴マップの受容野は自車を中心とした一定範囲内に定義されているため、自車の移動に応じて変化するため、異なる2つの時間ノードにおいて、特徴マップの受容野は一定の値を持つことになる。ワールド座標系の値、特定のオフセット。 2 つのフィーチャが直接結合されている場合、2 つのフィーチャ マップ内の静的ターゲットの位置は異なり、2 つのフィーチャ マップ内の動的ターゲットのオフセットは異なります。セルフテストのオフセットにワールド座標系の動的ターゲットのオフセットを加えたものに等しくなります。パターンの一貫性の原則によれば、スプライスされたフィーチャ内のターゲットのオフセットは自車両に関連しているため、ネットワークの学習目標を設定する際には、これらのフィーチャ内のターゲットの位置の変化である必要があります2 つの機能マップ。 次の式によると、学習ターゲットはセルフテストの動作とは関係がなく、ワールド座標でのターゲットの動作のみに関連していると推定できます。システム。
上記の結果から導き出された学習目標と現在の主流の方法の学習目標の違いは、時間成分が除去されていることと、速度が変位/時間に等しいことですが、これら 2 つの特徴は次のことを提供しません。したがって、この速度目標を学習したい場合、ネットワークは時間成分を正確に推定する必要があり、学習の難易度が高くなります。実際には、トレーニング プロセス中に 2 つのフレーム間の時間を定数値として設定することができ、BP を学習することで一定時間間隔のネットワークを学習できます。 タイム ドメインの拡張では、トレーニング プロセス中に異なる時間間隔をランダムに使用します。異なる時間間隔では、2 つの画像内のターゲットのオフセットが異なります。ターゲット オフセットは異なります。異なるオフセットでモデルのルパン効果を実現するために、学習の量も異なります。同時に、モデルはターゲットのオフセットに対して一定の感度を持っています。つまり、間隔が小さすぎると、2 つのフレーム間の変化を認識することが困難になります。したがって、テスト中に適切な時間間隔を選択すると、モデルの汎化パフォーマンスを効果的に向上させることができます。 この記事では、レーダーを使用して堅牢な深度推定を取得します。図 4 に示します。点群を使用して、変更モジュール内の深度分布を監視します。この監視は疎です。この疎性は、ターゲットによって提供される深度監視に比べて密ですが、すべてのピクセルに到達するわけではありません。正確な深さの監視も比較的疎です。ただし、この深さ推定の一般化パフォーマンスを向上させるために、より多くのサンプルを提供できます。 図 4 BEVDepth ネットワーク構造 この研究のもう 1 つの側面特徴と深度は推定のために 2 つのブランチに分割され、追加の残差ネットワークが深度推定ブランチに追加されて、深度推定ブランチの受容野が増加します。研究者らは、カメラの内部パラメータと外部パラメータの精度によってコンテキストと深度のずれが生じると考えており、深度推定ネットワークが十分に強力でない場合、ある程度の精度が失われると考えています。 最後に、このカメラの内部パラメータが深度推定ブランチ入力として使用され、NSE と同様の方法がチャネル レベルで入力特徴のチャネルを調整するために使用されます。これにより、さまざまなカメラの内部パラメータに対するネットワークの堅牢性が効果的に向上します。 まず第一に、自動運転の視覚的認識は最終的に展開に役立ち、展開中にはデータの問題とモデルの問題が関係します。データの問題には多様性の問題とデータ アノテーションが含まれます。手動によるアノテーションは非常に高価であるため、将来的には自動アノテーションが実現できるかどうかがわかります。 現時点では、動的ターゲットのラベリングは前例がなく、静的ターゲットの場合は、3D 再構成によって部分的または半自動のラベリングを取得できます。モデルに関して言えば、現在のモデル設計はキャリブレーションに対して堅牢ではないか、キャリブレーションに対して敏感であるため、モデルをキャリブレーションに対してロバストにする方法、またはキャリブレーションから独立させる方法も検討する価値のある問題です。 もう 1 つは、ネットワーク構造の高速化の問題です。一般的な OP を使用して視点の変更を実現できますか? この問題は、ネットワークの高速化プロセスに影響します。
#BEVDet4D
BEVDepth
制限事項と関連する議論
以上が視覚的自動運転のための最新の技術的ルートの簡単な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力
