自動運転の特徴点に基づく全地球測位技術の解析-AI-php.cn

1 視覚的全地球測位の概念" >1 視覚的全地球測位の概念

2 特徴点抽出" >2 特徴点抽出

3 データベースの作成とクエリ" >3 データベースの作成とクエリ

4 特徴点マッチング" >4 特徴点マッチング

5 姿勢計算 " >5 姿勢計算

ホームページ

テクノロジー周辺機器

自動運転の特徴点に基づく全地球測位技術の解析

王林

Apr 12, 2023 pm 03:19 PM

オートパイロット

無人運転では、知覚、位置決め、計画と意思決定、および制御が 4 つの基本的なシステムモジュールです。現在のアルゴリズムでは絶対的なインテリジェンスを実現できないため、安全な自動運転を実現するためにモジュールのパフォーマンスと堅牢性を向上させるには、依然として大量の事前知識が必要です。中でも高精度地図は、道路や周辺環境に関する事前知識を統合したものです。地図に基づく正確な位置情報は、走行状況を判断するための重要な基礎となり、その後の認識や計画の決定を強力にサポートします。

現在、測位に使用される主なデータソースには、GPS、LIDAR、ビジョン、ミリ波レーダーが含まれます。視覚に関しては、現在、業界で十分に信頼できる測位ソリューションが認識されていませんが、この分野での探究は決して止まらず、その主な理由は次のとおりです:

安全性が最も重要な指標自動運転システムのほとんどの機能の実装は、マルチソースデータとさまざまなアルゴリズム結果の結合です。完璧なセンサーソリューションはありません。たとえば、広く使用されている GPS RTK は、気象条件やデータリンクの伝送条件の影響を受けやすく、トンネル、屋内、高層ビルのある人口密集地域では使用できません。さらに、LIDAR には、深度情報を提供するための計算負荷が小さく、照明の影響を受けないという利点がありますが、情報はまばらで、コストは依然として非常に高価であり、大量の車両を組み立てる能力はまだありません。それに比べて、カメラから提供される視覚情報は照明や天候の影響を受けますが、低コストでコンテンツが豊富であるため、現在の運転支援ソリューションの主要なデータソースであり、地図測位においても大きな可能性を秘めています。

主流の視覚測位アルゴリズムの中心的な考え方は同じであるため、この記事では、一連の重要なアルゴリズムの観点から、実際に最も一般的に使用されている特徴点に基づく全地球測位のみを紹介します。フレームワークコンポーネントアルゴリズム、つまり地図座標系での位置決め。この記事では、位置決めアルゴリズムをマクロ的に入門することを目的として、最適化や幾何拘束式の導出については省略していますので、詳細については関連文献や書籍を参照してください。

1 視覚的全地球測位の概念

視覚的全地球測位とは、地図座標系でカメラの位置を見つけることを指します。現在のイメージ自由度 (DoF) 姿勢 (Pose)、つまり (x、y、z) 座標、および 3 つの座標軸の周りの角度偏向 (ヨー、ピッチ、ロール)。現在、主に 3D 構造ベースの方法、2D 画像ベースの方法、シーケンス画像ベースの方法、深層学習ベースの方法に分類できます。このうち、深層学習に基づく手法はエンドツーエンド手法であり、他の多段階（マルチステージ）の非エンドツーエンド手法はプロセスが異なりますが、アルゴリズムの考え方はほぼ図1のとおりです。表示:

自動運転の特徴点に基づく全地球測位技術の解析

#図 1: クエリ画像に基づいて 2D-3D 変換行列を計算し、カメラのポーズを解決します

構築されたマップに基づいて、履歴内で最も類似したマップサブセット (画像/点群/特徴点) と一致し、一致したマップサブセットによって提供される履歴ポーズの真の値に基づいて、 , 特徴点座標の真の値、点ペア間の変換行列を計算し、現在のカメラのポーズを解決します。

つまり、そのコアには、画像の説明、マッピングクエリ、特徴のマッチング、ポーズの計算という 4 つの側面が含まれています。これは技術レベルでのマクロな分類にすぎず、実際のアルゴリズムフレームワークは必ずしもこの順序で実行されるわけではなく、学者は主にこれらの技術の改良に重点を置いて研究を行っています。全体として、特徴点に基づく画像記述は基本的に成熟しており、発展性は低い。姿勢計算は幾何学的制約に基づいた最適化問題であるため、方法は比較的固定されています。対照的に、マッピングクエリとフィーチャマッチングには多くの改良された技術があります。データソースに応じて、マッピングクエリとマッチングは 2D-2D、2D-3D、または 3D-3D になります。 2D 画像はカメラで取得され、3D 点群は深度を提供する双眼カメラまたは RGB-D カメラで生成できます。

2 特徴点抽出

2D 画像自体は明るさと色から構成されるマトリックスであり、視野角、照明、色合いの変化などに非常に敏感です。、直接使用するのは非常に困難です。したがって、関連する計算には通常、代表点が使用されます。人々は、そのような点に回転、平行移動、スケール、照明の不変性などの利点があることを期待しています。これらの点は、キーポイントや記述子を含め、画像の特徴点と呼ばれます。キーポイントは特徴点の位置を表現し、記述子は特徴点の視覚的特徴を主にベクトル形式で記述します。一般に、記述子は主に、特定のパターンのキーポイント付近のグレースケール/カラーグラデーションの変化をカウントします。堅牢な記述子の場合、同じ特徴点の記述子の距離 (Distance) は、異なる画像の異なる状況ではより小さくなる必要があります。

記述子は通常、手動で作成された機能です。古典的な説明には、HOG (方向性勾配のヒストグラム) [1]、SIFT (スケール不変特徴変換) [2]、SURF (高速ロバスト特徴) [3]、AKAZE (Accelerated KAZE) [4] などが含まれます。

リアルタイム要件を満たすために、LBP (ローカルバイナリパターン) [5]、BRIEF (バイナリロバスト) など、より高速な計算速度を備えたいくつかのバイナリパターン記述子が設計されています。独立した基本特徴)、ORB (Oriented FAST および回転 BRIEF) [6]、BRISK (Binary堅牢不変スケーラブルキーポイント) [7]、FREAK (Fast retina key-point) [8] など。

ディープラーニングが普及する前は、これらの手作りの機能がコンピューテーショナルビジョン業界全体をリードしていました。現在に至るまで、これらの機能はラベル付きデータが不足しているシナリオで広く使用されています。多くの制約、アプリケーション。以下に、一般的に使用される 2 つの記述子を簡単に紹介します。

#SIFT

##SIFT 記述子は次のとおりです。 CV の世界で最も影響力のあるテクノロジーの 1 つです。キーポイント検出の観点からは、マルチスケール空間上の極値点をキーポイントとして検出するために、主にガウス差分法 (DoG) が使用されます。 Babaud et al. [9] は、ガウス平滑化が使用できる唯一のマルチスケール空間平滑化フィルターカーネルであることを証明し、関連する方法に十分な理論的サポートを提供します。

では、なぜこのような方法で主要な特徴点を見つけることができるのでしょうか?

ガウスカーネルは、ぼかした空間を通じて画像をさまざまなスケールに拡大縮小できるため、一方、勾配の変化が小さい滑らかな領域では、異なるスケール空間での値の差が小さくなります。逆に、エッジ、ポイント、コーナー、テクスチャなどの領域では差が大きくなります。このように、隣接するスケールの画像間で差分をとることにより、最終的にマルチスケール空間の極点を計算することができる。ただし、画像の詳細が異なると、本質的に縮尺も異なります。たとえば、ポートレートでは、小さなぼかしの後に顔が滑らかになって 1 つのピースになる場合がありますが、フレームの隅では局所的な「極端な値」を反映するために大規模なスムージングが必要になる場合があります。

したがって、図 2 に示すように、まず画像ピラミッドを使用して画像をグループ化 (オクターブ) し、次に異なるスケールのガウスカーネルを各グループで使用してシリーズを形成します。層の。この方法は、単により多くのスケールのガウスカーネルを使用するよりも優れており、より多くの特徴点を検出できます。 SIFT はキーポイント検出に DoG を使用しますが、他の検出方法も実行可能であり、SIFT 記述子の確立に影響を与えないことに注意してください。

自動運転の特徴点に基づく全地球測位技術の解析

図 2: ガウス法の違い

SIFT 機能の説明Points sub は、HOG の単純な統計バージョンとして理解できます。図3に示すように、検出されたキーポイントを中心として周囲の16×16の領域を選択し、その領域を4つの4×4のパッチに再構成します。各ブロックについて、8 ビンのヒストグラムを使用して勾配がカウントされます。勾配の方向によって、どのビンに該当するかが決まり、勾配のモジュールによって値のサイズが決まります。スケールの一貫性を確保するには、グラデーションサイズを正規化する必要があります。回転の不変性を確保するために、16 × 16 領域内のすべての勾配に基づいて主方向が計算され、すべての勾配が主方向に従って回転されます。結果は、4 × 4 × 8 の 128 次元ベクトルになります。

自動運転の特徴点に基づく全地球測位技術の解析

#図 3: 勾配ブロック統計に基づく SIFT 記述子

Binary descriptor

##SIFT が提案された後、SURF、AKAZE などのいくつかの改良されたアルゴリズムが作成されました。 2019 年の時点でも、一部のシナリオではアルゴリズムのリアルタイム要件を保証することがまだ困難です。たとえば、ハンドヘルドデバイスの計算能力には一般に限界があります。自動運転では、複数のコンピューティング集約型モジュールによって CPU と GPU リソースを同時にスケジュールする必要があります。したがって、効率はアルゴリズムの実用性を検討するための重要な指標です。

効率を向上させるために、学者によっていくつかのバイナリ記述子が提案されています。一般に、これらの方法では、フィーチャのキーポイントの周囲でポイントサンプリングが実行されます。次に、一対の点のグレースケールサイズが比較され、その結果が 0/1 で表され、N 次元のバイナリ記述ベクトルが形成され、特徴点のバイナリパターンが形成されます。異なるバイナリ記述子の最大の違いは、主に、異なる特徴サンプリングモードと異なる点ペア選択方法にあります。

自動運転の特徴点に基づく全地球測位技術の解析

#図 4: LBP 記述サブサンプリングモード

図に示すように4 に示すように、LBP 記述子はキーポイントの周囲を循環サンプリングし、それを中央のキーポイントのグレースケールと比較するスキームを採用しています。グレースケールの比較結果がリング上に表示され、黒い点が 0、白い点が 1 になります。 LBP はバイナリ記述子の最も単純な形式ですが、ORB は BRIEF 機能を改良し、現在一般的に使用されているバイナリ記述子です。図 5 に示すように、点のペアを選択するとき、ORB は単に中心点を使用するのとは異なり、ランダムな方法を使用して局所的な詳細をより包括的に記述します。ただし、点ペア間の相関は比較的大きく、そのため記述子の識別性が低下します。 ORB は、貪欲かつ網羅的な手法を直接使用してこの問題を解決し、相関の低いランダムな点のペアを見つけます。

自動運転の特徴点に基づく全地球測位技術の解析図 5: ORB 記述子ポイントペア選択モード

##上記のサンプリングバイナリ記述子の方法と点ペア選択方法は人々の一般的な直感と一致していますが、BRISK や FREAK などの記述子は、スケール情報を備えたより規則的なバイナリパターン構築方法を提供します。たとえば、FREAK 記述子は人間の目の視覚サンプリングパターンを模倣します。図6に示すように、各サンプリング点の値は赤い円内の平均グレー値であり、青い線は点ペアの選択計画を表します。

図 6: FREAK はサブサンプリング、ポイントペア選択モードについて説明します。

自動運転の特徴点に基づく全地球測位技術の解析

#バイナリ記述子の高い効率は主に 3 つの側面に反映されます。

(1) バイナリ記述子は特徴記述としてバイナリベクトルを使用し、特定の勾配を計算せずに点ペアのサイズを比較するだけで済みます。

(2) ハミング距離 (ハミング距離) は、計算が速く、最適化が容易であり、2 つの記述子を比較するために使用できます。

(3) 各バイナリベクトルは 10 進数に対応するため、それ自体もパターンを表し、SIFT のようなヒストグラムで表す必要はありません。

バイナリ記述子は、通常、SIFT ファミリ記述子ほど識別力がありませんが、特定のシナリオでは、並列プログラミングと組み合わせることで、同様の識別機能を確保しながら効率を数十倍高めることができます。何百回も。

3 データベースの作成とクエリ

データベースは、マップインデックスの統合として理解できます。マップは、純粋な 2D 画像、3D 点群マップ、または 2D 画像と 3D 点群の組み合わせで構成できます。 3D 点群マップの生成では、主に 3 次元再構成手法 SfM (Structure from motion) を使用して、時系列 2D 画像から 3D 情報を推定します。双眼の RGB-D カメラで奥行きが得られる場合、より正確な 3D 点情報を取得できます。キーフレームなどの選択戦略も含まれていますが、具体的な方法についてはこの記事では扱いませんので、興味のある方はご自身で確認してください。データベースの役割は次のとおりです。

入力観測画像の場合、データベースを通じてマッピング履歴 (画像/点群/特徴点) をクエリして、現在の観測画像の最も可能性の高い観測値を取得します。画像. マップサブセット(画像/点群/特徴点)を取得し、マップと観測情報を照合し、変換行列を計算し、観測カメラの姿勢を取得します。

インデックスは、このプロセスを高速化するための鍵です。データベース自体は巨大になる傾向があります。北京市朝陽市のジョイシティ2階で美団のパウチロボットを試験運用した例では、3台の深度カメラが設置され、審査後も900×600の写真が8万枚近く使用された。測位のリアルタイム性を考慮すると、クエリと 80,000 枚の画像を毎回 1 つずつ比較することは不可能であるため、アルゴリズム全体を高速化するにはインデックス技術を使用する必要があります。この技術は、SLAMにおけるループバックテストや画像検索、ビジョンにおける位置認識と重なる部分が多いため、以下では一般的な手法のみを紹介します。

画像には複数の特徴点があります。特徴点は、VLAD (ローカルに集約された記述子のベクトル) エンコードなど、最初にエンコードする必要があり、ローカル記述子は、画像のグローバルな説明。次に、kd-tree などのインデックスを使用して、イメージレベルのクエリを実行します。もちろん、階層型バッグオブワードモデル (Bag-of-words、BoW) の順方向インデックスおよび逆方向インデックス方式など、エンコードとインデックス付けを同時に実行することもできます。

#VLAD エンコード

##VLAD(ベクトルローカルに集約された記述子）[10]は、図7に示すように、ローカルな記述子を集約してコードブック（Codebook）を形成し、記述子とコードワード（Word）の間の距離を累積的に計算することにより、グローバル符号化の簡単な方法です。方法。

ディメンション記述子自動運転の特徴点に基づく全地球測位技術の解析は、コードワードのコードブックを通じてエンコードされ、ディメンションを形成します記述ベクトルの場合、ベクトル内の値は、記述子と番目の次元の番目のコードワードとの差です。次に、自動運転の特徴点に基づく全地球測位技術の解析正規化を実行して、最終的な VLAD ベクトルを形成します。

自動運転の特徴点に基づく全地球測位技術の解析

図 7: VLAD は記述子とコードワード間の距離によってエンコードされます

ここでは、特に DenseVLAD[11] と NetVLAD[12] について紹介します。 Torii らは、DenseSIFT がクエリとマッチングの両方で標準 SIFT よりも優れていることを証明しました。 DenseVLAD は、2 ピクセル間隔のグリッド状のサンプリングパターンで 4 つのスケールで SIFT ポイントを抽出します。 2,500 万個の記述子をグローバルにランダムにサンプリングし、K-means アルゴリズムを使用して 128 個のコードワードのコードブックを生成します。 VLAD ベクトルは、正規化後に PCA (主成分分析) を使用して次元削減され、最終的な 4096 次元の DenseVLAD ベクトルが形成されます。図 8 に示すように、DenseSIFT を使用してマッチングした後の内部点 (緑色) の数が多くなります。

自動運転の特徴点に基づく全地球測位技術の解析

図 8: DenseSIFT と標準 SIFT の特徴点、マッチング後の内部点 (緑色) の比較

NetVLAD は、VLAD エンコードの識別性を高めるために、VLAD に監視情報を追加します。図 9 に示すように、赤と緑の 2 つの記述子が、一致すべきではない 2 つの画像からのものであると仮定します。両方とも VLAD 中心 (×) からより大きな半径と同様の距離にあるため、L2 正規化後、エンコードされた値は非常に類似します。赤と緑の記述子に対応するピクチャが一致しないという監視情報を追加した後、NetVLAD によって生成された中心点 (★) により 2 つの記述子をより適切に区別し、エンコードされた距離 (半径) の差を増やすことができます。

自動運転の特徴点に基づく全地球測位技術の解析

図 9: NetVLAD クラスタリングセンター (×) と VLAD クラスタリングセンター (★) の比較

#BoW エンコーディングインデックス
##バッグオブワードモデルに基づくBoW[13、14] の特徴エンコーディングとその設計アイデアは、コンピュータービジョンの開発において決定的な役割を果たしますが、ここでは紹介しません。この記事では、2D クエリ画像マッチング 2D 画像データベースを例として、一般的な BoW エンコーディングとインデックス付けの統合モデルを紹介します。図 10 に示すように、辞書 (Vocabulary) は階層的手法を用いて生成され、データセット内のすべての記述子について空間が木構造に従って分割され、各階層は k-means クラスタリングによって計算されます。最後のリーフノードはコードワードに相当します (図 10 には 9 つのコードワードがあります)。

#図 10: 順方向インデックスと逆方向インデックスを備えた階層型 BoW モデル自動運転の特徴点に基づく全地球測位技術の解析

ツリー構築プロセスは、実際には元の画像をエンコードするプロセスです。ただし、エンコード自体は検索プロセスを高速化するものではなく、VLAD と同様に、データベース内の画像と 1 つずつ比較する必要があります。したがって、ここでは、符号化されたベクトルを比較する必要のない逆インデックス (Inverse Index) が設計されています。原理を図 11 に示します。クエリ画像 (Query image) の場合、抽出された記述子は BoW に入力され、最終的にコードワードリーフノード (ビジュアルワード) k に分類されます。

各コードワードはインデックスに対応し、コードワード自動運転の特徴点に基づく全地球測位技術の解析の重みをデータベースの番目の画像に記録します (図10)。ここで、重みは TF-IDF (用語頻度 – 逆文書頻度) を使用して計算されます。つまり、単語がある画像に頻繁に出現し、他の画像では出現頻度が低い場合、この単語の画像識別性と重み値が優れていることになります。自動運転の特徴点に基づく全地球測位技術の解析さらに高くなります。最後に、投票メカニズムを通じて一致する画像が選択されます。逆インデックスは必ずしもツリー構造の BoW 上に構築されるわけではなく、高速なクエリの方法を提供するだけであることにも注意してください。

自動運転の特徴点に基づく全地球測位技術の解析

#図 11: 逆インデックス投票メカニズムを介して画像を直接クエリする

Direct Index の機能は主に、BoW を構築する際にデータベース画像の特徴点がどのノードに該当するかを記録することであり、これにより画像をクエリする際に特徴点を計算する必要がなく、特徴点を抽出することができます。インデックスを介して直接. 特徴点。

#3D 点群クエリ
##2D で画像クエリでは、画像は最初に意味レベルからクエリされるため、特徴点の空間範囲を画像を通じて制限できます。 3D 点群クエリにはそのような制約がないため、多くの困難があります。空間的な連続性を考慮する必要がある場合は、クエリされたすべての点が観測可能な範囲内にあるかどうかなどを考慮します。ここでは、TPAMI 2016 で Sattler によって公開されたメソッド [15] のみを紹介します。何年にもわたる改良を経て、このメソッドのフレームワークは比較的シンプルで完全なものになりました。辞書エンコード検索の手順は前のセクションの内容と重複するため、ここではアクティブ検索と可視性フィルタリングの 2 つのメカニズムのみを紹介します。

アクティブ検索は主に、一致する 3D ポイントを空間内で可能な限り近づけ、幾何学的意味を持たせることを目的としています。図 12 に示すように、赤い点は、一連のエンコードと洗練のプロセスを通じて点群内の点と一致します (赤い線)。提案された優先順位付けフレームワークによれば、最も高い確率で 3D 点が点群から検出され、逆に (青い線) クエリ画像内の対応する 2D 点と一致します。

自動運転の特徴点に基づく全地球測位技術の解析図 12: アクティブな検索

##図 13: 可視性フィルタリング自動運転の特徴点に基づく全地球測位技術の解析 ##

可視性フィルタリングは主に、一致したポイントをカメラから可能な限り見えるようにすることです (位置決めは監視されず、一致したポイントが正しいかどうかを知ることはできません)。ここで採用されている方法は、SfM を使用して 3D 点群マップを作成する際に、2 部の視程グラフを作成することです。図 13 (左) に示すように、ある点を 2 台のカメラで同時に観察できる場合、位相関係が確立されます。図 13 (中) では、青い点が対応点であり、観察の観点からは矛盾しています。既存のトポロジに対してグラフクラスタリングを実行すると、図 13 (右) に示すように、カメラが 2 つのグループにグループ化されます。このようにして、新しいグラフトポロジ関係を生成できます。次に、各サブグラフ間の重なりを判断することにより、見えない可能性が高い点を除外します。

双眼カメラと RGB-D カメラは深度を取得できますが、2D 画像をクエリすると限られた範囲内の 3D 特徴点座標も取得できることに注意してください。ただし、現在の技術的な制限により、、複雑な屋内マテリアルや大規模な屋外シーンでは、深度は信頼できません。したがって、2D 画像点と 3D 点群マップのマッチングは依然として重要な方法です。

4 特徴点マッチング

特徴点マッチングプロセスは、データベースクエリ内で適応的に完了できます。これは 3D 構造でより一般的です。ベースのお問い合わせ。照合はクエリの後に個別に実行することもできます。これは 2D 画像ベースのクエリでより一般的です。特徴マッチングの目的は、姿勢計算を実現するための後続の変換行列計算にマッチング点ペアを提供することです。

#クラシック RANSAC

一貫したランダムサンプリングアルゴリズム (ランダムサンプルコンセンサス、RANSAC) [16] は、古典的なデータフィルタリングおよびパラメータフィッティングアルゴリズムです。データの分布（インライア）が特定の数学モデルに準拠していると仮定し、反復計算により外れ値やノイズ点を除去し、同時に確率的に最適なモデルパラメータを取得します。グローバルポジショニングでは、内部点は正しい一致を指し、外部点は不正確な一致を指し、パラメトリックモデルは一致する点のペアの空間変換行列を指します。図 14 に示すように、RANSAC アルゴリズムによる最適化の後、マッチングはより合理的になります。 RANSAC が見つけることを期待する一致するサブセットは、内部点の再投影誤差ができるだけ小さいこと、内部点の数ができるだけ大きいという 2 つの指標を満たす必要があります。したがって、基本的なプロセスは次のとおりです。

#① 初期サブセットをサンプリングします。
② 変換行列を計算します。
③ 変換行列に基づいてマッチング点の再投影誤差を計算します。
④ 大きな誤差のある点を削除します
⑤ ①～④をループして、指標に最もよく適合する一致ソリューションを保持します。

自動運転の特徴点に基づく全地球測位技術の解析

図 14: (上) 元の特徴のマッチング、(下) RANSAC アルゴリズムによって最適化されたマッチング

このうち、最初の候補マッチングは記述子間の距離に基づいて生成されますが、再投影誤差はキーポイントの空間位置にのみ関係し、記述子自体とは関係ありません。。具体的な射影行列の手法については「2.4 姿勢計算」を参照してください。 RANSAC アルゴリズムは、元のマッチング誤差とパラメータ選択の影響を受けるため、アルゴリズムが合理的であるのに十分な確率を保証できるだけであり、必ずしも最適な結果が得られるわけではないことに注意してください。アルゴリズムパラメーターには主にしきい値と反復回数が含まれます。 RANSAC が信頼できるモデルを取得する確率は反復回数に正比例し、取得された一致の数はしきい値に反比例します。したがって、実際の使用では、より良い結果を得るために、異なるパラメータ設定を繰り返し試す必要がある場合があります。

学者らは、古典的な RANSAC アルゴリズムに多くの改良を加え、図 15 に示すように、グローバル RANSAC (Universal-RANSAC) の構造図 [17] を提案し、普遍的な RANSAC アルゴリズムを形成しています。 RANSAC アルゴリズム: 適応型 RANSAC アーキテクチャは、事前フィルタリング、最小サブセットサンプリング、最小サブセットからの信頼性の高いモデル生成、パラメータ検証、モデル改良など、RANSAC のほぼすべての改善点をカバーしています。

自動運転の特徴点に基づく全地球測位技術の解析

#図 15: Universal-RANSAC ユニバーサルアルゴリズムフレームワーク

微分可能な RANSAC

手動記述子は依然として測位分野で高いパフォーマンスを示しているため、一部の学者は、エンドツーエンドの姿勢推定モデルを直接使用して従来の手法を完全に置き換えるのではなく、深層学習を使用してアルゴリズムフレームワークの特定の部分を置き換えます。微分可能 RANSAC (DSAC) [18] は、決定論的な仮説選択を確率論的な仮説選択に置き換えて、RANSAC プロセスを導き出すことを目的としています。指標の違いは、誤差が特徴点ではなく画像全体に基づいており、特徴点一致をスクリーニングする元のプロセスが、カメラ姿勢仮説 h を確率で直接スクリーニングするプロセスに置き換えられることです。現在の方法には比較的大きな制限がありますが、DSAC は、現在の教師なし測位アルゴリズムフレームワークに事前知識を追加する方法についての実現可能なアイデアを提供します。

自動運転の特徴点に基づく全地球測位技術の解析

#図 16: 差分 RANSAC アルゴリズムのフレームワーク

5 姿勢計算

#取得された正しい一致点ペアについては、幾何学的制約を通じて対応する変換行列 (変換行列) を計算する必要があります。データベース内の点座標とサンプリング時のカメラ姿勢は既知であるため、その点の変換行列をマップ点と照合することで現在のカメラ姿勢を取得できます。いくつかの基本的なシンボルがここで定義されています。カメラの内部パラメータは自動運転の特徴点に基づく全地球測位技術の解析で、変換モーメントの均一形式は次のとおりです。

ここで、は回転行列、は平行移動行列です。

#2.4.1 2D-2D 変換行列の計算

自動運転の特徴点に基づく全地球測位技術の解析

##図 17: 2D-エピポーラ2D 変換行列計算におけるジオメトリ

#2 つの 2 次元画像内の一致する特徴点ペア () の正規化平面上の座標は () であり、対応する変換行列はエピポーラ制約を通じて計算する必要があります。図 17 に示すように、その幾何学的意味は 3 つが同一平面上にあるということです。この面は極面とも呼ばれ、

はベースラインと呼ばれ、自動運転の特徴点に基づく全地球測位技術の解析は極面と呼ばれます。エピポーラ制約には平行移動と回転の両方が含まれており、次のように定義されます:

このうち、自動運転の特徴点に基づく全地球測位技術の解析は正規化平面上のの座標、∧ は外積演算子です。式の中間部分を基本行列と必須行列として計算すると、次のようになります。

必須行列自動運転の特徴点に基づく全地球測位技術の解析

にはスケール情報がないため、E にゼロ以外の定数を乗算した後もエピポーラ制約は維持されます。自動運転の特徴点に基づく全地球測位技術の解析は古典的な 8 点法 (8 点アルゴリズム) で解くことができ、その後分解して、## を取得します。＃。したがって、2D-2D 変換行列解法には 2 つの欠点があることがわかります。1 つは、単眼視覚にはスケールの不確実性があり、スケール情報は初期化中に自動運転の特徴点に基づく全地球測位技術の解析によって提供される必要があります。同様に、単眼の初期化は純粋な回転だけではなく、十分な程度の平行移動が必要です。そうでない場合、はゼロになります。 #2D-3D 変換行列の計算

# # 2D-3D マッチングは姿勢推定における重要な方法です。一般に、PnP メソッドが使用されます。つまり、
は、2D-3D 対応点の変換行列を解き、カメラのポーズを取得することが知られています。 3D 点 P(X, Y, Z) をカメラの撮像面 (

) に投影します。自動運転の特徴点に基づく全地球測位技術の解析

このうち、自動運転の特徴点に基づく全地球測位技術の解析はスケールです。この方程式の解は一次方程式問題に還元でき、各特徴は 2 つの線形制約を提供できます。

自動運転の特徴点に基づく全地球測位技術の解析

このようにして、少なくとも、 6 を渡すことができます。一致する点を解き、一致の数が 6 を超える場合は、SVD およびその他の手法を使用して最小二乗法を構築することで問題を解決できます。 P3P 法は PnP 法の特殊な解法とみなすことができ、図 18 に示すように、三角形の相似特性を利用して制約を追加し、問題を解くのに必要な点のペアは 3 つだけです。その他の解決方法には、直接線形変換 (DLT)、EPnP (Efficient PnP) 方法、UPnP (Uncalibrated PnP) などが含まれます。上記の線形最適化手法と比較して、バンドル調整 (BA) などの非線形最適化手法も広く使用されています。 BA 法は、ビジュアル SLAM における一種の「万能」な存在であり、複数の変数を同時に最適化できるため、局所的なエラーによって引き起こされるシステムの不安定性をある程度軽減できます。より深く理解するための関連情報。

自動運転の特徴点に基づく全地球測位技術の解析

##図 18: 2D-3D 変換行列計算における P3P 手法

3D-3D 変換行列の計算

3D 点間の変換行列を使用できます。反復クローゼットポイント (ICP) アルゴリズム。点ペアマッチング (

) の結果が正しいと仮定すると、取得された変換行列は再投影誤差自動運転の特徴点に基づく全地球測位技術の解析を最小限に抑える必要があります。 SVD を使用して最小二乗問題を解くことができます:

自動運転の特徴点に基づく全地球測位技術の解析 # または、リー代数に基づく非線形最適化手法バンドル調整を使用して

# を解決します。

##このうち、自動運転の特徴点に基づく全地球測位技術の解析

はカメラのポーズを表します。ここでの最適化目標は、2D-3D マッチングにおけるバンドル調整の目標と似ていますが、元の画像は双眼カメラまたは RGB によって処理されているため、カメラの内部パラメータ自動運転の特徴点に基づく全地球測位技術の解析を考慮する必要はありません。 -D 深度カメラ: 2D 点がカメラの撮像面から 3D 世界に投影されます。 ICP 問題には、独自の解決策と無限の解決策があることが証明されています。したがって、一意な解が存在する場合、最適化関数は凸関数に相当し、その最小値が大域最適解となり、どのような初期化を行ってもこの一意な解が得られる。これは ICP 法の大きな利点の 1 つです。

この記事では、画像記述、マッピングクエリ、特徴マッチング、姿勢計算の 4 つの側面から特徴点に基づく姿勢推定アルゴリズムを紹介します。従来の視覚的全地球測位手法が依然として実用化の第一選択ですが、従来の手法は、特徴点が正しく定義され、正しく抽出され、正しく照合され、正しく観察されるという前提に基づいており、この前提は視覚にとって非常に重要です。それ自体、大きな挑戦です。第二に、従来の手法はエンドツーエンドではなく多段階のフレームワークであるため、各リンクとリンク間の相互作用には多くのパラメータ調整が必要であり、各リンクのテクノロジーを個別の研究方向として使用できます。実際のアプリケーションでは、特定のシナリオに対応する多くのトリックを追加する必要があり、エンジニアリングがより複雑になります。

そして、エンドツーエンド方式に対する人々の期待により、PoseNet、VLocNet、HourglassNet などのネットワークが誕生し、ベンチマークで良好な結果を達成しています。著者は、現在のエンドツーエンド手法にはまだ多くの問題があると考えていますが、主な問題としては、損失関数に幾何学的制約が欠けていること、マップを構築する際の姿勢の 6 自由度空間が連続的ではないこと、入力空間との適切なマッピングを形成することが困難であり、対応する位置、姿勢回帰、改良メカニズムなどが欠如しています。ディープラーニングは非線形空間の最も強力なモデリングツールとして、今後測位の分野でさらに登場する可能性は否定できません。

視覚的な位置決めそのものに戻ると、視覚の最も重要な利点は、低コスト、豊富なセマンティクス、および使用シナリオの制限がほとんどないことです。したがって、視覚に焦点を当て、他の低コストセンサーによって補完される位置決め融合ソリューションも、将来的には重要なテーマとなるでしょう。

以上が自動運転の特徴点に基づく全地球測位技術の解析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7552

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

なぜ自動運転ではガウススプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューターグラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリングアルゴリズムにより、3DGS はリアルタイムレンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジシナリオの「ロングテール」とは、自動運転車 (AV) におけるエッジケースを指します。エッジケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 Oct 12, 2023 am 11:21 AM

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点：車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある難易度：画像の歪みを考慮する必要がある歪み補正と歪み付加の両方を画面上で補正する2. はじめにビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転と軌道予測についてはこの記事を読めば十分です！ Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラルネットワークアーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 Apr 15, 2024 pm 04:13 PM

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンドシステムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー（カメラ/LiDAR）からのデータを入力

nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。

先頭と開始点に書かれているエンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパースアーキテクチャが、検出、追跡、オンラインマッピングなどのタスク認識のために設計されています。さらに、重い

See all articles

自動運転の特徴点に基づく全地球測位技術の解析

1 視覚的全地球測位の概念

2 特徴点抽出

3 データベースの作成とクエリ

4 特徴点マッチング

5 姿勢計算

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック