#BEV 知覚とは正確には何ですか?自動運転の学界と産業界の両方が注目しているBEV認識の側面は何ですか?この記事ではその答えを明らかにします。
自動運転の分野では、知覚モデルに強力な鳥瞰図 (BEV) 表現を学習させることがトレンドになっており、産業界や学界から幅広い注目を集めています。自動運転分野のこれまでのほとんどのモデルは、正面図や斜視図で検出、セグメンテーション、追跡などのタスクを実行することに基づいていましたが、鳥瞰図 (BEV) 表現により、モデルは遮蔽された車両をより適切に識別できるようになります。後続のモジュール (計画、制御など) の開発と展開を容易にします。
BEV 知覚研究は自動運転の分野に多大な潜在的影響を及ぼしており、学術界や産業界からの長期的な注目と投資に値することがわかります。 ?自動運転の学界や産業界のリーダーが注目するBEV認識の内容とは?この記事では、BEVPerception Survey を通じてその答えを明らかにします。
BEVPerception Survey は、上海人工知能研究所の自動運転 OpenDriveLab チーム と SenseTime Research Institute# のコラボレーションです。 ##共同論文「Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe」の実践ツール提示手法をBEVPercptionとPyTorchベースの最新文献研究に分けて解説オープンソース BEV 認識ツールボックス #のセクション。
紙のアドレス: https://arxiv.org/abs/2209.05324BEV Perception Toolbox
は、BEV カメラに基づく 3D オブジェクト検出用のプラットフォームであり、Waymo データで使用されますJishang は、手動チュートリアルと小規模データセットの実験を実行できる実験プラットフォームを提供します。 図 1: BEVPerception 調査フレームワーク
具体的には、BEV カメラは次のことを表します。周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのアルゴリズム、BEV LIDAR は、検出またはセグメンテーション タスクを完了するための入力として点群を使用することを表します、BEV フュージョンは、カメラ、LiDAR、GNSS、オドメトリ、HD などの複数のセンサーの出力を入力として使用します-地図、CANバスなどBEVPercption 文献レビュー調査
BEV カメラ
BEV カメラの認識には 2D 特徴抽出が含まれますコンバーター、ビュートランスフォーマー、3D デコーダーの 3 つの部分で構成されます。以下の図は、BEV カメラの認識フローチャートを示しています。ビュー変換では、3D 情報をエンコードするには 2 つの方法があります - 1 つは 2D フィーチャから奥行き情報を予測する方法、もう 1 つは 3D 空間から 2D フィーチャをサンプリングする方法です。
#
図 2: BEV カメラ認識フローチャート
2D 特徴抽出器については、こちらをご覧ください。 2D 知覚タスクでの豊富な経験は、主な介入トレーニングの形式など、3D 知覚タスクから学ぶことができます。
#ビュー変換モジュール # は、2D 認識システムとは大きく異なる点です。上図に示すように、ビューの変換には 3D 空間から 2D 空間への変換と 2D 空間から 3D 空間への変換の 2 つの方法があり、これら 2 つの変換方法はいずれも 3D で使用されます。システム内の物理に関する事前の知識をスペースに入れたり、監視のために追加の 3D 情報を利用したりできます。すべての 3D 認識メソッドにビュー変換モジュールがあるわけではないことに注意してください。たとえば、一部のメソッドは 2D 空間のフィーチャから 3D 空間のオブジェクトを直接検出します。
3D デコーダ 2D/3D 空間の特徴を受信し、3D 認識結果を出力します。ほとんどの 3D デコーダは、LiDAR ベースの知覚モデルから設計されています。これらの方法は BEV 空間で検出を実行しますが、2D 空間の機能を利用して 3D オブジェクトの位置特定を直接後退させる 3D デコーダがまだいくつかあります。
BEV Lidar
BEV Lidar 認識の一般的なプロセスは、主に 2 つのブランチを組み合わせて点群を変換することです。データをBEV表現に変換します。以下の図は BEV LIDAR センシングのフローチャートを示しており、上のブランチは 3D 空間の点群特徴を抽出して、より正確な検出結果を提供します。下のブランチは 2D 空間で BEV 特徴を抽出し、より効率的なネットワークを提供します。生の点群を操作するポイントベースの方法に加えて、ボクセルベースの方法は、点を離散グリッドにボクセル化し、連続 3D 座標を離散化することでより効率的な表現を提供します。離散ボクセル表現に基づいて、3D 畳み込みまたは 3D スパース畳み込みを使用して点群特徴を抽出できます。
#図 3: BEV LIDAR センシングのフローチャート
BEV フュージョン
BEV 知覚融合アルゴリズムには、PV 知覚と BEV 知覚の 2 つの方法があり、学術界や産業界に適しています。以下の図は、PV センシングと BEV センシングのフローチャートの比較を示しています。この 2 つの主な違いは、2D から 3D への変換および融合モジュールです。 PV を意識したフローチャートでは、さまざまなアルゴリズムの結果が最初に 3D 空間に変換され、次に事前の知識または手動で設計されたルールを使用して融合されます。 BEV 認識フローチャートでは、PV 特徴マップが BEV パースペクティブに変換され、BEV 空間に融合されて最終結果が得られます。これにより、元の特徴情報が最大限に保持され、過度の手動設計が回避されます。#図 4: PV センシング (左) および BEV センシング (右) のフローチャート
BEV センシング モデルに適したデータセット
#表 1: BEV センシング データセットのリスト
ただし、現在、学術コミュニティ Waymo が開発した BEV 認識タスク用の公的に入手可能なソフトウェアはありません。したがって、Waymo データセット上での BEV センシングタスクの開発を促進したいと考え、Waymo データセットに基づいて開発することを選択しました。
BEVFormer は一般的に使用される BEV 認識手法であり、時空間変換機能を使用して、マルチビュー入力からバックボーン ネットワークによって抽出された特徴を BEV 特徴に変換します。次に、BEV の特徴が検出ヘッドに入力されて、最終的な検出結果が得られます。 BEVFormer には 2 つの特徴があり、2D 画像特徴から 3D 特徴への正確な変換と、抽出した BEV 特徴をさまざまな検出ヘッドに適用できます。一連の方法を通じて、BEVFormer のビュー変換品質と最終検出パフォーマンスをさらに向上させました。
CVPR 2022 Waymo Challenge で 1 位を獲得した後、 BEVFormer で、Toolbox - BEV Perception Toolbox## を立ち上げました。 # は、使いやすい Waymo Open Dataset データ処理ツールのセットを提供することにより、モデルのパフォーマンスを大幅に向上させる一連の方法 (データ強化、検出ヘッド、損失関数、モデル統合を含むがこれらに限定されない) を統合します。 、など)、mmdetection3d や detectron2 など、この分野で広く使用されているオープンソース フレームワークと互換性があります。基本的な Waymo データ セットと比較して、BEV 認識ツールボックスは、さまざまなタイプの開発者が使用できるように最適化および使用スキルを向上させます。以下の図は、Waymo データセットに基づく BEV 認識ツールボックスの使用例を示しています。
#図 5: Waymo データセットに基づくツールボックスの使用例 概要
以上が論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。