目次
BEV センシング タスクには多くのデータ セットがあります。通常、データセットはさまざまなシーンで構成されており、各シーンの長さはデータセットごとに異なります。次の表は、学術コミュニティで一般的に使用されるデータ セットをまとめたものです。 Waymo データセットには、他のデータセットよりも多様なシーンと豊富な 3D 検出ボックス アノテーションがあることがわかります。
ツールボックス - BEV 認識ツールボックス
ホームページ テクノロジー周辺機器 AI 論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

Apr 13, 2023 pm 10:31 PM
オートパイロット

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#BEV 知覚とは正確には何ですか?自動運転の学界と産業界の両方が注目しているBEV認識の側面は何ですか?この記事ではその答えを明らかにします。

自動運転の分野では、知覚モデルに強力な鳥瞰図 (BEV) 表現を学習させることがトレンドになっており、産業界や学界から幅広い注目を集めています。自動運転分野のこれまでのほとんどのモデルは、正面図や斜視図で検出、セグメンテーション、追跡などのタスクを実行することに基づいていましたが、鳥瞰図 (BEV) 表現により、モデルは遮蔽された車両をより適切に識別できるようになります。後続のモジュール (計画、制御など) の開発と展開を容易にします。

BEV 知覚研究は自動運転の分野に多大な潜在的影響を及ぼしており、学術界や産業界からの長期的な注目と投資に値することがわかります。 ?自動運転の学界や産業界のリーダーが注目するBEV認識の内容とは?この記事では、BEVPerception Survey を通じてその答えを明らかにします。

BEVPerception Survey は、上海人工知能研究所の自動運転 OpenDriveLab チームSenseTime Research Institute# のコラボレーションです。 ##共同論文「Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe」の実践ツール提示手法をBEVPercptionとPyTorchベースの最新文献研究に分けて解説オープンソース BEV 認識ツールボックス #のセクション。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

紙のアドレス: https://arxiv.org/abs/2209.05324
  • #プロジェクトアドレス: https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe
  • 要約解釈、技術的解釈BEVP認知調査最新の文献レビュー調査には、主に 3 つの部分 (
BEV カメラ、BEV ライダー、BEV フュージョン

) が含まれています。 BEV カメラは、周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのためのビジョンのみまたはビジョン中心のアルゴリズムを表します。BEV LiDAR は、点群入力の検出またはセグメンテーション タスクを表します。BEV フュージョンは、複数のセンサーからの検出またはセグメンテーション タスクを表します。入力フュージョン メカニズムカメラ、LIDAR、グローバル ナビゲーション システム、オドメトリ、HD マップ、CAN バスなど。

BEV Perception Toolbox

は、BEV カメラに基づく 3D オブジェクト検出用のプラットフォームであり、Waymo データで使用されますJishang は、手動チュートリアルと小規模データセットの実験を実行できる実験プラットフォームを提供します。 図 1: BEVPerception 調査フレームワーク

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

具体的には、BEV カメラは次のことを表します。周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのアルゴリズム、BEV LIDAR は、検出またはセグメンテーション タスクを完了するための入力として点群を使用することを表します、BEV フュージョンは、カメラ、LiDAR、GNSS、オドメトリ、HD などの複数のセンサーの出力を入力として使用します-地図、CANバスなどBEVPercption 文献レビュー調査

BEV カメラ

BEV カメラの認識には 2D 特徴抽出が含まれますコンバーター、ビュートランスフォーマー、3D デコーダーの 3 つの部分で構成されます。以下の図は、BEV カメラの認識フローチャートを示しています。ビュー変換では、3D 情報をエンコードするには 2 つの方法があります - 1 つは 2D フィーチャから奥行き情報を予測する方法、もう 1 つは 3D 空間から 2D フィーチャをサンプリングする方法です。

#

図 2: BEV カメラ認識フローチャート

2D 特徴抽出器については、こちらをご覧ください。 2D 知覚タスクでの豊富な経験は、主な介入トレーニングの形式など、3D 知覚タスクから学ぶことができます。

#ビュー変換モジュール # は、2D 認識システムとは大きく異なる点です。上図に示すように、ビューの変換には 3D 空間から 2D 空間への変換と 2D 空間から 3D 空間への変換の 2 つの方法があり、これら 2 つの変換方法はいずれも 3D で使用されます。システム内の物理に関する事前の知識をスペースに入れたり、監視のために追加の 3D 情報を利用したりできます。すべての 3D 認識メソッドにビュー変換モジュールがあるわけではないことに注意してください。たとえば、一部のメソッドは 2D 空間のフィーチャから 3D 空間のオブジェクトを直接検出します。

3D デコーダ 2D/3D 空間の特徴を受信し、3D 認識結果を出力します。ほとんどの 3D デコーダは、LiDAR ベースの知覚モデルから設計されています。これらの方法は BEV 空間で検出を実行しますが、2D 空間の機能を利用して 3D オブジェクトの位置特定を直接後退させる 3D デコーダがまだいくつかあります。

BEV Lidar

BEV Lidar 認識の一般的なプロセスは、主に 2 つのブランチを組み合わせて点群を変換することです。データをBEV表現に変換します。以下の図は BEV LIDAR センシングのフローチャートを示しており、上のブランチは 3D 空間の点群特徴を抽出して、より正確な検出結果を提供します。下のブランチは 2D 空間で BEV 特徴を抽出し、より効率的なネットワークを提供します。生の点群を操作するポイントベースの方法に加えて、ボクセルベースの方法は、点を離散グリッドにボクセル化し、連続 3D 座標を離散化することでより効率的な表現を提供します。離散ボクセル表現に基づいて、3D 畳み込みまたは 3D スパース畳み込みを使用して点群特徴を抽出できます。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 3: BEV LIDAR センシングのフローチャート

BEV フュージョン

BEV 知覚融合アルゴリズムには、PV 知覚と BEV 知覚の 2 つの方法があり、学術界や産業界に適しています。以下の図は、PV センシングと BEV センシングのフローチャートの比較を示しています。この 2 つの主な違いは、2D から 3D への変換および融合モジュールです。 PV を意識したフローチャートでは、さまざまなアルゴリズムの結果が最初に 3D 空間に変換され、次に事前の知識または手動で設計されたルールを使用して融合されます。 BEV 認識フローチャートでは、PV 特徴マップが BEV パースペクティブに変換され、BEV 空間に融合されて最終結果が得られます。これにより、元の特徴情報が最大限に保持され、過度の手動設計が回避されます。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 4: PV センシング (左) および BEV センシング (右) のフローチャート

BEV センシング モデルに適したデータセット

BEV センシング タスクには多くのデータ セットがあります。通常、データセットはさまざまなシーンで構成されており、各シーンの長さはデータセットごとに異なります。次の表は、学術コミュニティで一般的に使用されるデータ セットをまとめたものです。 Waymo データセットには、他のデータセットよりも多様なシーンと豊富な 3D 検出ボックス アノテーションがあることがわかります。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。#表 1: BEV センシング データセットのリスト

ただし、現在、学術コミュニティ Waymo が開発した BEV 認識タスク用の公的に入手可能なソフトウェアはありません。したがって、Waymo データセット上での BEV センシングタスクの開発を促進したいと考え、Waymo データセットに基づいて開発することを選択しました。

ツールボックス - BEV 認識ツールボックス

BEVFormer は一般的に使用される BEV 認識手法であり、時空間変換機能を使用して、マルチビュー入力からバックボーン ネットワークによって抽出された特徴を BEV 特徴に変換します。次に、BEV の特徴が検出ヘッドに入力されて、最終的な検出結果が得られます。 BEVFormer には 2 つの特徴があり、2D 画像特徴から 3D 特徴への正確な変換と、抽出した BEV 特徴をさまざまな検出ヘッドに適用できます。一連の方法を通じて、BEVFormer のビュー変換品質と最終検出パフォーマンスをさらに向上させました。

CVPR 2022 Waymo Challenge で 1 位を獲得した後、 BEVFormer で、Toolbox - BEV Perception Toolbox## を立ち上げました。 # は、使いやすい Waymo Open Dataset データ処理ツールのセットを提供することにより、モデルのパフォーマンスを大幅に向上させる一連の方法 (データ強化、検出ヘッド、損失関数、モデル統合を含むがこれらに限定されない) を統合します。 、など)、mmdetection3d や detectron2 など、この分野で広く使用されているオープンソース フレームワークと互換性があります。基本的な Waymo データ セットと比較して、BEV 認識ツールボックスは、さまざまなタイプの開発者が使用できるように最適化および使用スキルを向上させます。以下の図は、Waymo データセットに基づく BEV 認識ツールボックスの使用例を示しています。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 5: Waymo データセットに基づくツールボックスの使用例 概要

    BEVPerception Surveyは、高レベルの概念の精緻化とより詳細な詳細な議論を含む、近年のBEV知覚技術研究の全体的な状況を要約しています。 BEV センシングに関連する文献の包括的な分析では、深度推定、ビュー変換、センサー フュージョン、ドメイン アダプテーションなどの中核的な問題をカバーし、産業システムにおける BEV センシングのアプリケーションについてより詳細な説明を提供します。
  • BEVPerception Survey は、理論的な貢献に加えて、一連のトレーニングを含む、カメラベースの 3D 鳥瞰図 (BEV) 物体検出のパフォーマンスを向上させるための非常に実用的なツールボックスも提供します。データ強化戦略、効率的なエンコーダー設計、損失関数設計、テストデータ強化およびモデル統合戦略など、および Waymo データセットでのこれらの技術の実装。私たちは、より多くの研究者が「Use and Take」を実現できるよう支援し、自動運転業界の研究者にさらなる利便性を提供したいと考えています。
BEVPerception Survey が、ユーザーが高性能の BEV 知覚モ​​デルを簡単に使用できるようにするだけでなく、初心者が BEV 知覚を始めるための良い出発点となることを願っています。モデル。私たちは自動運転分野における研究開発の限界を突破することに尽力しており、自動運転関連研究の現実世界への応用可能性を継続的に探求するために、学術コミュニティと意見を共有し、議論を交換することを楽しみにしています。

以上が論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? 自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

自動運転と軌道予測についてはこの記事を読めば十分です! 自動運転と軌道予測についてはこの記事を読めば十分です! Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 座標系の変換を本当にマスターしましたか?自動運転と切り離せないマルチセンサーの問題 Oct 12, 2023 am 11:21 AM

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。 nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。 Apr 17, 2024 pm 06:22 PM

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 Apr 15, 2024 pm 04:13 PM

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力

See all articles