目次
展開
将来の方向
ホームページ テクノロジー周辺機器 AI SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

Sep 18, 2023 pm 08:25 PM
テクノロジー オートパイロット

この作業では、マルチフレーム点群を通じて高密度の占有ラスター データセットを構築し、トランスフォーマーの 2D-3D Unet 構造に基づいて 3 次元占有ラスター ネットワークを設計しました。私たちの記事が ICCV 2023 に掲載されていることを光栄に思います。プロジェクト コードは現在オープンソースであり、誰でも試すことができます。

SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

arXiv: https://arxiv.org/pdf/2303.09551.pdf

コード: https://github.com/weiyithu/SurroundOcc

ホームページ リンク: https://weiyithu.github.io/SurroundOcc/

最近、狂ったように仕事を探していて、書く時間がありません。最近、カメラ準備完了の提出物を提出したところです。社会人として、結局は志胡のまとめを書いた方が良いのではないかと思いました。実際、記事の導入部分はすでにさまざまな公開アカウントによってよく書かれており、その宣伝のおかげで、自動運転の心臓部である nuScenes SOTA! を直接参照することができます。 SurroundOcc: 自動運転用の純粋なビジュアル 3D 占有予測ネットワーク (清華およびTianda)。一般に、貢献は 2 つの部分に分かれており、1 つはマルチフレーム LIDAR 点群を使用して高密度の占有データ セットを構築する方法、もう 1 つは占有予測用のネットワークを設計する方法です。実際、どちらの部分も比較的単純で理解しやすい内容になっており、わからないことがあればいつでも質問していただけます。そこでこの記事では、理論以外のことについてお話したいと思います。1 つは、現在のソリューションをどのように改善して導入しやすくするか、もう 1 つは将来の開発の方向性です。

SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

展開

SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

ネットワークの展開が簡単かどうかは、主にネットワークが適切かどうかによって決まります。オペレータはボード側に実装されますが、SurroundOcc メソッドの 2 つのより困難なオペレータは、トランス層と 3D コンボリューションです。

トランスフォーマーの主な機能は、2D 特徴を 3D 空間に変換することです。実際、この部分は LSS、ホモグラフィー、さらには mlp を使用して実装することもできるため、ネットワークのこの部分は、実装されたソリューション。ただし、私の知る限り、変圧器ソリューションはキャリブレーションの影響を受けにくく、いくつかのソリューションの中でパフォーマンスが優れているため、変圧器の展開を実装する能力がある人は、元のソリューションを使用することをお勧めします。

3D コンボリューションの場合は、2D コンボリューションに置き換えることができます。ここでは、(C、H、W、Z) の元の 3D 特徴を (C* Z、H、W) 2D 特徴に再形成する必要があります。その後、特徴抽出に 2D 畳み込みを使用でき、最後の占有予測ステップでは、(C、H、W、Z) に再整形され、監視されます。一方、スキップ接続は解像度が高いため、より多くのビデオ メモリを消費しますが、展開時に削除して、最小解像度のレイヤーのみを残すことができます。私たちの実験では、3D コンボリューションのこれら 2 つの操作には nuscene でいくつかのドロップ ポイントがあることがわかりましたが、業界のデータ セットの規模は nuscene よりもはるかに大きいため、場合によってはいくつかの結論が変更され、ドロップ ポイントは少なくなるか、まったくなくなるはずです。

SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

データセットの構築に関して、最も時間のかかるステップはポアソン再構成です。収集には 32 ライン LIDAR を使用する nuscenes データ セットを使用します。マルチフレーム ステッチング技術を使用した場合でも、ステッチされた点群には依然として多くの穴が存在することがわかりました。したがって、これらの穴を埋めるためにポアソン再構成を採用しました。ただし、現在業界で使用されている LIDAR 点群の多くは、M1、RS128 など比較的密度が高くなります。したがって、この場合、データセットの構築を高速化するためにポアソン再構成ステップを省略できます。

一方、SurroundOcc は、nuscenes でマークされた 3 次元ターゲット検出フレームを使用して、静的シーンを結合します。と動的オブジェクトが分離されます。ただし、実際のアプリケーションでは、大規模な 3 次元ターゲット検出および追跡モデルであるオートラベルを使用して、シーケンス全体の各オブジェクトの検出フレームを取得できます。手動で注釈を付けたラベルと比較すると、大規模なモデルを使用して生成された結果には間違いなくエラーが含まれます。最も直接的に現れるのは、オブジェクトの複数のフレームを結合した後のゴースト現象です。しかし実際には、職業では物体の形状に対する要求はそれほど高くなく、検出枠の位置が比較的正確であれば要求を満たすことができます。

将来の方向

現在の方法は依然としてライダーを利用して乗員監視信号を提供していますが、多くの車、特に一部の低レベル運転支援車にはライダーが搭載されていません。シャドウモードでは大量のRGBデータが返せるので、今後の方向性としては自己教師あり学習のみにRGBを使えるかどうかです。自然な解決策は、監視に NeRF を使用することです。具体的には、フロント バックボーン部分は変更せずに占有予測を取得し、ボクセル レンダリングを使用して各カメラの視点から RGB を取得し、損失は真の値 RGB で行われます。トレーニング セット監視信号を作成します。しかし、この単純な方法が実際に試してみたところ、あまりうまく機能しなかったのが残念です。考えられる理由としては、屋外シーンの範囲が広すぎてナーフが保持できない可能性もありますが、可能性もあります。正しく調整されていないことがわかります。もう一度試してください。

もう 1 つの方向は、タイミングと占有フローです。実際、占有フローは、単一フレームの占有よりも下流のタスクにとってはるかに便利です。 ICCV の期間中は、占有フローのデータセットを編集する時間がなく、論文を発表するときに多くのフロー ベースラインを比較する必要があったため、その時点では作業しませんでした。タイミング ネットワークについては、比較的シンプルで効果的な BEVFormer および BEVDet4D のソリューションを参照できます。難しい部分はやはりフロー データ セットです。一般的なオブジェクトはシーケンスの 3 次元ターゲット検出フレームを使用して計算できますが、小動物のビニール袋などの特殊な形状のオブジェクトには、シーン フロー手法を使用してアノテーションを付ける必要がある場合があります。

SurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!

書き直す必要がある内容は次のとおりです: 元のリンク: https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

以上がSurroundOcc: サラウンド 3D 占有グリッドの新しい SOTA!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? 自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Mar 06, 2024 pm 05:34 PM

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

自動運転と軌道予測についてはこの記事を読めば十分です! 自動運転と軌道予測についてはこの記事を読めば十分です! Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。 nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。 Apr 17, 2024 pm 06:22 PM

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 Apr 15, 2024 pm 04:13 PM

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力

See all articles