DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!
この論文では、自動運転においてさまざまな視点 (透視図や鳥瞰図など) から物体を正確に検出するという問題、特に透視図から物体を効果的に検出する方法について検討します。 (PV) から鳥瞰図 (BEV) への空間変換機能。この変換は視覚変換 (VT) モジュールを通じて実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応関係のアテンション ウェイトを学習します。これにより、計算と展開の複雑さが増大します。
論文では、HeightFormer や FB-BEV などの既存の手法がこれら 2 つの VT 戦略を組み合わせようとしているが、これらの手法は通常、次の理由により 2 段階の戦略を採用していると指摘しています。デュアル VT の特性 変換は異なり、初期機能のパフォーマンスによって制限されるため、デュアル VT 間のシームレスな融合が妨げられます。さらに、これらの方法は、自動運転のリアルタイム展開を実現する上で依然として課題に直面しています。
これらの問題に対応して、この論文では、2D から 3D、および 3D から 2D の視覚変換に適した統一された特徴変換方法を提案し、3 つの確率測定を使用して 3D と 2D の特徴間の対応関係を評価します。 : BEV確率、射影確率、画像確率。この新しい方法は、特徴の構築における BEV グリッド内の空白領域の影響を軽減し、複数の対応を区別し、特徴変換プロセス中に背景の特徴を除外することを目的としています。
この統一された特徴変換を適用することにより、この論文では畳み込みニューラル ネットワーク (CNN) を使用した 3D から 2D への視覚変換の新しい方法を検討し、HeightTrans と呼ばれる方法を紹介します。優れたパフォーマンスを実証することに加えて、事前計算による加速の可能性も実証しており、リアルタイム自動運転アプリケーションに適しています。同時に、この特徴変換を統合することにより、従来の LSS プロセスが強化され、現在の検出器に対する汎用性が実証されます。
HeightTrans と Prob-LSS を組み合わせたこの論文では、DualBEV を紹介します。これは、BEV とパース ビューからの対応を 1 段階で考慮して融合し、初期特徴量の依存性を排除する革新的な手法です。さらに、デュアル機能融合 (DFF) モジュールと呼ばれる強力な BEV 機能融合モジュールが提案されており、チャネル アテンション モジュールと空間アテンション モジュールを利用して BEV 確率予測をさらに改良することができます。 DualBEV は、「広範な入力、厳密な出力」の原則に従い、正確なデュアルビューの確率対応を利用してシーンの確率分布を理解して表現します。
この論文の主な貢献は次のとおりです:
- 3D から 2D、および 2D から 3D への視覚変換間の本質的な類似性を明らかにし、BEV ビューとパース ビューの両方からの対応を正確に確立できる統一された特徴変換方法を提案し、これにより 2 つの戦略間のギャップが狭まることが示されています。
- 新しい CNN ベースの 3D から 2D への視覚変換手法 HeightTrans が提案されます。これは、確率サンプリングとルックアップ テーブルの事前計算を通じて、効果的かつ効率的に正確な 3D-2D 対応を確立します。
- DFF は、デュアルビュー機能融合のために導入されており、この融合戦略は、近距離領域と遠距離領域の情報を 1 つの段階でキャプチャし、それによって包括的な BEV 特徴を生成します。
- 彼らの効率的なフレームワーク DualBEV は、Transformer を使用しない場合でも、nuScenes テスト セットで 55.2% の mAP と 63.4% の NDS を達成しており、ビュー変換のための正確なデュアル ビューの対応をキャプチャすることの重要性を強調しています。
これらの革新を通じて、この論文は、既存の方法の限界を克服し、自動運転などのリアルタイムのアプリケーションシナリオでより効率的かつ正確な物体検出を達成するための新しい戦略を提案します。
DualBEV の詳細説明
本稿で提案する手法は、統合された特徴変換により自動運転の問題を解決することを目的としています。フレームワーク、DualBEV. BEV (鳥瞰図) オブジェクト検出の問題。以下は、「メソッド」セクションの主な内容であり、そのさまざまなサブセクションと主要な革新の概要を示しています。
DualBEV の概要
DualBEV の処理フローは、複数のカメラから取得した画像の特徴から始まります 、その後、SceneNet を使用してインスタンス マスクを生成します そして深度マップ . 次に、HeightTrans モジュールと Prob-LSS パイプラインを通じて特徴が抽出および変換され、最後にこれらの特徴が融合され、BEV 空間の確率分布を予測するために使用されます 、最終的な BEV 機能 を取得するには、後続のタスクに使用します。
HeightTrans
HeightTrans は、3D 位置を選択して画像空間に投影し、これらの 3D-2D 対応を評価することにより、3D から 2D への視覚変換の原理に基づいています。この方法では、最初に事前定義された BEV マップ内の 3D ポイントのセットをサンプリングし、次にこれらの対応関係を慎重に検討およびフィルタリングして BEV 特徴を生成します。 HeightTrans は、多重解像度サンプリング戦略と確率サンプリング方法を採用することで、小さなオブジェクトへの注目を高め、背景ピクセルによって引き起こされる誤解を招く問題を解決します。さらに、空白の BEV グリッドの問題は、BEV 確率 を導入することで解決されます。 HeightTrans モジュールは、この論文で提案されている主要なテクノロジーの 1 つであり、3D から 2D への視覚変換 (VT) によるフィーチャの処理と変換に焦点を当てています。これは、事前定義された鳥瞰図 (BEV) マップから 3D 位置を選択し、これらの位置を画像空間に投影することに基づいており、それによって 3D と 2D の間の対応関係が評価されます。以下は、HeightTrans の仕組みの詳細な紹介です:
BEV Height
HeightTrans メソッドは、高さを処理するときに複数解像度のサンプリング戦略を採用し、高さの範囲全体をカバーします。 (-5 メートルから 3 メートルまで)、関心領域 (ROI、-2 メートルから 2 メートルとして定義) 内の解像度は 0.5 メートル、この範囲外は 1.0 メートルです。この戦略は、粗い解像度のサンプリングでは見逃される可能性のある小さなオブジェクトに焦点を当てるのに役立ちます。
Prob-Sampling
HeightTrans は、確率サンプリングで次の手順を採用します。
- 3D サンプリング ポイントの定義 : 一連の 3D サンプリング ポイント を事前定義します。各点は 3D 空間での位置 によって定義されます。
- 2D 空間への投影 : カメラの外部パラメータ マトリックス と内部パラメータ マトリックス を使用して、3D ポイントを 2D 画像空間内のポイントに投影します。 、 はポイントの深さを表します。
- 特徴サンプリング: バイリニア グリッド サンプラーを使用する 投影された位置での画像特徴のサンプリング :
- インスタンス マスクを使用する : 投影位置が背景ピクセルに重なるのを避けるために、SceneNet によって生成されたインスタンス マスク を使用して画像の確率を表します 、誤解を招く情報の影響を軽減するために、画像の特徴に適用されます。
- 複数の対応関係の処理: トリリニア グリッド サンプラーの使用 深度マップ内で は、複数の 3D 点が同じ 2D 位置にマッピングされる状況、つまり投影確率を評価します。 :
- BEV 確率の導入 : BEV グリッドのギャップを解決する グリッドは有用な情報を提供しないため、BEV 確率 が BEV グリッドの占有確率を表すために導入されます。ここで、 は BEV 内の位置です。 space:
Acceleration
BEV 空間内の 3D ポイントのインデックスを事前計算し、推論中に画像特徴インデックスと深度マップ インデックスを固定することにより、HeightTrans視覚的な変換プロセスを加速できます。最後の HeightTrans 機能は、BEV メッシュごとに
Prob-LSS
を事前定義することで、従来の LSS (Lift、Splat、Shoot) を拡張します。 BEV 空間の深度確率を予測します。この方法では、BEV 確率をさらに統合して、次の式を通じて LSS 特徴を構築します。
そうすることで、深度推定の不確実性をより適切に処理できるため、BEV 空間内の冗長な情報が削減されます。
二重特徴融合 (DFF)
DFF モジュールは、HeightTrans と Prob-LSS の特徴を融合し、BEV 確率を効果的に予測するように設計されています。チャネル アテンション モジュールと空間アテンション拡張 ProbNet を組み合わせることで、DFF は特徴選択と BEV 確率予測を最適化し、近くのオブジェクトと遠くのオブジェクトの表現を強化できます。この融合戦略では、2 つのストリームからの特徴の相補性が考慮されると同時に、ローカルおよびグローバル アテンションを計算することで BEV 確率の精度も向上します。
つまり、この論文で提案する DualBEV フレームワークは、HeightTrans と Prob-LSS、および革新的な二重特徴融合モジュールを組み合わせることにより、3D 特徴と 2D 特徴の間の対応関係の効率的な評価と変換を実現します。これにより、2D から 3D、および 3D から 2D への変換戦略の間のギャップを埋めるだけでなく、事前計算と確率測定を通じて特徴変換プロセスが高速化され、リアルタイム自動運転アプリケーションに適したものになります。
この方法の鍵は、さまざまな視野角からの特徴の正確な対応と効率的な融合であり、それによって BEV 物体検出で優れたパフォーマンスを実現します。
実験
DualBEV メソッドのバリアント (DualBEV* アスタリスク付き) は、単一フレーム入力条件下で最高のパフォーマンスを発揮します。 35.2% の mAP と 42.5% の NDS を達成し、精度と総合的なパフォーマンスの両方で他の方法を上回っていることを示しています。特に mAOE では、DualBEV* は 0.542 というスコアを達成し、これはシングルフレーム方式の中で最高です。ただし、mATE および mASE でのパフォーマンスは他の方法よりも大幅に優れているわけではありません。
入力フレーム数が 2 フレームに増加すると、DualBEV のパフォーマンスはさらに向上し、mAP は 38.0% に達し、NDS は 50.4% に達しました。これは、リストされているすべての方法の中で最高の NDS であり、DualBEV がより多くの処理を処理できることを示しています。複雑な入力シナリオをより完全に理解します。マルチフレーム手法の中でも、mATE、mASE、mAAE で優れたパフォーマンスを示し、特に mAOE で大幅な改善が見られ、物体の方向を推定する際にその利点が示されています。
これらの結果から、DualBEV とそのバリアントは、複数の重要なパフォーマンス指標、特にマルチフレーム設定で良好なパフォーマンスを示していることが分析でき、BEV 物体検出タスクの精度と堅牢性において優れたパフォーマンスを備えていることがわかります。さらに、これらの結果は、モデルの全体的なパフォーマンスと推定精度を向上させるためにマルチフレーム データを使用することの重要性も強調しています。
各アブレーション実験の結果の分析は次のとおりです:
- ProbNet、HeightTrans、CAF (Channel Attendant Fusion)、SAE を追加します。 (Spatial Attendant Fusion) Enhanced) およびその他のコンポーネントにより、Baseline のパフォーマンスが徐々に向上します。
- HeightTrans の追加により、mAP と NDS が大幅に改善されました。これは、視覚的変換に高さ情報を導入することが効果的であることを示しています。
- CAF は mAP をさらに改善しますが、遅延がわずかに増加します。
- SAE の導入により、NDS が最大 42.5% に増加し、mAP も改善されました。これは、空間注意メカニズムがモデルのパフォーマンスを効果的に向上させたことを示しています。
- さまざまな確率尺度 (投影確率 、画像確率 、BEV 確率 ) が比較テストに徐々に追加されます。
- モデルは、3 つの確率すべてを同時に使用したときに最高の mAP と NDS を達成しました。これは、これらの確率の組み合わせがモデルのパフォーマンスにとって重要であることを示しています。
- Prob-Sampling は、同様の遅延 (0.32ms) で他の VT 操作よりも高い NDS (39.0%) を示し、確率的サンプリングのパフォーマンスの優位性を強調しています。
- 多重解像度 (MR) サンプリング戦略は、同じ数のサンプリング ポイントを使用する場合、均一サンプリング戦略と同等以上のパフォーマンスを達成できます。
- 投影確率、画像確率、BEV 確率を LSS プロセスに追加することにより、Prob-LSS は他の LSS バリアントよりも優れたパフォーマンスを発揮し、mAP と NDS を改善し、これらの確率を組み合わせる有効性を示しています。
- 複数ステージの Refine 戦略と比較して、単一ステージの Add 戦略と DFF モジュールは両方ともより高い NDS を達成でき、DFF では mAP もわずかに向上しています。これは、単一ステージの融合としてこの戦略では、DFF は効率とパフォーマンスの点で有益です。
アブレーション実験は、HeightTrans、確率的測定、Prob-Sampling、DFF などのコンポーネントと戦略がモデルのパフォーマンスを向上させるために重要であることを示しています。さらに、高さ情報に対する多重解像度サンプリング戦略の使用も、その有効性を証明しています。これらの発見は、方法セクションで紹介されている各手法がモデルのパフォーマンスにプラスに寄与するという著者の主張を裏付けています。
ディスカッション
この論文では、一連のアブレーション実験を通じてその方法のパフォーマンスを実証します。実験結果から、論文で提案された DualBEV フレームワークとそのさまざまなコンポーネントが鳥瞰図 (BEV) の物体検出の精度の向上にプラスの影響を与えていることがわかります。
この論文の手法では、ProbNet、HeightTrans、CAF (Channel Attendant Fusion)、および SAE (Spatial tention Enhanced) モジュールをベースライン モデルに段階的に導入し、mAP 指標と NDS 指標の両方で大幅な改善が見られます。これは、各コンポーネントが機能していることを証明しています。アーキテクチャ全体において重要な役割を果たします。特に SAE 導入後は、NDS スコアが最高の 42.5% まで上昇しましたが、遅延はわずかに増加しただけであり、精度と遅延のバランスが取れていることがわかります。
確率的アブレーション実験結果は、検出性能の向上における投影確率、画像確率、および BEV 確率の重要性をさらに確認します。これらの確率を 1 つずつ導入すると、システムの mAP スコアと NDS スコアが着実に向上し、これらの確率的尺度を BEV 物体検出タスクに統合することの重要性が示されています。
視覚変換 (VT) 操作の比較では、この論文で提案されている Prob-Sampling 手法は、SCAda や Bilinear-Sampling などの他の操作と比較して、待ち時間が短く、NDS スコアが高いことが示されており、その利点が強調されています。効率とパフォーマンス。さらに、異なる高さのサンプリング戦略の場合、均一サンプリングの代わりに多重解像度 (MR) 戦略を採用すると、NDS スコアをさらに向上させることができます。これは、検出パフォーマンスを向上させるために、シーン内のさまざまな高さでの情報を考慮することの重要性を示しています。
さらに、この論文では、さまざまな機能融合戦略について、DFF 手法がモデルを簡素化しながら高い NDS スコアを維持できることを示しています。これは、デュアル ストリーム機能を 1 つのストリーム機能に融合することが効果的であることを意味します。ステージ加工工程。
ただし、この論文で提案されている方法は多くの点で良好に機能しますが、すべての改善はシステムの複雑さと計算コストの増加にもつながります。たとえば、新しいコンポーネント (ProbNet、HeightTrans など) が導入されるたびに、システムの遅延が増加します。遅延の増加はわずかですが、リアルタイムまたは低遅延の要件があるアプリケーションでは、検討事項になるかもしれません。さらに、確率的測定はパフォーマンスの向上に貢献しますが、これらの確率を推定するために追加のコンピューティング リソースも必要とするため、リソースの消費量が増加する可能性があります。
この論文で提案されている DualBEV 手法は、特に深層学習の最新の進歩と視覚変換技術の組み合わせにおいて、BEV 物体検出の精度と総合的なパフォーマンスの向上において顕著な成果を達成しました。ただし、これらの進歩には計算遅延とリソース消費のわずかな増加という代償が伴い、実際のアプリケーションではこれらの要素をケースバイケースで比較検討する必要があります。
結論
この方法は、BEV 物体検出タスクでうまく機能し、精度と全体的なパフォーマンスが大幅に向上します。 DualBEV は、確率的サンプリング、高さ変換、注意メカニズム、空間注意増強ネットワークを導入することにより、特に鳥瞰図 (BEV) の精度とシーン理解において、複数の主要なパフォーマンス指標を向上させることに成功しました。実験結果は、この論文の方法が、自動運転やその他のリアルタイム監視アプリケーションにとって重要な、さまざまな視点からの複雑なシーンやデータの処理に特に効果的であることを示しています。
以上がDualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングル カードを使用して Llama を実行すると、スループットはデュアル カードのスループットの 2.65 倍になります。 1つ
