Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します
arXiv 論文「Unifying Voxel-based Representation with Transformer for 3D Object Detection」、6 月 22 日、香港中文大学、香港大学、Megvii Technology (孫建博士を追悼)、および Simou Technology、等
この論文では、UVTR と呼ばれる統合マルチモーダル 3D ターゲット検出フレームワークを提案します。この方法は、ボクセル空間のマルチモーダル表現を統合し、正確かつ堅牢なシングルモーダルまたはクロスモーダル 3D 検出を可能にすることを目的としています。この目的を達成するために、まずモダリティ固有の空間が、ボクセル特徴空間へのさまざまな入力を表すように設計されます。高さを圧縮せずにボクセル空間を維持し、意味上のあいまいさを軽減し、空間相互作用を可能にします。この統一されたアプローチに基づいて、知識伝達やモーダル融合など、さまざまなセンサーの固有の特性を十分に活用するためのクロスモーダルインタラクションが提案されています。このようにして、点群のジオメトリを意識した表現と画像内のコンテキストに富んだ特徴をうまく活用することができ、その結果、パフォーマンスと堅牢性が向上します。
トランスフォーマー デコーダは、学習可能な位置を持つ統一空間から特徴を効率的にサンプリングするために使用され、オブジェクト レベルの対話が容易になります。一般的に言えば、UVTR は、統一されたフレームワークでさまざまなモダリティを表現する初期の試みを表しており、シングルモーダルおよびマルチモーダル入力に関する以前の研究を上回り、nuScenes テスト セット、LIDAR、カメラ、およびマルチモーダル出力の NDS で優れたパフォーマンスを達成しています。はそれぞれ69.7%、55.1%、71.1%です。
コード:https://github.com/dvlab-research/UVTR.
図に示すように:
#表現統一プロセスでは、入力レベルのフローと特徴レベルのフローの表現に大別できます。最初のアプローチでは、マルチモーダル データがネットワークの先頭で調整されます。特に、(a) の疑似点群は予測深度支援画像から変換され、(b) のレンジビュー画像は点群から投影されます。擬似点群の深度の不正確さとレンジビュー画像の 3D 幾何学的崩壊により、データの空間構造が破壊され、結果が悪くなります。特徴レベルの方法の場合、図 (c) に示すように、画像特徴を錐台に変換し、BEV 空間に圧縮するのが一般的な方法です。ただし、光線のような軌道のため、各位置での高さ情報 (高さ) の圧縮によりさまざまなターゲットの特徴が集約され、意味上の曖昧さが生じます。同時に、その暗黙的なアプローチでは、3 次元空間での明示的なフィーチャの相互作用をサポートすることが難しく、さらなる知識の伝達が制限されます。したがって、モーダルギャップを埋め、多面的な相互作用を促進するには、より統一された表現が必要です。
この記事で提案するフレームワークは、ボクセルベースの表現とトランスフォーマーを統合します。特に、ボクセルベースの明示的な空間における画像と点群の特徴表現と相互作用。画像の場合、図 (d) に示すように、予測された深さと幾何学的制約に従って画像平面から特徴をサンプリングすることによってボクセル空間が構築されます。点群の場合、位置が正確であれば、自然にフィーチャをボクセルに関連付けることができます。次に、空間相互作用のためにボクセル エンコーダーが導入され、隣接するフィーチャ間の関係が確立されます。このようにして、クロスモーダル インタラクションは各ボクセル空間内のフィーチャで自然に進行します。ターゲット レベルのインタラクションの場合、図 (d) に示すように、デコーダとして変形可能トランスが使用され、統合ボクセル空間内の各位置 (x、y、z) でターゲット クエリ固有の特徴がサンプリングされます。同時に、3D クエリ位置の導入により、BEV 空間の高さ情報 (高さ) 圧縮によって引き起こされる意味上の曖昧さが効果的に軽減されます。
図に示すように、マルチモーダル入力の UVTR アーキテクチャです。単一フレームまたはマルチフレームのイメージと点群が与えられると、まず単一のバックボーンで処理され、モダリティ固有の空間 VI に変換されます。 VP では、画像に対してビュー変換が使用されます。ボクセル エンコーダーでは、特徴が空間的に相互作用するため、トレーニング中に知識の伝達を簡単にサポートできます。設定に応じて、モーダル スイッチを使用してシングルモーダル機能またはマルチモーダル機能を選択します。最後に、学習可能な位置を含む統合空間 VU から特徴がサンプリングされ、トランスフォーマー デコーダーを使用して予測されます。
図は、ビュー変換の詳細を示しています。
図は、ナレッジ移行の詳細を示しています。
実験結果は次のとおりです:
以上がTransformer は 3D オブジェクト検出のためにボクセルベースの表現を統合しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

RedMagic Tablet 3D Explorer Edition は、Gaming Tablet Pro と同時に発売されました。ただし、後者はゲーマー向けであるのに対し、前者はエンターテイメント向けです。新しい Android タブレットには、同社が「裸眼 3D&qu」と呼ぶ機能が搭載されています。

明確で包括的なドキュメントを作成することは、Golang フレームワークにとって非常に重要です。ベスト プラクティスには、Google の Go コーディング スタイル ガイドなど、確立されたドキュメント スタイルに従うことが含まれます。見出し、小見出し、リストなどの明確な組織構造を使用し、ナビゲーションを提供します。スタート ガイド、API リファレンス、概念など、包括的で正確な情報を提供します。コード例を使用して、概念と使用法を説明します。ドキュメントを常に最新の状態に保ち、変更を追跡し、新機能を文書化します。 GitHub の問題やフォーラムなどのサポートとコミュニティ リソースを提供します。 API ドキュメントなどの実践的なサンプルを作成します。

アプリケーションのシナリオに基づいて最適な Go フレームワークを選択します。アプリケーションの種類、言語機能、パフォーマンス要件、エコシステムを考慮します。一般的な Go フレームワーク: Jin (Web アプリケーション)、Echo (Web サービス)、Fiber (高スループット)、gorm (ORM)、fasthttp (速度)。実際のケース: REST API (Fiber) の構築とデータベース (gorm) との対話。フレームワークを選択します。主要なパフォーマンスには fasthttp、柔軟な Web アプリケーションには Jin/Echo、データベース インタラクションには gorm を選択してください。

Go フレームワーク開発における一般的な課題とその解決策は次のとおりです。 エラー処理: 管理にはエラー パッケージを使用し、エラーを一元的に処理するにはミドルウェアを使用します。認証と認可: サードパーティのライブラリを統合し、資格情報を確認するためのカスタム ミドルウェアを作成します。同時処理: ゴルーチン、ミューテックス、チャネルを使用してリソース アクセスを制御します。単体テスト: 分離のために getest パッケージ、モック、スタブを使用し、十分性を確保するためにコード カバレッジ ツールを使用します。デプロイメントとモニタリング: Docker コンテナを使用してデプロイメントをパッケージ化し、データのバックアップをセットアップし、ログ記録およびモニタリング ツールでパフォーマンスとエラーを追跡します。

Go フレームワークの学習には、フレームワークへの過度の依存と柔軟性の制限という 5 つの誤解があります。フレームワークの規則に従わない場合、コードの保守が困難になります。古いライブラリを使用すると、セキュリティと互換性の問題が発生する可能性があります。パッケージを過度に使用すると、コード構造が難読化されます。エラー処理を無視すると、予期しない動作やクラッシュが発生します。
