クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc-AI-php.cn

ペーパーアイデア:

主な貢献:

ネットワーク設計:

ホームページ

テクノロジー周辺機器

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

PHPz

Jan 25, 2024 am 11:36 AM

3d 予測する

原題: Radocc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation

論文リンク: https://arxiv.org/pdf/2312.11829.pdf

著者の所属: FNii 、CUHK-深セン SSE、CUHK-深センファーウェイノアの方舟研究所

カンファレンス: AAAI 2024

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

ペーパーアイデア:

3D 占有予測は、マルチビュー画像を使用して 3D シーンの占有ステータスとセマンティクスを推定することを目的とした新たなタスクです。ただし、画像ベースのシーン認識では、幾何学的事前分布が欠如しているため、正確な予測を達成する際に大きな課題に直面します。この論文では、このタスクにおけるクロスモーダル知識の蒸留を検討することで、この問題に対処します。つまり、トレーニングプロセス中に視覚モデルをガイドするために、より強力なマルチモーダルモデルを利用します。実際には、鳥瞰図 (BEV) 認識で提案され広く使用されている特徴量またはロジットアラインメントを直接適用しても、満足のいく結果が得られないことがこの論文で観察されています。この問題を克服するために、この論文では、3D 占有率予測のためのレンダリング支援蒸留パラダイムである RadOcc を紹介します。微分可能なボリュームレンダリングを採用することで、遠近感のある奥行きマップとセマンティックマップを生成し、教師モデルと生徒モデルのレンダリング出力間の 2 つの新しい一貫性基準を提案します。具体的には、深さの一貫性の損失はレンダリングレイの終端分布を調整しますが、セマンティックの一貫性の損失はビジュアルベースモデル (VLM) によって導かれるセグメント内の類似性を模倣します。 nuScenes データセットの実験結果は、さまざまな 3D 占有予測方法の改善におけるこの記事で提案された方法の有効性を示しています。たとえば、この記事で提案された方法は、この記事のベースラインを mIoU メトリクスで 2.2% 改善し、2.2% に達します。 Occ3D ベンチマークでは 50%。

主な貢献:

この論文では、3D 占有予測のための RadOcc と呼ばれるレンダリング支援蒸留パラダイムを紹介します。これは、3D-OP におけるクロスモーダル知識の蒸留を調査した最初の論文であり、このタスクにおける既存の BEV 蒸留技術の適用についての貴重な洞察を提供します。

著者らは、レンダリング深度とセマンティック一貫性 (RDC および RSC) という 2 つの新しい蒸留制約を提案しています。これらの制約は、ビジョンベースモデルによって導かれる光の分布と相関行列を調整することにより、知識伝達プロセスを効果的に強化します。このアプローチの鍵は、深度とセマンティック情報を使用してレンダリングプロセスをガイドし、それによってレンダリング結果の品質と精度を向上させることです。これら 2 つの制約を組み合わせることで、研究者らは大幅な改善を達成し、視覚タスクにおける知識伝達のための新しいソリューションを提供しました。

提案された方法を備えた RadOcc は、Occ3D および nuScenes ベンチマークで最先端の密および疎占有予測パフォーマンスを示します。さらに、この記事で提案した蒸留方法が複数のベースラインモデルのパフォーマンスを効果的に向上させることができることが実験によって証明されています。

ネットワーク設計:

この論文は、3D 占有予測タスクのためのクロスモーダル知識蒸留を初めて研究したものです。この論文は、BEV センシング分野における BEV またはロジットの一貫性を使用した知識伝達の方法に基づいて、図 1(a) に示すように、ボクセルの特徴とボクセルのロジットを揃えることを目的として、これらの蒸留技術を 3D 占有予測タスクに拡張します。ただし、予備実験では、これらの位置合わせ技術、特にネガティブ転送を導入する前者の方法では、3D-OP タスクにおいて重大な課題に直面していることが示されています。この課題は、3D オブジェクトの検出と占有予測の根本的な違いに起因している可能性があります。よりきめ細かい認識タスクとして、背景オブジェクトだけでなく幾何学的詳細をキャプチャする必要があります。

上記の課題に対処するために、この論文では、微分可能なボリュームレンダリングを使用したクロスモーダル知識蒸留のための新しい方法である RadOcc を提案します。 RadOcc の中心となるアイデアは、図 1(b) に示すように、教師モデルと生徒モデルによって生成されたレンダリング結果を調整することです。具体的には、この記事では、カメラの固有パラメーターと外部パラメーターを使用してボクセル特徴のボリュームレンダリングを実行します (Mildenhall et al. 2021)。これにより、この記事は、対応する深度マップとセマンティックマップをさまざまな視点から取得できるようになります。レンダリングされた出力間の調整を向上させるために、このホワイトペーパーでは、新しいレンダリング深度一貫性 (RDC) とレンダリングセマンティック一貫性 (RSC) の損失を導入します。一方で、RDC 損失により光線分布の一貫性が強化され、スチューデントモデルがデータの基礎となる構造を捕捉できるようになります。一方、RSC 損失はビジュアルベースモデル (Kirillov et al. 2023) を利用し、事前に抽出されたセグメントを親和性蒸留に利用します。この標準により、モデルはさまざまな画像領域の意味表現を学習および比較できるため、きめの細かい詳細をキャプチャする機能が強化されます。上記の制約を組み合わせることで、この論文で提案される方法は、クロスモーダルな知識の蒸留を効果的に活用し、それによってパフォーマンスを向上させ、学生モデルをより適切に最適化します。この論文では、密集占有率と疎占有率予測に対する私たちのアプローチの有効性を実証し、両方のタスクで最先端の結果を達成しました。

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

図 1: レンダリング支援蒸留。 (a) 既存の方法は特徴またはロジットを調整します。 (b) 本論文で提案する RadOcc 法は、レンダリングされた深度マップとセマンティクスを同時に制約します。クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc 図 2: RadOcc の全体的なフレームワーク。教師と生徒のアーキテクチャを採用しており、教師のネットワークはマルチモーダルモデルで、生徒のネットワークはカメラ入力のみを受け入れます。両方のネットワークの予測は、微分可能なボリュームレンダリングを通じてレンダリングの深さとセマンティクスを生成するために使用されます。新しく提案されたレンダリング深度と意味的一貫性の損失がレンダリング結果間で採用されます。

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

図 3: レンダリング深度分析。教師 (T) と生徒 (S) は、特に前景オブジェクトに関して同様のレンダリング深度を持っていますが、ライト終端分布には大きな違いが見られます。

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

図 4: 親和性行列の生成。この記事では、まず Vision Foundation Model (VFM)、つまり SAM を使用して、元の画像にセグメントを抽出します。その後、この記事では、各セグメントでレンダリングされた意味論的特徴に対してセグメント集約を実行して、類似性行列を取得します。＃＃＃＃＃＃＃＃＃実験結果：＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc 要約:

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc この論文では、3D 占有率予測のための新しいクロスモーダルアプローチである RadOcc を提案します。知識の蒸留パラダイム。マルチモーダル教師モデルを利用して、微分可能なボリュームレンダリングを通じて視覚的な生徒モデルに幾何学的および意味論的なガイダンスを提供します。さらに、この論文では、教師モデルと生徒モデルの間でレイ分布とアフィニティ行列を調整するために、深さの一貫性損失と意味論的一貫性損失という 2 つの新しい一貫性基準を提案します。 Occ3D および nuScenes データセットに関する広範な実験により、RadOcc がさまざまな 3D 占有予測方法のパフォーマンスを大幅に向上できることが示されています。私たちの手法は、Occ3D チャレンジベンチマークで最先端の結果を達成し、既存の公開手法を大幅に上回ります。私たちは、私たちの取り組みがシーン理解におけるクロスモーダル学習の新たな可能性を開くものであると信じています。クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

以上がクロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOccの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7849

Java チュートリアル

1649

CakePHP チュートリアル

1403

Laravel チュートリアル

1300

PHP チュートリアル

1241

Related knowledge

なぜ自動運転ではガウススプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューターグラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリングアルゴリズムにより、3DGS はリアルタイムレンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

Microsoft Teams の 3D Fluent 絵文字について学ぶ Apr 24, 2023 pm 10:28 PM

特に Teams ユーザーの場合は、Microsoft が仕事中心のビデオ会議アプリに 3DFluent 絵文字の新しいバッチを追加したことを覚えておく必要があります。 Microsoft が昨年 Teams と Windows 向けの 3D 絵文字を発表した後、その過程で実際に 1,800 を超える既存の絵文字がプラットフォーム用に更新されました。この大きなアイデアと Teams 用の 3DFluent 絵文字アップデートの開始は、公式ブログ投稿を通じて最初に宣伝されました。 Teams の最新アップデートでアプリに FluentEmojis が追加 Microsoft は、更新された 1,800 個の絵文字を毎日利用できるようになると発表

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

時系列確率予測のための分位回帰 May 07, 2024 pm 05:04 PM

元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き直したり、継続したりしないでください。「分位回帰はこのニーズを満たし、定量化された確率で予測間隔を提供します。これは、特に応答変数の条件付き分布が重要な場合に、予測変数と応答変数の間の関係をモデル化するために使用される統計手法です。従来の回帰とは異なります」図 (A): 分位回帰分位回帰の概念は推定です。一連の回帰子 X と変数の間の線形関係をモデル化する方法です。被説明変数 Y の分位数。既存の回帰モデルは、実際には被説明変数と説明変数の関係を調べる手法です。説明変数と被説明変数の関係に焦点を当てます。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。 Mar 26, 2024 pm 12:41 PM

上記および筆者の個人的な理解: 現在、自動運転システム全体において、認識モジュールが重要な役割を果たしている｡道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる｡下流の規制および制御モジュール自動運転システムでは、タイムリーかつ正確な判断と行動決定が行われます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェアコストが低く導入が容易であるため、業界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

カード1枚で30秒でバーチャル3D嫁をゲット！ Text to 3D は、毛穴の詳細が明確な高精度のデジタルヒューマンを生成し、Maya、Unity、その他の制作ツールとシームレスに接続します May 23, 2023 pm 02:34 PM

ChatGPT は AI 業界に鶏の血を注入し、かつては考えられなかったすべてのことが今日では基本的な慣行になりました。進化を続ける Text-to-3D は、AIGC 分野において Diffusion（画像）、GPT（テキスト）に次ぐホットスポットとされ、前例のない注目を集めています。いいえ、ChatAvatar と呼ばれる製品が控えめなパブリックベータ版として公開され、すぐに 700,000 回を超えるビューと注目を集め、Spacesoftheweek で特集されました。 △ChatAvatarは、AIが生成した単一視点/多視点の原画から3Dの様式化されたキャラクターを生成するImageto3D技術にも対応しており、現在のベータ版で生成された3Dモデルは広く注目を集めています。

Windows 11 のペイント 3D: ダウンロード、インストール、および使用ガイド Apr 26, 2023 am 11:28 AM

新しい Windows 11 が開発中であるというゴシップが広まり始めたとき、すべての Microsoft ユーザーは、新しいオペレーティングシステムがどのようなもので、何をもたらすのかに興味を持ちました。憶測を経て、Windows 11が登場しました。オペレーティングシステムには新しい設計と機能の変更が加えられています。いくつかの追加に加えて、機能の非推奨と削除が行われます。 Windows 11 に存在しない機能の 1 つは Paint3D です。描画、落書き、落書きに適したクラシックなペイントは引き続き提供していますが、3D クリエイターに最適な追加機能を提供する Paint3D は廃止されています。追加機能をお探しの場合は、最高の 3D デザインソフトウェアとして Autodesk Maya をお勧めします。のように

See all articles

クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc

ペーパー アイデア:

主な貢献:

ネットワーク設計:

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

ペーパーアイデア: