クロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOcc
原題: Radocc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation
論文リンク: https://arxiv.org/pdf/2312.11829.pdf
著者の所属: FNii 、CUHK-深セン SSE、CUHK-深セン ファーウェイ ノアの方舟研究所
カンファレンス: AAAI 2024
ペーパー アイデア:
3D 占有予測は、マルチビュー画像を使用して 3D シーンの占有ステータスとセマンティクスを推定することを目的とした新たなタスクです。ただし、画像ベースのシーン認識では、幾何学的事前分布が欠如しているため、正確な予測を達成する際に大きな課題に直面します。この論文では、このタスクにおけるクロスモーダル知識の蒸留を検討することで、この問題に対処します。つまり、トレーニング プロセス中に視覚モデルをガイドするために、より強力なマルチモーダル モデルを利用します。実際には、鳥瞰図 (BEV) 認識で提案され広く使用されている特徴量またはロジット アラインメントを直接適用しても、満足のいく結果が得られないことがこの論文で観察されています。この問題を克服するために、この論文では、3D 占有率予測のためのレンダリング支援蒸留パラダイムである RadOcc を紹介します。微分可能なボリューム レンダリングを採用することで、遠近感のある奥行きマップとセマンティック マップを生成し、教師モデルと生徒モデルのレンダリング出力間の 2 つの新しい一貫性基準を提案します。具体的には、深さの一貫性の損失はレンダリング レイの終端分布を調整しますが、セマンティックの一貫性の損失はビジュアル ベース モデル (VLM) によって導かれるセグメント内の類似性を模倣します。 nuScenes データセットの実験結果は、さまざまな 3D 占有予測方法の改善におけるこの記事で提案された方法の有効性を示しています。たとえば、この記事で提案された方法は、この記事のベースラインを mIoU メトリクスで 2.2% 改善し、2.2% に達します。 Occ3D ベンチマークでは 50%。
主な貢献:
この論文では、3D 占有予測のための RadOcc と呼ばれるレンダリング支援蒸留パラダイムを紹介します。これは、3D-OP におけるクロスモーダル知識の蒸留を調査した最初の論文であり、このタスクにおける既存の BEV 蒸留技術の適用についての貴重な洞察を提供します。
著者らは、レンダリング深度とセマンティック一貫性 (RDC および RSC) という 2 つの新しい蒸留制約を提案しています。これらの制約は、ビジョンベースモデルによって導かれる光の分布と相関行列を調整することにより、知識伝達プロセスを効果的に強化します。このアプローチの鍵は、深度とセマンティック情報を使用してレンダリング プロセスをガイドし、それによってレンダリング結果の品質と精度を向上させることです。これら 2 つの制約を組み合わせることで、研究者らは大幅な改善を達成し、視覚タスクにおける知識伝達のための新しいソリューションを提供しました。
提案された方法を備えた RadOcc は、Occ3D および nuScenes ベンチマークで最先端の密および疎占有予測パフォーマンスを示します。さらに、この記事で提案した蒸留方法が複数のベースライン モデルのパフォーマンスを効果的に向上させることができることが実験によって証明されています。
ネットワーク設計:
この論文は、3D 占有予測タスクのためのクロスモーダル知識蒸留を初めて研究したものです。この論文は、BEV センシング分野における BEV またはロジットの一貫性を使用した知識伝達の方法に基づいて、図 1(a) に示すように、ボクセルの特徴とボクセルのロジットを揃えることを目的として、これらの蒸留技術を 3D 占有予測タスクに拡張します。ただし、予備実験では、これらの位置合わせ技術、特にネガティブ転送を導入する前者の方法では、3D-OP タスクにおいて重大な課題に直面していることが示されています。この課題は、3D オブジェクトの検出と占有予測の根本的な違いに起因している可能性があります。よりきめ細かい認識タスクとして、背景オブジェクトだけでなく幾何学的詳細をキャプチャする必要があります。
上記の課題に対処するために、この論文では、微分可能なボリューム レンダリングを使用したクロスモーダル知識蒸留のための新しい方法である RadOcc を提案します。 RadOcc の中心となるアイデアは、図 1(b) に示すように、教師モデルと生徒モデルによって生成されたレンダリング結果を調整することです。具体的には、この記事では、カメラの固有パラメーターと外部パラメーターを使用してボクセル特徴のボリューム レンダリングを実行します (Mildenhall et al. 2021)。これにより、この記事は、対応する深度マップとセマンティック マップをさまざまな視点から取得できるようになります。レンダリングされた出力間の調整を向上させるために、このホワイトペーパーでは、新しいレンダリング深度一貫性 (RDC) とレンダリング セマンティック一貫性 (RSC) の損失を導入します。一方で、RDC 損失により光線分布の一貫性が強化され、スチューデント モデルがデータの基礎となる構造を捕捉できるようになります。一方、RSC 損失はビジュアルベースモデル (Kirillov et al. 2023) を利用し、事前に抽出されたセグメントを親和性蒸留に利用します。この標準により、モデルはさまざまな画像領域の意味表現を学習および比較できるため、きめの細かい詳細をキャプチャする機能が強化されます。上記の制約を組み合わせることで、この論文で提案される方法は、クロスモーダルな知識の蒸留を効果的に活用し、それによってパフォーマンスを向上させ、学生モデルをより適切に最適化します。この論文では、密集占有率と疎占有率予測に対する私たちのアプローチの有効性を実証し、両方のタスクで最先端の結果を達成しました。
図 1: レンダリング支援蒸留。 (a) 既存の方法は特徴またはロジットを調整します。 (b) 本論文で提案する RadOcc 法は、レンダリングされた深度マップとセマンティクスを同時に制約します。 図 2: RadOcc の全体的なフレームワーク。教師と生徒のアーキテクチャを採用しており、教師のネットワークはマルチモーダル モデルで、生徒のネットワークはカメラ入力のみを受け入れます。両方のネットワークの予測は、微分可能なボリューム レンダリングを通じてレンダリングの深さとセマンティクスを生成するために使用されます。新しく提案されたレンダリング深度と意味的一貫性の損失がレンダリング結果間で採用されます。
図 3: レンダリング深度分析。教師 (T) と生徒 (S) は、特に前景オブジェクトに関して同様のレンダリング深度を持っていますが、ライト終端分布には大きな違いが見られます。
図 4: 親和性行列の生成。この記事では、まず Vision Foundation Model (VFM)、つまり SAM を使用して、元の画像にセグメントを抽出します。その後、この記事では、各セグメントでレンダリングされた意味論的特徴に対してセグメント集約を実行して、類似性行列を取得します。 #########実験結果: ##################################### #
要約:
この論文では、3D 占有率予測のための新しいクロスモーダル アプローチである RadOcc を提案します。知識の蒸留パラダイム。マルチモーダル教師モデルを利用して、微分可能なボリューム レンダリングを通じて視覚的な生徒モデルに幾何学的および意味論的なガイダンスを提供します。さらに、この論文では、教師モデルと生徒モデルの間でレイ分布とアフィニティ行列を調整するために、深さの一貫性損失と意味論的一貫性損失という 2 つの新しい一貫性基準を提案します。 Occ3D および nuScenes データセットに関する広範な実験により、RadOcc がさまざまな 3D 占有予測方法のパフォーマンスを大幅に向上できることが示されています。私たちの手法は、Occ3D チャレンジ ベンチマークで最先端の結果を達成し、既存の公開手法を大幅に上回ります。私たちは、私たちの取り組みがシーン理解におけるクロスモーダル学習の新たな可能性を開くものであると信じています。
以上がクロスモーダル占有知識の学習: レンダリング支援蒸留技術を使用した RadOccの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

特に Teams ユーザーの場合は、Microsoft が仕事中心のビデオ会議アプリに 3DFluent 絵文字の新しいバッチを追加したことを覚えておく必要があります。 Microsoft が昨年 Teams と Windows 向けの 3D 絵文字を発表した後、その過程で実際に 1,800 を超える既存の絵文字がプラットフォーム用に更新されました。この大きなアイデアと Teams 用の 3DFluent 絵文字アップデートの開始は、公式ブログ投稿を通じて最初に宣伝されました。 Teams の最新アップデートでアプリに FluentEmojis が追加 Microsoft は、更新された 1,800 個の絵文字を毎日利用できるようになると発表

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

上記および筆者の個人的な理解: 現在、自動運転システム全体において、認識モジュールが重要な役割を果たしている。道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる。下流の規制および制御モジュール自動運転システムでは、タイムリーかつ正確な判断と行動決定が行われます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェア コストが低く導入が容易であるため、業界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き直したり、継続したりしないでください。 「分位回帰はこのニーズを満たし、定量化された確率で予測間隔を提供します。これは、特に応答変数の条件付き分布が重要な場合に、予測変数と応答変数の間の関係をモデル化するために使用される統計手法です。従来の回帰とは異なります」図 (A): 分位回帰 分位回帰の概念は推定です。一連の回帰子 X と変数の間の線形関係をモデル化する方法です。被説明変数 Y の分位数。既存の回帰モデルは、実際には被説明変数と説明変数の関係を調べる手法です。説明変数と被説明変数の関係に焦点を当てます。

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

新しい Windows 11 が開発中であるというゴシップが広まり始めたとき、すべての Microsoft ユーザーは、新しいオペレーティング システムがどのようなもので、何をもたらすのかに興味を持ちました。憶測を経て、Windows 11が登場しました。オペレーティング システムには新しい設計と機能の変更が加えられています。いくつかの追加に加えて、機能の非推奨と削除が行われます。 Windows 11 に存在しない機能の 1 つは Paint3D です。描画、落書き、落書きに適したクラシックなペイントは引き続き提供していますが、3D クリエイターに最適な追加機能を提供する Paint3D は廃止されています。追加機能をお探しの場合は、最高の 3D デザイン ソフトウェアとして Autodesk Maya をお勧めします。のように

MySQL データベースを予測と予測分析に使用するにはどうすればよいですか?概要: 予測と予測分析はデータ分析において重要な役割を果たします。広く使用されているリレーショナル データベース管理システムである MySQL は、予測および予測分析タスクにも使用できます。この記事では、予測と予測分析に MySQL を使用する方法を紹介し、関連するコード例を示します。データの準備: まず、関連するデータを準備する必要があります。売上予測を行うには、売上データを含むテーブルが必要だとします。 MySQL では使用できます
