CVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案
単眼ダイナミック シーンとは、単眼カメラを使用して観察および分析される、オブジェクトがシーン内で自由に移動できる動的環境を指します。単眼での動的なシーンの再構成は、環境の動的な変化の理解、物体の運動軌跡の予測、動的なデジタル資産の生成などのタスクにおいて非常に重要です。単眼視覚技術を使用すると、動的シーンの 3 次元再構成とモデル推定が実現され、動的環境におけるさまざまな状況をよりよく理解し、対処できるようになります。この技術はコンピュータビジョンの分野に応用できるだけでなく、自動運転、拡張現実、仮想現実などの分野でも重要な役割を果たします。単眼の動的なシーンの再構成を通じて、環境内のオブジェクトの動きをより正確に捉えることができます。
Neural Radiance Field (Neural Radiance Field、NeRF) に代表されるニューラル レンダリングの台頭により、ますます多くの研究が行われ始めました。動的シーンの 3D 再構築のための暗黙的表現。 D-NeRF、Nerfies、K-planes など、NeRF をベースにした代表的な作品は満足のいくレンダリング品質を実現していますが、真のフォトリアルなレンダリングにはまだ程遠いです。
浙江大学とバイトダンスの研究チームは、上記の問題の核心は、レイ キャスティングに基づく NeRF パイプラインが逆流を通じて観測空間を観測空間にマッピングすることであると指摘しました。正規空間が使用される場合。逆マッピングは学習された構造の収束には理想的ではなく、その結果、現在の方法では D-NeRF データセットで 30 レベルの PSNR レンダリング インデックスしか達成できません。
この課題を解決するために、研究チームはラスタライズに基づいた単眼の動的シーンモデリングプロセスを提案しました。彼らは、変形フィールドと 3D ガウスを初めて組み合わせ、高品質の再構築と新しい透視レンダリングを可能にする新しい方法を作成しました。この研究論文「高忠実度単眼動的シーン再構成のための変形可能な 3D ガウシアン」が、コンピューター ビジョン分野のトップ国際学会である CVPR 2024 に採択されました。この研究のユニークな点は、変形フィールドを 3D ガウスに適用して単眼の動的シーンに拡張する最初の研究であることです。
プロジェクトのホームページ: https://ingra14m.github.io/Deformable-Gaussians/
論文リンク: https://arxiv.org/abs/2309.13101
コード: https://github.com/ingra14m/Deformable-3D-Gaussians
実験結果は、変形フィールドが正準空間の 3D ガウス順方向マッピングを観測空間に正確に効果的にマッピングできることを示しています。 D-NeRF データセットでは、10% 以上の PSNR 改善が達成されました。さらに、実際のシーンでは、カメラのポーズが十分に正確ではない場合でも、レンダリングの詳細を向上させることができます。
# 図 1 ハイパーナーフの実際のシーンの実験結果。
関連作品
動的シーンの再構成は、3 次元再構成において常にホットな問題です。 NeRFに代表されるニューラルレンダリングが高品質なレンダリングを実現するにつれ、動的再構成の分野でも暗黙的表現に基づく一連の研究が登場している。 D-NeRF と Nerfies は、NeRF レイキャスティング パイプラインに基づいた変形フィールドを導入し、堅牢な動的なシーンの再構築を実現します。 TiNeuVox、K-Planes、および Hexplanes は、これに基づいてグリッド構造を導入し、モデルのトレーニング プロセスを大幅に高速化し、レンダリング速度を向上させます。ただし、これらの方法はすべて逆マッピングに基づいており、ゲージ空間と変形フィールドの高品質な分離を真に達成することはできません。 3D ガウス スプラッシュは、ラスター化に基づいた点群レンダリング パイプラインです。 CUDA によってカスタマイズされた微分可能なガウス ラスタライゼーション パイプラインと革新的な高密度化により、3D ガウスは SOTA レンダリング品質を実現するだけでなく、リアルタイム レンダリングも実現します。動的 3D ガウスは、まず静的 3D ガウスを動的フィールドに拡張します。ただし、マルチビュー シーンのみを処理できるため、携帯電話での撮影などのシングルビュー シーンなど、より一般的な状況での用途が大幅に制限されます。研究思想
Deformable-GS の核心は、静的な 3D ガウスを単眼の動的なシーンに拡張することです。各 3D ガウスは、画像レベルのレンダリングのための位置、回転、スケール、不透明度、および SH 係数を保持します。 3D ガウス アルファ ブレンドの公式によれば、時間の経過に伴う位置、およびガウス形状を制御する回転とスケーリングが、動的な 3D ガウスを決定する決定的なパラメータであることを見つけるのは難しくありません。ただし、従来の点群ベースのレンダリング方法とは異なり、3D ガウスが初期化された後、位置や透明度などのパラメーターは最適化によって継続的に更新されます。これにより、動的ガウスの学習がさらに困難になります。 ###この研究は、変形フィールドと 3D ガウスを組み合わせて最適化される動的シーン レンダリング フレームワークを革新的に提案します。具体的には、本研究では、COLMAP またはランダム点群によって初期化された 3D ガウスを正準空間として扱い、変形フィールドを使用して正準空間内の 3D ガウスの座標情報を入力として使用し、各 3D ガウスの位置と形状を予測します。時間の経過とともにパラメータが変化します。この研究では、変形フィールドを使用して、ラスター化されたレンダリングのために 3D ガウスを正準空間から観測空間に変換できます。この戦略は 3D ガウスの微分可能なラスタライゼーション パイプラインには影響せず、それによって計算された勾配を使用して正準空間 3D ガウスのパラメーターを更新できます。
さらに、変形フィールドの導入は、より大きな動作範囲を持つ部品のガウス密度化に有益です。これは、動きの振幅が大きい領域の変形場の勾配が相対的に高くなり、高密度化プロセス中に対応する領域がより細かく制御されるようになるためです。正準空間 3D ガウスの数と位置パラメータは初期段階では常に更新されますが、実験結果は、この統合最適化戦略が最終的には堅牢な収束結果を達成できることを示しています。約 20,000 回の反復の後、正準空間内の 3D ガウスの位置パラメータはほとんど変化しません。
研究チームは、実際のシーンでのカメラのポーズが十分に正確ではないことが多く、動的なシーンがこの問題をさらに悪化させることを発見しました。神経放射場は多層パーセプトロン (MLP) に基づいており、非常に滑らかな構造であるため、これは神経放射場に基づく構造に大きな影響を与えません。ただし、3D ガウスは点群の明示的な構造に基づいており、わずかに不正確なカメラのポーズをガウス スプラッシュによって確実に修正することは困難です。
この問題を軽減するために、この研究ではアニーリング スムーズ トレーニング (AST) を革新的に導入しました。このトレーニング メカニズムは、初期段階では 3D ガウシアンの学習をスムーズにし、後の段階ではレンダリングの詳細度を高めるように設計されています。この機構の導入により、レンダリングの品質が向上するだけでなく、時間補間タスクの安定性と滑らかさも大幅に向上します。
図 2 に本研究のパイプラインを示します. 詳細については論文の原文を参照してください。
結果表示
この研究では、最初に、この分野で広く使用されている D-NeRF データセット上の合成データセットの実験を行いました。動的再構築の。図 3 の視覚化結果から、Deformable-GS では以前の方法と比較してレンダリング品質が大幅に向上していることがわかります。
##図3 D-NERFデータセットに関するこの研究の定性的実験的比較結果。
この研究で提案された方法は、視覚効果の大幅な改善を達成するだけでなく、それに対応してレンダリングの定量的指標も改善します。研究チームがD-NeRFデータセットのレゴシーンにエラーを発見したことは注目に値します。つまり、トレーニングセットとテストセットのシーンにはわずかな違いがあります。これは、レゴ モデルのシャベルのフリップ角度が一貫していないことに現れています。これは、レゴ シーンで以前の方法の指標を改善できない根本的な理由でもあります。有意義な比較を可能にするために、この研究ではメトリクス測定のベースラインとしてレゴの検証セットを使用しました。図 4 合成データセットの定量的比較。
図 4 に示すように、この研究では、CVPR 2020 の D-NeRF、Sig Asia 2022 の TiNeuVox、CVPR2023 Tensor4D、K プレーンを含む SOTA メソッドをフル解像度 (800x800) で比較しました。 。この研究で提案された方法は、さまざまなレンダリング指標 (PSNR、SSIM、LPIPS) およびさまざまなシナリオにおいて大幅な改善を達成しました。 この研究で提案された方法は、合成シーンに適用できるだけでなく、カメラのポーズが十分に正確ではない実際のシーンでも SOTA 結果を達成します。図 5 に示すように、この研究は NeRF-DS データセットに対する SOTA 手法と比較しています。実験の結果、本研究で提案した手法は、高光反射面に特別な処理を行わなくても、高光反射シーンに特化したNeRF-DSを上回り、最高の描写効果が得られることが分かりました。# 図 図 5 実際のシーンの手法の比較。
さらに、この研究では、前方および後方の深さ伝播を備えた微分可能ガウス ラスタライゼーション パイプラインも初めて適用しました。図 6 に示すように、この深さは、Deformable-GS も堅牢な幾何学的表現を取得できることを証明しています。ディープ バックプロパゲーションは、逆レンダリング (Inverse Rendering)、SLAM、自動運転など、将来的に深い監視を必要とする多くのタスクを促進する可能性があります。
# 図 6 深度の視覚化。
著者について
##論文の筆頭著者: Yang Ziyi、浙江大学修士課程 2 年生、彼の主な研究方向は 3 つあります。 -次元ガウス、神経放射場、リアルタイムレンダリングなど。- メール: jin@cad.zju.edu.cn ##個人ホームページ: http://www.cad.zju.edu.cn /ホーム/ジン/
以上がCVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

現在、次のトークン予測パラダイムを使用した自己回帰大規模言語モデルが世界中で普及していると同時に、インターネット上の多数の合成画像やビデオがすでに拡散モデルの威力を示しています。最近、MITCSAIL の研究チーム (そのうちの 1 人は MIT の博士課程学生、Chen Boyuan です) は、全系列拡散モデルとネクスト トークン モデルの強力な機能を統合することに成功し、トレーニングおよびサンプリング パラダイムである拡散強制 (DF) を提案しました。 )。論文タイトル:DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion 論文アドレス:https:/
