単眼ダイナミック シーンとは、単眼カメラを使用して観察および分析される、オブジェクトがシーン内で自由に移動できる動的環境を指します。単眼での動的なシーンの再構成は、環境の動的な変化の理解、物体の運動軌跡の予測、動的なデジタル資産の生成などのタスクにおいて非常に重要です。単眼視覚技術を使用すると、動的シーンの 3 次元再構成とモデル推定が実現され、動的環境におけるさまざまな状況をよりよく理解し、対処できるようになります。この技術はコンピュータビジョンの分野に応用できるだけでなく、自動運転、拡張現実、仮想現実などの分野でも重要な役割を果たします。単眼の動的なシーンの再構成を通じて、環境内のオブジェクトの動きをより正確に捉えることができます。
Neural Radiance Field (Neural Radiance Field、NeRF) に代表されるニューラル レンダリングの台頭により、ますます多くの研究が行われ始めました。動的シーンの 3D 再構築のための暗黙的表現。 D-NeRF、Nerfies、K-planes など、NeRF をベースにした代表的な作品は満足のいくレンダリング品質を実現していますが、真のフォトリアルなレンダリングにはまだ程遠いです。
浙江大学とバイトダンスの研究チームは、上記の問題の核心は、レイ キャスティングに基づく NeRF パイプラインが逆流を通じて観測空間を観測空間にマッピングすることであると指摘しました。正規空間が使用される場合。逆マッピングは学習された構造の収束には理想的ではなく、その結果、現在の方法では D-NeRF データセットで 30 レベルの PSNR レンダリング インデックスしか達成できません。
この課題を解決するために、研究チームはラスタライズに基づいた単眼の動的シーンモデリングプロセスを提案しました。彼らは、変形フィールドと 3D ガウスを初めて組み合わせ、高品質の再構築と新しい透視レンダリングを可能にする新しい方法を作成しました。この研究論文「高忠実度単眼動的シーン再構成のための変形可能な 3D ガウシアン」が、コンピューター ビジョン分野のトップ国際学会である CVPR 2024 に採択されました。この研究のユニークな点は、変形フィールドを 3D ガウスに適用して単眼の動的シーンに拡張する最初の研究であることです。
プロジェクトのホームページ: https://ingra14m.github.io/Deformable-Gaussians/
論文リンク: https://arxiv.org/abs/2309.13101
コード: https://github.com/ingra14m/Deformable-3D-Gaussians
実験結果は、変形フィールドが正準空間の 3D ガウス順方向マッピングを観測空間に正確に効果的にマッピングできることを示しています。 D-NeRF データセットでは、10% 以上の PSNR 改善が達成されました。さらに、実際のシーンでは、カメラのポーズが十分に正確ではない場合でも、レンダリングの詳細を向上させることができます。
# 図 1 ハイパーナーフの実際のシーンの実験結果。
関連作品
動的シーンの再構成は、3 次元再構成において常にホットな問題です。 NeRFに代表されるニューラルレンダリングが高品質なレンダリングを実現するにつれ、動的再構成の分野でも暗黙的表現に基づく一連の研究が登場している。 D-NeRF と Nerfies は、NeRF レイキャスティング パイプラインに基づいた変形フィールドを導入し、堅牢な動的なシーンの再構築を実現します。 TiNeuVox、K-Planes、および Hexplanes は、これに基づいてグリッド構造を導入し、モデルのトレーニング プロセスを大幅に高速化し、レンダリング速度を向上させます。ただし、これらの方法はすべて逆マッピングに基づいており、ゲージ空間と変形フィールドの高品質な分離を真に達成することはできません。 3D ガウス スプラッシュは、ラスター化に基づいた点群レンダリング パイプラインです。 CUDA によってカスタマイズされた微分可能なガウス ラスタライゼーション パイプラインと革新的な高密度化により、3D ガウスは SOTA レンダリング品質を実現するだけでなく、リアルタイム レンダリングも実現します。動的 3D ガウスは、まず静的 3D ガウスを動的フィールドに拡張します。ただし、マルチビュー シーンのみを処理できるため、携帯電話での撮影などのシングルビュー シーンなど、より一般的な状況での用途が大幅に制限されます。研究思想
Deformable-GS の核心は、静的な 3D ガウスを単眼の動的なシーンに拡張することです。各 3D ガウスは、画像レベルのレンダリングのための位置、回転、スケール、不透明度、および SH 係数を保持します。 3D ガウス アルファ ブレンドの公式によれば、時間の経過に伴う位置、およびガウス形状を制御する回転とスケーリングが、動的な 3D ガウスを決定する決定的なパラメータであることを見つけるのは難しくありません。ただし、従来の点群ベースのレンダリング方法とは異なり、3D ガウスが初期化された後、位置や透明度などのパラメーターは最適化によって継続的に更新されます。これにより、動的ガウスの学習がさらに困難になります。 ###この研究は、変形フィールドと 3D ガウスを組み合わせて最適化される動的シーン レンダリング フレームワークを革新的に提案します。具体的には、本研究では、COLMAP またはランダム点群によって初期化された 3D ガウスを正準空間として扱い、変形フィールドを使用して正準空間内の 3D ガウスの座標情報を入力として使用し、各 3D ガウスの位置と形状を予測します。時間の経過とともにパラメータが変化します。この研究では、変形フィールドを使用して、ラスター化されたレンダリングのために 3D ガウスを正準空間から観測空間に変換できます。この戦略は 3D ガウスの微分可能なラスタライゼーション パイプラインには影響せず、それによって計算された勾配を使用して正準空間 3D ガウスのパラメーターを更新できます。
さらに、変形フィールドの導入は、より大きな動作範囲を持つ部品のガウス密度化に有益です。これは、動きの振幅が大きい領域の変形場の勾配が相対的に高くなり、高密度化プロセス中に対応する領域がより細かく制御されるようになるためです。正準空間 3D ガウスの数と位置パラメータは初期段階では常に更新されますが、実験結果は、この統合最適化戦略が最終的には堅牢な収束結果を達成できることを示しています。約 20,000 回の反復の後、正準空間内の 3D ガウスの位置パラメータはほとんど変化しません。
研究チームは、実際のシーンでのカメラのポーズが十分に正確ではないことが多く、動的なシーンがこの問題をさらに悪化させることを発見しました。神経放射場は多層パーセプトロン (MLP) に基づいており、非常に滑らかな構造であるため、これは神経放射場に基づく構造に大きな影響を与えません。ただし、3D ガウスは点群の明示的な構造に基づいており、わずかに不正確なカメラのポーズをガウス スプラッシュによって確実に修正することは困難です。
この問題を軽減するために、この研究ではアニーリング スムーズ トレーニング (AST) を革新的に導入しました。このトレーニング メカニズムは、初期段階では 3D ガウシアンの学習をスムーズにし、後の段階ではレンダリングの詳細度を高めるように設計されています。この機構の導入により、レンダリングの品質が向上するだけでなく、時間補間タスクの安定性と滑らかさも大幅に向上します。
図 2 に本研究のパイプラインを示します. 詳細については論文の原文を参照してください。
結果表示
この研究では、最初に、この分野で広く使用されている D-NeRF データセット上の合成データセットの実験を行いました。動的再構築の。図 3 の視覚化結果から、Deformable-GS では以前の方法と比較してレンダリング品質が大幅に向上していることがわかります。
##図3 D-NERFデータセットに関するこの研究の定性的実験的比較結果。
この研究で提案された方法は、視覚効果の大幅な改善を達成するだけでなく、それに対応してレンダリングの定量的指標も改善します。研究チームがD-NeRFデータセットのレゴシーンにエラーを発見したことは注目に値します。つまり、トレーニングセットとテストセットのシーンにはわずかな違いがあります。これは、レゴ モデルのシャベルのフリップ角度が一貫していないことに現れています。これは、レゴ シーンで以前の方法の指標を改善できない根本的な理由でもあります。有意義な比較を可能にするために、この研究ではメトリクス測定のベースラインとしてレゴの検証セットを使用しました。図 4 合成データセットの定量的比較。
図 4 に示すように、この研究では、CVPR 2020 の D-NeRF、Sig Asia 2022 の TiNeuVox、CVPR2023 Tensor4D、K プレーンを含む SOTA メソッドをフル解像度 (800x800) で比較しました。 。この研究で提案された方法は、さまざまなレンダリング指標 (PSNR、SSIM、LPIPS) およびさまざまなシナリオにおいて大幅な改善を達成しました。 この研究で提案された方法は、合成シーンに適用できるだけでなく、カメラのポーズが十分に正確ではない実際のシーンでも SOTA 結果を達成します。図 5 に示すように、この研究は NeRF-DS データセットに対する SOTA 手法と比較しています。実験の結果、本研究で提案した手法は、高光反射面に特別な処理を行わなくても、高光反射シーンに特化したNeRF-DSを上回り、最高の描写効果が得られることが分かりました。# 図 図 5 実際のシーンの手法の比較。
さらに、この研究では、前方および後方の深さ伝播を備えた微分可能ガウス ラスタライゼーション パイプラインも初めて適用しました。図 6 に示すように、この深さは、Deformable-GS も堅牢な幾何学的表現を取得できることを証明しています。ディープ バックプロパゲーションは、逆レンダリング (Inverse Rendering)、SLAM、自動運転など、将来的に深い監視を必要とする多くのタスクを促進する可能性があります。
# 図 6 深度の視覚化。
著者について
##論文の筆頭著者: Yang Ziyi、浙江大学修士課程 2 年生、彼の主な研究方向は 3 つあります。 -次元ガウス、神経放射場、リアルタイムレンダリングなど。以上がCVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。