AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
3D 再構築と新しいビュー合成技術は、仮想現実と拡張現実の分野で広く使用されています。 NeRF は、シーンをレイ シーンとして暗黙的にエンコードすることにより、ビュー合成で目覚ましい成功を収めました。ただし、NeRF がレンダリングのために高密度のコレクションに対する時間のかかるポイントごとのクエリに依存しているという事実により、その実用性は大きく制限されます。この問題を解決するために、ネットワーク フィードフォワード方式で複数のビューからシーンを再構成することを目的とした、いくつかの一般化可能な NeRF 手法が登場しました。ただし、NeRF ベースのメソッドは、レンダリングのためにレイ上の高密度のポイントのコレクションをクエリする必要があるため、速度が制限されます。最近では、3D ガウス スプラッティング (3D-GS) では、異方性 3D ガウスを使用してシーンを表示し、差分ラスタライザーを通じてリアルタイムの高品質レンダリングを実現します。
ただし、3D-GS は各シーンの最適化にも依存しており、1 シーンあたり数十分かかります。この問題を解決するために、3D-GS を目に見えないシーンに一般化しようとするいくつかの一般化されたガウス再構成作業がその後登場しました。ただし、これらの方法のトレーニングとレンダリングの効率はまだ改善する必要があり、主にオブジェクトや人体の再構築に限定されています。
これに基づいて、華中科技大学、南洋理工大学、大湾区大学、上海人工知能研究所の研究者が共同で、将来の使用に向けて、MVSGaussian と呼ばれる効率的で一般化可能なガウス再構成モデルを提案しました。見られたシーン。このモデルは、入力画像を複数のビューに分割し、ガウス プロセスを使用して深度とテクスチャ情報を推定することによって機能します。次に、マルチビュー ステレオ マッチング アルゴリズムを使用してビューを融合し、高品質の再構成結果を生成します。この方法は、再構築の品質と計算効率のバランスを適切に保ち、将来の視覚合成タスクに新しいソリューションを提供します
論文タイトル: マルチビューステレオからの高速一般化可能なガウススプラッティング再構築
論文アドレス: https ://arxiv.org/abs/2405.12218
プロジェクトのホームページ: https://mvsgaussian.github.io/
コードのオープンソース: https://github.com/TQTQliu/MVSGaussian
デモビデオ: https://youtu.be/4TxMQ9RnHMA
このモデルは、まばらなマルチビュー画像からシーンの 3D ガウス表現を学習できます。マルチビュー ステレオ (MVS) 表示形式の幾何学的推論とガウス ディープ ショット リアルタイム レンダリングの利点を組み合わせることで、MVSGaussian は一般化された推論で優れたパフォーマンスを発揮し、最速で最高のビュー レンダリング品質を達成できます。さらに、MVSGaussian はシーンごとの最適化にも大きな利点を持っており、高品質のリアルタイム レンダリングをわずか 45 秒 (3D-GS の約 1/10) で完了します。図 1 推論または最適化のいずれにおいて一般化しても、MVSGAUSSIAN はビューの品質、レンダリング速度、最適化時間において明らかな利点を示しています。
図 2 最適化時間 (反復回数) によるレンダリング ビュー品質の変化の比較。一般化可能なモデルは良好な初期化を提供するため、MVSGaussian はより短い最適化時間 (より少ない反復回数) で高品質のビュー合成を実現できます。
基本原則効率的で一般化可能なガウススパッタリングフレームワークを設計するには、次の重要な課題に直面します:
1) 暗黙的表現を使用する NeRF とは異なり、3D-GS は数百万の 3D ガウスを使用してシーンを明示的に表現します。球体。事前学習済み 3D-GS を目に見えないシーンに適用すると、位置や色などの 3D ガウス球のパラメーターが大きく異なります。 3D-GS に適応する一般的な表現を設計することは、簡単な作業ではありません。2) 一般化可能な NeRF 手法は、ボリューム レンダリングを通じて印象的なビュー合成効果を実現します。ただし、ガウス スパッタリングの一般化能力は十分に検討されていません。スパッタリング プロセス中、各ガウス球は画像の特定の領域内の複数のピクセルに寄与し、各ピクセルの色は複数のガウス球の寄与から蓄積されます。ガウス球とピクセルの間の色の対応は、より複雑な多対多の関係になるため、モデルの一般化能力に課題が生じます。
3) 一般化可能な NeRF 手法は、特定のシナリオに合わせてさらに微調整することで合成ビューの品質を大幅に向上できることを示していますが、これには多大な時間のかかる最適化が必要です。 3D-GS は NeRF よりも高速ですが、それでも時間がかかります。したがって、一般化可能なモデルに基づいてシーンごとに迅速に最適化する方法を設計することは、非常に有望な研究の方向性です。
上記の課題に対応して、私たちはソリューションを提供しました。
1) 各シーンに対応するガウス球の位置分布が異なるため、マルチビュー ステレオ (MVS) を使用してシーンの幾何学形状を明示的にモデル化し、奥行きを推測します。次に、推定された深さに対応する 3D ポイントの特徴をエンコードして、ピクセルに位置合わせされたガウス表現を構築します。
2) エンコードされた特徴に基づいて、MLP を介してそれらをガウス パラメーターにデコードし、スパッタリング テクノロジーを使用してビューをレンダリングできます。ただし、このアプローチでは一般化能力が限られていることがわかりました。私たちの洞察によると、スパッタリング モダリティは色の寄与に関して、つまりガウス球とピクセルの間に複雑な多対多の関係を導入しており、これが一般化に課題をもたらしているということです。そこで、我々は汎化能力を高めるためのシンプルかつ効果的な深度認識ボリュームレンダリング法、すなわち単一サンプリングポイントボリュームレンダリング法を提案する。最終的なレンダリング ビューは、スパッタリング技術とボリューム レンダリング技術によってレンダリングされたビューを平均することによって得られます。
3) 事前トレーニングされた一般化可能なモデルは、複数の視点から多数の 3D ガウスを生成でき、これらのガウス点群は、後続のシーンごとの最適化のための初期化として使用できます。ただし、MVS メソッドの固有の制限により、一般化可能なモデルによって予測される深度は完全に正確ではない可能性があり、その結果、生成されたガウス点群にノイズが発生します。これらのガウス点群を直接縫い合わせると、多くのノイズが発生します。さらに、ポイントの数が多いと、その後の最適化とレンダリングが遅くなります。直感的な解決策は、ステッチされた点群をダウンサンプリングすることです。ただし、ノイズを低減する一方で、有効なポイントの数も減少します。私たちの洞察は、優れた集約戦略では、ポイントの合計数が多すぎないようにしながら、ノイズ ポイントを削減し、有効なポイントを可能な限り保持する必要があるということです。この目的を達成するために、マルチビューの幾何学的一貫性に基づいた集約戦略を導入します。具体的には、異なる視野角での同じ 3D ポイントの予測深度は一貫している必要があるという原則に従い、異なる視野角からのガウス深度の再投影誤差を計算することでノイズ ポイントをフィルタリングします。
図 3 一般化可能なガウス スパッタリング フレームワーク。まず、フィーチャ ピラミッド ネットワーク (FPN) を使用して入力ビューからフィーチャを抽出し、これらのフィーチャをターゲット パースペクティブにワープし、コスト ボリュームを構築して、3D CNN の正則化を通じて深度を生成します。次に、深さに対応する 3D ポイントについて、マルチビューおよび空間情報エンコード機能を集約することによって、ピクセル位置合わせされたガウス表現を構築します。次に、これらの特徴はガウス パラメーターとボリューム レンダリング パラメーターにデコードされ、2 つのビューがレンダリングされ、最終結果は 2 つのビューの平均になります。
図 4 一貫した集計。一般化可能なモデルを使用して深度マップとガウス点群を生成し、まず深度マップに対してマルチビューの幾何学的整合性チェックを実行して、信頼できない点をフィルタリングするためのマスクを取得します。その後、シーンごとの最適化のための初期化として、フィルタリングされた点群が 1 つの点群に結合されます。
結果の比較
このペーパーでは、広く使用されている DTU、Real Forward-facing、NeRF Synthetic、Tanks and Temples データセットの評価を実行し、PSNR、SSIM、LPIPS、FPS などのメトリクスをレポートします。一般化推論 (表 1 および 2) の観点からは、MVSGaussian は優れたパフォーマンスを示し、最速の速度と最小限のメモリ オーバーヘッドで優れたパフォーマンスを実現します。シーンごとの最適化 (表 3) に関して、MVSGaussian は最短の最適化時間 (3D-GS の約 1/10) で最高のビュー合成効果を達成でき、3D に匹敵するリアルタイム レンダリング速度を維持します。 -GS。定性的なビューとビデオの比較は、シーンの詳細がより多く、アーティファクトが少ない高品質のビューを合成する MVSGaussian の能力も示しています。ビデオ結果の詳細については、プロジェクトのホームページをご覧ください。
表 1 定量的DTU テスト セットの一般化に関する結果。表 2 Real Forward-facing、NeRF Synthetic、Tanks and Temples データセットの定量的一般化の結果。表 3 シーンごとの最適化後の定量的結果。図5 一般化推論の結果の比較。
図 7 シーンごとの最適化後の結果の比較。 old比較される。
結論
この論文では、複数のビューからシーンを再構成するための新しい一般化可能なガウス スパッタリング法である MVSGaussian を提案しました。具体的には、MVS を利用してジオメトリを推論し、ピクセルに合わせたガウス表現を構築します。さらに、効率的な深度認識ボリューム レンダリングを組み合わせて一般化機能を強化するハイブリッド ガウス レンダリング方法を提案します。推論を直接一般化することに加えて、モデルは特定のシナリオに合わせて迅速に微調整できます。高速な最適化を実現するために、高品質の初期化を提供するマルチビュー ジオメトリの一貫した集約戦略を導入します。通常、各イメージのレンダリングに数十分の微調整と数秒を必要とする一般化可能な NeRF と比較して、MVSGaussian はより高い合成品質でのリアルタイム レンダリングを可能にします。 さらに、MVSGaussian は、3D-GS と比較して、トレーニングの計算コストを削減しながら、より優れたビュー合成効果を実現します。広範な実験により、MVSGaussian が汎化パフォーマンス、リアルタイム レンダリング速度、およびシーンごとの高速最適化の点で最先端に達していることが検証されています。ただし、MVSGaussian は深度推定にマルチビュー ステレオ (MVS) に依存しているため、テクスチャや鏡面反射が弱い領域での深度精度の低下など、MVS の制限を受け継ぎ、結果としてビュー品質が低下します。
以上がわずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。