AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者である Pan Liang 博士は、現在、上海人工知能研究所の研究員です。以前は、2020 年から 2023 年まで、シンガポールの南洋理工大学 S-Lab で研究員を務め、指導教授は Liu Ziwei 教授でした。彼の研究はコンピュータ ビジョン、3D 点群、バーチャル ヒューマンに焦点を当てており、主要な会議やジャーナルに複数の論文を発表しており、Google Scholar で 2,700 件以上引用されています。さらに、コンピュータ ビジョンと機械学習の分野の主要なカンファレンスやジャーナルの査読者も務めています。
最近、SenseTime-南洋理工大学共同AI研究センターS-Lab、上海人工知能研究所、北京大学、ミシガン大学が共同で、空間変換の明示的モデリングと静的3Dガウス・スプラッティングを組み合わせたDreamGaussian4D (DG4D)を提案しました。 GS) テクノロジーにより、効率的な 4 次元コンテンツの生成が可能になります。
4 次元コンテンツ生成は最近大幅な進歩を遂げていますが、既存の方法には、最適化に時間がかかる、モーション制御能力が低い、ディテール品質が低いなどの問題があります。 DG4D は、2 つの主要なモジュールを含む全体的なフレームワークを提案しています。1) 画像から 4D GS へ - 最初に DreamGaussianHD を使用して静的な 3D GS を生成し、次に HexPlane に基づくガウス変形に基づいて動的生成を生成します。2) ビデオからビデオ テクスチャのリファインメントへ。結果として得られる UV 空間テクスチャ マップは洗練され、事前トレーニングされた画像からビデオへの拡散モデルを使用することでその時間的一貫性が強化されます。
DG4D は 4 次元コンテンツ生成の最適化時間を数時間から数分に短縮し (図 1 を参照)、生成された 3 次元モーションの視覚的な制御を可能にし、次のような画像の生成をサポートしていることは注目に値します。 3 次元のアニメーション メッシュ モデルでリアルにレンダリングされます。
論文名: DreamGaussian4D: Generative 4D Gaussian Splatting
ホームページアドレス: https://jiawei-ren.github.io/projects/dreamgaussian4d/
論文アドレス: https:// arxiv.org/abs/2312.17142 30分 基本的なコンバージェンスの最適化
生成モデルは、2D画像、ビデオ、3Dシーンなどの多様なデジタルコンテンツの制作と制作を大幅に簡素化することができ、近年大幅な進歩を遂げました。 4 次元コンテンツは、ゲーム、映画、テレビなどの多くの下流タスクにとって重要なコンテンツ形式です。 4 次元で生成されたコンテンツは、既存のグラフィック コンテンツ制作パイプラインに接続するために、従来のグラフィック レンダリング エンジン ソフトウェア (Blender や Unreal Engine など) のインポートもサポートする必要があります (図 2 を参照)。
動的な 3 次元 (つまり 4 次元) 生成に特化した研究がいくつかありますが、4 次元シーンの効率的かつ高品質な生成には依然として課題があります。近年、ビデオと 3 次元生成モデルを組み合わせて 4 次元コンテンツ生成を実現し、あらゆる視野角でのコンテンツの外観と動作の一貫性を制約する研究方法がますます多く使用されています。
NeRF)は述べた。たとえば、MAV3D [1] は、HexPlane [2] 上のテキストからビデオへの拡散モデルを改良することにより、テキストから 4 次元へのコンテンツの生成を実現します。 Consistent4D [3] は、静的にキャプチャされたビデオから 4D シーンを生成するためにカスケード DyNeRF を最適化するための video-to-4D フレームワークを導入しています。複数の拡散モデルの事前分布を使用すると、Animate124 [4] は、テキストによるモーション記述を介して、単一の未処理の 2D 画像を 3D ダイナミック ビデオにアニメーション化できます。ハイブリッド SDS [5] テクノロジーに基づいた 4D-fy [6] では、複数の事前トレーニングされた拡散モデルを使用して、魅力的なテキストから 4 次元のコンテンツを生成できます。 ただし、上記の既存の方法 [1、3、4、6] はすべて、単一の 4D NeRF を生成するのに数時間を必要とするため、応用の可能性が大幅に制限されます。さらに、それらはすべて、最終的に生成されるモーションを効果的に制御または選択することが困難です。上記の欠点は主に次の要因に起因します。まず、前述の方法の基礎となる暗黙的な 4 次元表現が十分に効率的ではなく、レンダリング速度が遅く、動きの規則性が低いなどの問題があります。第 2 に、ビデオ SDS のランダムな性質があります。収束の難易度が高まり、最終的な結果では不安定性と複数のアーティファクトが発生します。 手法の紹介 4D NeRF を直接最適化する手法とは異なり、DG4D は、静的ガウス スプラッシュ テクノロジーと明示的な空間変換モデリングを組み合わせることにより、4D コンテンツ生成のための効率的かつ強力な表現を構築します。さらに、ビデオ生成方法には、高品質の 4D 生成を強化する貴重な時空間事前分布を提供する可能性があります。具体的には、1) 画像から 4D GS への生成、2) ビデオの大規模モデルベースのテクスチャ マップの改良という 2 つの主要な段階で構成される全体的なフレームワークを提案します。 D1. 4D GS への画像の生成
図 3 の 4D GS 生成フレームワーク図への画像 この段階では、動的ダイナミクスを示すために静的な 3D GS とその空間変形を使用します。異次元のシーン。与えられた 2D 画像に基づいて、強化された DreamGaussianHD メソッドを使用して静的な 3D GS を生成します。続いて、静的 3D GS 関数で時間依存の変形フィールドを最適化することで、各タイムスタンプでのガウス変形が推定され、変形された各フレームの形状とテクスチャが走行ビデオ内の対応するフレームと一致するようにすることが目的です。この段階の最後に、動的な 3 次元メッシュ モデル シーケンスが生成されます。 ️ HD 3D GS を使用した最近のグラフィカル 3D オブジェクト手法 DreamGaussian [7] に基づいて、さらにいくつかの改良を加え、より優れた 3D GS 生成および初期化メソッドのセットをコンパイルしました。主な動作改善点としては、1) マルチビュー最適化手法の採用、2) 最適化処理時のレンダリング画像の背景を、より生成に適した黒背景に設定することなどが挙げられます。この改良版を DreamGaussianHD と呼びます。具体的な改良されたレンダリングを図 4 に示します。図5 HexPlaneは動的変形場を表します
DreamGaussian と同様に、4D GS に基づく 4 次元動的モデル生成の最初の段階の後、4 次元メッシュ モデル シーケンスを抽出できます。さらに、DreamGaussian が行うのと同様に、メッシュ モデルの UV 空間内のテクスチャをさらに最適化することもできます。画像生成モデルのみを使用して個々の 3D メッシュ モデルのテクスチャを最適化する DreamGaussian とは異なり、3D メッシュ シーケンス全体を最適化する必要があります。 さらに、DreamGaussian のアプローチに従う場合、つまり、3D メッシュ シーケンスごとに独立したテクスチャ最適化を実行すると、3D メッシュのテクスチャが異なるタイムスタンプで一貫性なく生成され、ちらつきなどが頻繁に発生することがわかりました。欠陥アーティファクトが表示されます。これを考慮して、我々はDreamGaussianとは異なり、大規模なビデオ生成モデルに基づいたUV空間におけるビデオ間のテクスチャ最適化手法を提案します。具体的には、最適化プロセス中に一連のカメラ軌跡をランダムに生成し、これに基づいて複数のビデオをレンダリングし、レンダリングされたビデオに対して対応するノイズの追加とノイズ除去を実行して、メッシュ モデル テクスチャの強化を実現しました。 写真に基づいて大規模モデルを生成した場合とビデオに基づいて大規模モデルを生成した場合のテクスチャ最適化効果の比較を図 8 に示します。 実験結果 表2の一貫性レポート。 riveビデオに基づいて4次元コンテンツを生成する設定の場合、ビデオから4次元コンテンツを生成する方法の数値結果の比較を表3に示すことができます。 表 3 比較ビデオ生成に基づいた 4 次元コンテンツ関連手法の数値結果の分析 さらに、私たちのニーズに最も適合するさまざまな手法の生成結果についてのユーザー テストも実施しました。メソッドサンプリングテスト。テスト結果は表 4 に報告されています。表4 単一の画像 DG4Dと既存のオープンソースSOTAグラフは、4次元コンテンツメソッドとビデオ生成4次元コンテンツメソッドの効果を生成します。それぞれ図 9 と図 10 に表示されます。内容 図 9 図 9 図 4 次元コンテンツ効果の比較 図 10 Video Sheng 4 次元コンテンツ効果比較 図 さらに、単一の画像から 3D GS を生成する最近のダイレクト フィードフォワード手法 (つまり、SDS 最適化手法を使用しない) に基づいて静的 3D コンテンツを生成し、これに基づいて動的 4D GS の生成を初期化しました。 3D GS の直接フィードフォワード生成は、SDS 最適化に基づく方法よりも高速に、高品質でより多様な 3D コンテンツを生成できます。これに基づいて得られた 4 次元コンテンツを図 11 に示します。図 11 3D GS の生成方法に基づいて生成された 4 次元動的コンテンツ 結論
4D GS に基づいて、効率的な画像から 4D への生成フレームワークである DreamGaussian4D (DG4D) を提案します。既存の 4 次元コンテンツ生成フレームワークと比較して、DG4D は最適化時間を数時間から数分に大幅に短縮します。さらに、生成されたビデオを駆動モーション生成に使用して、視覚的に制御可能な 3D モーション生成を実現することを実証します。
参考文献 [1] Singer et al.「第 40 回機械学習国際会議議事録」。 [ 2] Cao et al.「Hexplane: 動的シーンの高速表現」2023 年の IEEE/CVF Conference。 [3] Jiang et al.単眼ビデオからの 360° ダイナミック オブジェクト生成。」第 12 回学習表現に関する国際会議。2023。 [4] Zhao et al.「Animate124: 1 つの画像を 4D ダイナミック シーンにアニメーション化。」arXiv プレプリント arXiv:2311.14603 (2023). [5] Poole et al.「DreamFusion: 2D 拡散を使用した Text-to-3D」。2022 年第 11 回国際会議。 [7] Tang ら「DreamGaussian: Generative」効率的な 3D コンテンツ作成のためのガウス スプラッティング。」第 12 回学習表現に関する国際会議。2023.
以上が数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。