数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案-AI-php.cn

ホームページ

テクノロジー周辺機器

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

王林

Jul 12, 2024 am 09:30 AM

プロジェクトセンスタイム

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者である Pan Liang 博士は、現在、上海人工知能研究所の研究員です。以前は、2020 年から 2023 年まで、シンガポールの南洋理工大学 S-Lab で研究員を務め、指導教授は Liu Ziwei 教授でした。彼の研究はコンピュータビジョン、3D 点群、バーチャルヒューマンに焦点を当てており、主要な会議やジャーナルに複数の論文を発表しており、Google Scholar で 2,700 件以上引用されています。さらに、コンピュータビジョンと機械学習の分野の主要なカンファレンスやジャーナルの査読者も務めています。

最近、SenseTime-南洋理工大学共同AI研究センターS-Lab、上海人工知能研究所、北京大学、ミシガン大学が共同で、空間変換の明示的モデリングと静的3Dガウス・スプラッティングを組み合わせたDreamGaussian4D (DG4D)を提案しました。 GS) テクノロジーにより、効率的な 4 次元コンテンツの生成が可能になります。

4 次元コンテンツ生成は最近大幅な進歩を遂げていますが、既存の方法には、最適化に時間がかかる、モーション制御能力が低い、ディテール品質が低いなどの問題があります。 DG4D は、2 つの主要なモジュールを含む全体的なフレームワークを提案しています。1) 画像から 4D GS へ - 最初に DreamGaussianHD を使用して静的な 3D GS を生成し、次に HexPlane に基づくガウス変形に基づいて動的生成を生成します。2) ビデオからビデオテクスチャのリファインメントへ。結果として得られる UV 空間テクスチャマップは洗練され、事前トレーニングされた画像からビデオへの拡散モデルを使用することでその時間的一貫性が強化されます。

DG4D は 4 次元コンテンツ生成の最適化時間を数時間から数分に短縮し (図 1 を参照)、生成された 3 次元モーションの視覚的な制御を可能にし、次のような画像の生成をサポートしていることは注目に値します。 3 次元のアニメーションメッシュモデルでリアルにレンダリングされます。

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

論文名: DreamGaussian4D: Generative 4D Gaussian Splatting
ホームページアドレス: https://jiawei-ren.github.io/projects/dreamgaussian4d/
論文アドレス: https:// arxiv.org/abs/2312.17142 30分基本的なコンバージェンスの最適化
課題と課題

生成モデルは、2D画像、ビデオ、3Dシーンなどの多様なデジタルコンテンツの制作と制作を大幅に簡素化することができ、近年大幅な進歩を遂げました。 4 次元コンテンツは、ゲーム、映画、テレビなどの多くの下流タスクにとって重要なコンテンツ形式です。 4 次元で生成されたコンテンツは、既存のグラフィックコンテンツ制作パイプラインに接続するために、従来のグラフィックレンダリングエンジンソフトウェア (Blender や Unreal Engine など) のインポートもサポートする必要があります (図 2 を参照)。数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

動的な 3 次元 (つまり 4 次元) 生成に特化した研究がいくつかありますが、4 次元シーンの効率的かつ高品質な生成には依然として課題があります。近年、ビデオと 3 次元生成モデルを組み合わせて 4 次元コンテンツ生成を実現し、あらゆる視野角でのコンテンツの外観と動作の一貫性を制約する研究方法がますます多く使用されています。

NeRF）は述べた。たとえば、MAV3D [1] は、HexPlane [2] 上のテキストからビデオへの拡散モデルを改良することにより、テキストから 4 次元へのコンテンツの生成を実現します。 Consistent4D [3] は、静的にキャプチャされたビデオから 4D シーンを生成するためにカスケード DyNeRF を最適化するための video-to-4D フレームワークを導入しています。複数の拡散モデルの事前分布を使用すると、Animate124 [4] は、テキストによるモーション記述を介して、単一の未処理の 2D 画像を 3D ダイナミックビデオにアニメーション化できます。ハイブリッド SDS [5] テクノロジーに基づいた 4D-fy [6] では、複数の事前トレーニングされた拡散モデルを使用して、魅力的なテキストから 4 次元のコンテンツを生成できます。

ただし、上記の既存の方法 [1、3、4、6] はすべて、単一の 4D NeRF を生成するのに数時間を必要とするため、応用の可能性が大幅に制限されます。さらに、それらはすべて、最終的に生成されるモーションを効果的に制御または選択することが困難です。上記の欠点は主に次の要因に起因します。まず、前述の方法の基礎となる暗黙的な 4 次元表現が十分に効率的ではなく、レンダリング速度が遅く、動きの規則性が低いなどの問題があります。第 2 に、ビデオ SDS のランダムな性質があります。収束の難易度が高まり、最終的な結果では不安定性と複数のアーティファクトが発生します。

手法の紹介

4D NeRF を直接最適化する手法とは異なり、DG4D は、静的ガウススプラッシュテクノロジーと明示的な空間変換モデリングを組み合わせることにより、4D コンテンツ生成のための効率的かつ強力な表現を構築します。さらに、ビデオ生成方法には、高品質の 4D 生成を強化する貴重な時空間事前分布を提供する可能性があります。具体的には、1) 画像から 4D GS への生成、2) ビデオの大規模モデルベースのテクスチャマップの改良という 2 つの主要な段階で構成される全体的なフレームワークを提案します。 D1. 4D GS への画像の生成

図 3 の 4D GS 生成フレームワーク図への画像
この段階では、動的ダイナミクスを示すために静的な 3D GS とその空間変形を使用します。異次元のシーン。与えられた 2D 画像に基づいて、強化された DreamGaussianHD メソッドを使用して静的な 3D GS を生成します。続いて、静的 3D GS 関数で時間依存の変形フィールドを最適化することで、各タイムスタンプでのガウス変形が推定され、変形された各フレームの形状とテクスチャが走行ビデオ内の対応するフレームと一致するようにすることが目的です。この段階の最後に、動的な 3 次元メッシュモデルシーケンスが生成されます。 ️ HD 3D GS を使用した最近のグラフィカル 3D オブジェクト手法 DreamGaussian [7] に基づいて、さらにいくつかの改良を加え、より優れた 3D GS 生成および初期化メソッドのセットをコンパイルしました。主な動作改善点としては、1) マルチビュー最適化手法の採用、2) 最適化処理時のレンダリング画像の背景を、より生成に適した黒背景に設定することなどが挙げられます。この改良版を DreamGaussianHD と呼びます。具体的な改良されたレンダリングを図 4 に示します。図5 HexPlaneは動的変形場を表します
生成された静的3D GSモデルに基づいて、各フレームのガウスカーネルの変形を予測することで期待を満たす動画を生成します動的4D GSモデル。動的効果の特性評価の観点から、各タイムスタンプでのガウスカーネルの変位、回転、スケールを予測するために HexPlane (図 5 を参照) を選択し、それによって各フレームの動的モデルの生成を推進します。さらに、静的な 3D GS モデルに基づいて動的フィールドをスムーズかつ完全に初期化できるように、特に最後のいくつかの線形動作ネットワーク層の残留接続とゼロ初期化の設計など、目標を絞った方法で設計ネットワークを調整しました。 (効果は図のとおりです)を6)に示します。開始図 6 動的フィールドの最終世代に対する動的フォーメーションの初期化の影響

2. ビデオ間の水の最適化

図 7 ビデオ間のテクスチャの最適化フレーム図

DreamGaussian と同様に、4D GS に基づく 4 次元動的モデル生成の最初の段階の後、4 次元メッシュモデルシーケンスを抽出できます。さらに、DreamGaussian が行うのと同様に、メッシュモデルの UV 空間内のテクスチャをさらに最適化することもできます。画像生成モデルのみを使用して個々の 3D メッシュモデルのテクスチャを最適化する DreamGaussian とは異なり、3D メッシュシーケンス全体を最適化する必要があります。

さらに、DreamGaussian のアプローチに従う場合、つまり、3D メッシュシーケンスごとに独立したテクスチャ最適化を実行すると、3D メッシュのテクスチャが異なるタイムスタンプで一貫性なく生成され、ちらつきなどが頻繁に発生することがわかりました。欠陥アーティファクトが表示されます。これを考慮して、我々はDreamGaussianとは異なり、大規模なビデオ生成モデルに基づいたUV空間におけるビデオ間のテクスチャ最適化手法を提案します。具体的には、最適化プロセス中に一連のカメラ軌跡をランダムに生成し、これに基づいて複数のビデオをレンダリングし、レンダリングされたビデオに対して対応するノイズの追加とノイズ除去を実行して、メッシュモデルテクスチャの強化を実現しました。

写真に基づいて大規模モデルを生成した場合とビデオに基づいて大規模モデルを生成した場合のテクスチャ最適化効果の比較を図 8 に示します。

実験結果
4D NeRF の全体最適化の以前の方法と比較して、DG4D は大幅に短縮され、4 次元コンテンツの生成に必要な時間が短縮されます。具体的な時間の比較を表 1 に示します。

表2の一貫性レポート。 riveビデオに基づいて4次元コンテンツを生成する設定の場合、ビデオから4次元コンテンツを生成する方法の数値結果の比較を表3に示すことができます。

表 3 比較ビデオ生成に基づいた 4 次元コンテンツ関連手法の数値結果の分析

さらに、私たちのニーズに最も適合するさまざまな手法の生成結果についてのユーザーテストも実施しました。メソッドサンプリングテスト。テスト結果は表 4 に報告されています。表4 単一の画像
によって生成された4次元コンテンツに基づくユーザーテスト

DG4Dと既存のオープンソースSOTAグラフは、4次元コンテンツメソッドとビデオ生成4次元コンテンツメソッドの効果を生成します。それぞれ図 9 と図 10 に表示されます。内容図 9 図 9 図 4 次元コンテンツ効果の比較図 10 Video Sheng 4 次元コンテンツ効果比較図

さらに、単一の画像から 3D GS を生成する最近のダイレクトフィードフォワード手法 (つまり、SDS 最適化手法を使用しない) に基づいて静的 3D コンテンツを生成し、これに基づいて動的 4D GS の生成を初期化しました。 3D GS の直接フィードフォワード生成は、SDS 最適化に基づく方法よりも高速に、高品質でより多様な 3D コンテンツを生成できます。これに基づいて得られた 4 次元コンテンツを図 11 に示します。図 11 3D GS の生成方法に基づいて生成された 4 次元動的コンテンツ

単一の画像に基づいてさらに表示された 4 次元コンテンツを図 12 に示します。
結論

4D GS に基づいて、効率的な画像から 4D への生成フレームワークである DreamGaussian4D (DG4D) を提案します。既存の 4 次元コンテンツ生成フレームワークと比較して、DG4D は最適化時間を数時間から数分に大幅に短縮します。さらに、生成されたビデオを駆動モーション生成に使用して、視覚的に制御可能な 3D モーション生成を実現することを実証します。
最後に、DG4D は 3D メッシュモデルの抽出を可能にし、時間的に一貫した高品質のテクスチャ最適化をサポートします。 DG4D が提案する 4 次元コンテンツ生成フレームワークが 4 次元コンテンツ生成に向けた研究を促進し、さまざまな実用化に貢献することを期待しています。

参考文献

[1] Singer et al.「第 40 回機械学習国際会議議事録」。 ^{[ 2] Cao et al.「Hexplane: 動的シーンの高速表現」2023 年の IEEE/CVF Conference。}

^{[3] Jiang et al.単眼ビデオからの 360° ダイナミックオブジェクト生成。」第 12 回学習表現に関する国際会議。2023。}

^{[4] Zhao et al.「Animate124: 1 つの画像を 4D ダイナミックシーンにアニメーション化。」arXiv プレプリント arXiv:2311.14603 (2023).}

[5] Poole et al.「DreamFusion: 2D 拡散を使用した Text-to-3D」。2022 年第 11 回国際会議。
[6] 、Sherwin ら「4d-fy: ハイブリッドスコア蒸留サンプリングを使用した Text-to-4d の生成。」arXiv プレプリント arXiv:2311.17984 (2023).
[7] Tang ら「DreamGaussian: Generative」効率的な 3D コンテンツ作成のためのガウススプラッティング。」第 12 回学習表現に関する国際会議。2023.

以上が数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1676

CakePHP チュートリアル

1429

Laravel チュートリアル

1333

PHP チュートリアル

1278

C# チュートリアル

1257

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック