AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?-AI-php.cn

ホームページ

テクノロジー周辺機器

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

王林

Apr 08, 2023 am 11:21 AM

ai アルゴリズム

AI 生成モデルは、過去の期間で大きな進歩を遂げました。画像分野に関する限り、ユーザーは自然言語プロンプト (DALL-E 2、安定拡散など) を入力することで画像を生成できます。、時間次元で拡張して連続ビデオを生成したり (Phenaki など)、空間次元で拡張して 3D モデルを直接生成したり (Dreamfusion など) することもできます。

しかし、今のところ、これらのタスクはまだ孤立した研究状態にあり、相互に技術的に交差するものはありません。

最近、メタ AI 研究者はビデオと 3D 生成モデルの利点を組み合わせ、新しいテキストから 4 次元 (3 次元時間) 生成システム MAV3D (MakeA) を提案しました。 -Video3D ) は、自然言語による記述を入力として受け取り、あらゆる視点からレンダリングできる動的な 3 次元シーン表現を出力します。

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

紙のリンク: https://arxiv.org/abs/2301.11280

プロジェクトリンク: https://make-a-video3d.github.io/

##MAV3D は、

最初のを生成することもできます。与えられたテキスト記述に基づく 3 次元の動的シーンのモデル。

この論文で提案する方法は、4D 動的神経放射場 (NeRF) を使用して、テキストからビデオへの (T2V) 拡散をクエリすることで、シーン表現、密度、動きの一貫性を最適化します。ベースのモデルを使用すると、提供されたテキストから生成されたダイナミックビデオ出力を任意のカメラ位置と角度から表示でき、任意の 3D 環境に合成できます。

このメソッドは、ビデオゲーム、視覚効果、拡張現実や仮想現実用の 3D アセットを生成するために使用できます。

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

画像生成タスクやビデオ生成タスクとは異なり、インターネット上にはトレーニングに利用できる大量のキャプションデータがありますが、

既製の 4D モデルコレクションはありません。

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか? ##ボール遊びをするコーギー

MAV3D のトレーニング 3D や 4D は必要ありませんデータを使用する場合、T2V モデルはテキストと画像のペアとラベルのないビデオでのみトレーニングする必要があります。

実験部分では、研究者らはこの方法の有効性を証明するために包括的な定量的および定性的な実験を実施し、以前に確立された内部ベースラインを大幅に改善しました。 4D ダイナミックシーンへのテキスト送信

トレーニングデータが不足しているため、研究者はこのタスクを解決するためにいくつかのアイデアを考案しました。

1 つのアプローチは、事前トレーニングされた 2D ビデオジェネレーターを見つけて、生成されたビデオから 4D 再構成を抽出することです。ただし、ビデオから変形可能なオブジェクトの形状を再構成することは、依然として非常に困難な問題です。つまり、

Non-Rigid Structure from Motion (NRSfM) です。

オブジェクトに対して複数の同時視点が与えられると、タスクがより簡単になります。実世界のデータではマルチカメラのセットアップはまれですが、研究者らは、既存のビデオジェネレーターがシーンの任意の視点モデルを暗黙的に生成すると考えています。

言い換えれば、ビデオジェネレーターは、変形可能なオブジェクトのジオメトリと測光を再構築するための「統計的」マルチカメラセットアップとして使用できます。

MAV3D アルゴリズムは、動的神経放射場 (NeRF) を最適化し、入力テキストをビデオにデコードし、オブジェクトの周囲のランダムな視点をサンプリングすることでこれを実現します。

# ビデオジェネレーターを直接使用して動的 NeRF を最適化しても、満足のいく結果は得られませんでした。実装プロセス中に克服する必要がある問題がまだいくつかあります。 #1. 効果的でエンドツーエンドの学習可能な動的 3D シーン表現が必要です;

2. 現在、教師あり学習用のデータソースが必要ではないため、大規模 (テキスト、4D) ペアの大規模データセットを学習に利用できます;

3. 出力の解像度は、空間次元と時間次元の両方で拡張する必要があります。 4D 出力には大量のメモリと計算能力が必要です。

MAV3D モデル

MAV3D モデルは、神経放射場 (NeRF) に関する最新の研究に基づいており、その結果、効率的な (静的) NeRF と動的 NeRF が生成され、4D シーンが 6 つの多重解像度フィーチャープレーンのセットとして表現されます。

対応する (テキスト、4D) データなしでこの表現を監視するために、研究者らは、動的なシーンレンダリングのための多段階トレーニングパイプラインを提案し、高パフォーマンスを達成する上で各コンポーネントの重要性を実証しました。質の高い結果を。

重要な観察の 1 つは、Text-to-Video (T2V) モデルを使用して、スコア蒸留サンプリング (SDS) が直接使用されていることです。ダイナミクスを最適化するシナリオでは、視覚的なアーティファクトや次善の収束が発生する可能性があります。 AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

そこで研究者らは、まずテキストから画像 (T2I) モデルを使用して静的な 3D シーンをテキストプロンプトと照合し、次に 3D シーンモデルを動的に強化することにしました。

さらに、新しい時間認識 SDS 損失とモーション正則化項がモデルに導入されており、これらは現実的で挑戦的なモーションにとって重要であることが実験的に証明されています。

さらに、追加の時間認識超解像度微調整ステージを通じて、より高解像度の出力まで拡張されます。 AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

最後に、T2V モデルの超解像度モジュールの SDS を使用して、3 次元シーンモデルの教師あり学習用の高解像度勾配情報を取得し、視覚的な忠実度を高めます。推論を有効にすると、プロセス中に高解像度の出力がサンプリングされます。

#実験部分

評価指標

#CLIP R-Precision を使用して、生成されたビデオを評価します。テキストと生成されたシーンの間の一貫性を測定するために使用でき、レンダリングされたフレームからの入力キューの取得の精度を反映できます。研究者らは、CLIP の ViT-B/32 バリアントを使用して、さまざまなビューとタイムステップでフレームを抽出しました。

4 つの定性的指標の使用に加えて、

(i) 生成された 2 つのビデオの好みをヒューマンアノテーターに尋ねることによって、ビデオの品質を導き出すことができます。(ii) テキストの忠実度(iii) 動きの量、および (iv) 動きの信頼性。

#テキストと 4D の比較

テキストを変換する方法がなかったためそこで研究者らは、比較のために T2V 生成法に基づいた 3 つのベースラインを確立しました。2 次元フレームのシーケンスは、3 つの異なる方法を使用して 3 次元シーン表現のシーケンスに変換されます。最初のシーケンスは、ワンショットニューラルシーンレンダラー (Point-E) を通じて取得されます。2 番目は、pixelNeRF を各フレームに個別に適用することによって生成されます。3 番目は、D-NeRF を適用しています。 COLMAP を使用して抽出されたカメラ位置と結合されます。

この方法は、客観的な R 精度メトリックに関してベースラインモデルを上回っており、すべてのメトリックに関してヒューマンアノテーターによってより高く評価されていることがわかります。

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

#さらに、研究者らは、さまざまなカメラの視野角でのこの方法のパフォーマンスも調査しました。

アブレーション実験

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

1. ノーシーンスーパーMAV3D (ステージ 3) と同じステップ数で、解像度 (SR) 微調整でトレーニングされたモデルの場合、ヒューマンアノテーターは、品質、テキストの配置、動きの点で SR でトレーニングされたモデルを選択する可能性が高くなります。モデル。

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

さらに、超解像度の微調整により、レンダリングされたビデオの品質が向上し、より詳細でノイズの少ない高解像度ビデオが作成されます。

AIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?

2. 事前トレーニングなし: 動的シーンを直接最適化する手順 (静的シーンの事前トレーニングなし) は次のとおりです。 MAV3D と同じ場合によっては、結果としてシーンの品質が大幅に低下したり、収束が低下したりします。ケースの 73% と 65% では、ビデオ品質とリアルな動きの観点から、スタティックで事前トレーニングされたモデルが好まれます。

###

以上がAIGCの発展は速すぎる！ Meta が初のテキストベースの 4D ビデオシンセサイザーをリリース: 3D ゲームモデラーも解雇されるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。