復旦大学とファーウェイのノアの方舟研究所の研究者は、画像拡散モデル (LDM) - VidRD (再利用と拡散) に基づいて高品質ビデオを生成するための反復ソリューションを提案しました。このソリューションは、生成されるビデオの品質とシーケンスの長さにおいて画期的な進歩を遂げ、高品質で制御可能な長いシーケンスのビデオ生成を実現することを目的としています。これは、生成されたビデオ フレーム間のジッター問題を効果的に軽減し、研究と実用的な価値が高く、現在注目を集めている AIGC コミュニティに貢献します。
潜在拡散モデル (LDM) は、ノイズ除去オートエンコーダーに基づく生成モデルであり、ランダムに初期化されたデータから徐々にノイズを除去することで高品質のデータを生成できます。ただし、モデルのトレーニングと推論の両方における計算とメモリの制限により、通常、単一の LDM は非常に限られた数のビデオ フレームしか生成できません。既存の研究では、別の予測モデルを使用してより多くのビデオ フレームを生成しようとしていますが、これにより追加のトレーニング コストが発生し、フレーム レベルのジッターが発生します。
この論文では、画像合成における潜在拡散モデル (LDM) の目覚ましい成功に触発されて、VidRD と呼ばれる「再利用と拡散」と呼ばれるフレームワークが提案されています。このフレームワークは、LDM によってすでに生成された少数のビデオ フレームの後にさらに多くのビデオ フレームを生成できるため、より長く、高品質で多様なビデオ コンテンツを繰り返し生成できます。 VidRD は、効率的なトレーニングのために事前トレーニング済みの画像 LDM モデルを読み込み、ノイズ除去のために時間情報を追加した U-Net ネットワークを使用します。
この記事の主な貢献は次のとおりです:
この記事では、高品質ビデオ合成のための LDM トレーニングの開始点として、事前トレーニング済みの画像 LDM を使用することが効率的で賢明な選択であると考えています。同時に、この見解は[1、2]などの研究成果によってさらに裏付けられています。これに関連して、この記事で慎重に設計されたモデルは、事前にトレーニングされた安定拡散モデルに基づいて構築されており、その優れた特性を十分に学習し、継承しています。これらには、正確な潜在表現のための変分オートエンコーダー (VAE) と強力なノイズ除去ネットワーク U-Net が含まれます。図 1 は、モデルの全体的なアーキテクチャを明確かつ直感的に示しています。
この記事のモデル設計で注目すべき特徴は、事前トレーニングされたモデルの重みを最大限に活用していることです。具体的には、VAE のコンポーネントや U-Net のアップサンプリング層とダウンサンプリング層を含むほとんどのネットワーク層は、安定した拡散モデルの事前トレーニングされた重みを使用して初期化されます。この戦略により、モデルのトレーニング プロセスが大幅に高速化されるだけでなく、モデルが最初から良好な安定性と信頼性を示すことが保証されます。私たちのモデルは、元の潜在的な特徴を再利用し、以前の拡散プロセスを模倣することにより、少数のフレームを含む最初のビデオ クリップから追加のフレームを繰り返し生成できます。さらに、ピクセル空間と潜在空間の間の変換に使用されるオートエンコーダーでは、タイミング関連のネットワーク層をデコーダーに挿入し、これらの層を微調整して時間的一貫性を向上させます。
ビデオ フレーム間の連続性を確保するために、この記事では 3D Temp-conv レイヤーと Temp-attn レイヤーをモデルに追加します。 Temp-conv 層は 3D ResNet に従い、3D 畳み込み演算を実装して空間的および時間的相関を捕捉し、ビデオ シーケンス集約のダイナミクスと連続性を理解します。 Temp-Attn 構造は Self-attention に似ており、ビデオ シーケンス内のフレーム間の関係を分析して理解するために使用され、モデルがフレーム間の実行情報を正確に同期できるようになります。これらのパラメーターはトレーニング中にランダムに初期化され、モデルに時間構造の理解とエンコードを提供するように設計されています。さらに、モデル構造に適応するために、データ入力もそれに応じて適応および調整されています。 #図 2. この記事で提案する高品質の「テキストビデオ」トレーニング データセット構築方法 VidRD モデルをトレーニングするために、この記事では、図 2 に示すように、大規模な「テキスト-ビデオ」トレーニング データセットを構築する方法を提案します。この方法は、「テキスト-画像」データと「 text-video」には説明データがありません。さらに、高品質のビデオ生成を実現するために、この記事ではトレーニング データのウォーターマークを削除することも試みます。 現在の市場では高品質のビデオ記述データセットが比較的不足していますが、多数のビデオ分類データセットが存在します。これらのデータセットには豊富なビデオ コンテンツが含まれており、各ビデオには分類ラベルが付いています。たとえば、Moments-In-Time、Kinetics-700、および VideoLT は、3 つの代表的な大規模ビデオ分類データ セットです。 Kinetics-700 は 700 の人間のアクション カテゴリをカバーし、600,000 を超えるビデオ クリップが含まれています。 Moments-In-Time には 339 のアクション カテゴリが含まれており、合計 100 万を超えるビデオ クリップが含まれています。一方、VideoLT には 1,004 のカテゴリと 250,000 の長い未編集のビデオが含まれています。 既存のビデオ データを最大限に活用するために、この記事では、これらのビデオにさらに詳細な注釈を自動的に付けることを試みます。この記事では、BLIP-2 や MiniGPT4 などのマルチモーダル大規模言語モデルを使用しています。ビデオ内のキー フレームをターゲットにし、元の分類ラベルを組み合わせることで、モデルの質問と回答を通じて注釈を生成するための多くのプロンプトを設計します。この方法は、ビデオ データの音声情報を強化するだけでなく、詳細な説明のない既存のビデオに、より包括的で詳細なビデオ説明をもたらします。これにより、より豊富なビデオ タグの生成が可能になり、VidRD モデルがより優れたトレーニング効果をもたらすことができます。 さらに、この記事では、既存の非常に豊富な画像データについて、トレーニング用に画像データをビデオ形式に変換する詳細な方法も設計しました。具体的な操作は、画像のさまざまな位置でさまざまな速度でパンとズームを行うことです。これにより、各画像に独自の動的な表示形式が与えられ、現実の静止物体をキャプチャするためにカメラを移動する効果がシミュレートされます。この方法により、既存の画像データをビデオトレーニングに有効活用することができます。
#図 3. 既存の方法との生成効果の視覚的比較 最後に、次のようになります。図 3 は、この記事で生成された結果と既存の手法である Make-A-Video [3] および Imagen Video [4] のそれぞれを視覚的に比較したもので、この記事のモデルのより優れた品質生成効果を示しています。 説明文は「空にオーロラが広がる雪国でのタイムラプス」、「キャンドルが燃えている」です。 .」、「夜の輝く街の上空を襲う壮大な竜巻。」、「美しい海の海岸にある白い砂浜の空撮。」さらに多くのビジュアライゼーションはプロジェクトのホームページでご覧いただけます。
以上が復旦大学とファーウェイ・ノアが反復的な高品質ビデオ生成を実現するVidRDフレームワークを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。