戦場のワイドショット、走っているストームトルーパー...
プロンプト: 戦場のワイドショット、走っているストームトルーパー...
1,200 フレームを含むこの 2 分間のビデオは、テキストからビデオへのモデルによって生成されました。 AI の痕跡はまだ明らかですが、キャラクターとシーンは非常に良好な一貫性を示しています。
これはどのように行われるのでしょうか? Vincent ビデオ テクノロジの生成品質とテキスト配置の品質は近年非常に優れていますが、既存のほとんどの方法は短いビデオ (通常は 16 フレームまたは 24 フレームの長さ) を生成することに焦点を当てていることを知っておく必要があります。ただし、短いビデオでは機能する既存の方法は、長いビデオ (64 フレーム以上) では機能しないことがよくあります。
短いシーケンスを生成する場合でも、260K を超えるトレーニング ステップや 4500 を超えるバッチ サイズなど、高価なトレーニングが必要になることがよくあります。長いビデオでトレーニングせず、短いビデオ ジェネレーターを使用して長いビデオを作成すると、結果として得られる長いビデオの品質が低下することがよくあります。既存の自己回帰手法(短いビデオの最後の数フレームを使用して新しい短いビデオを生成し、その後長いビデオを合成する)にも、シーンの切り替えが一貫しないなどのいくつかの問題があります。
既存の手法の欠点を補うために、Picsart AI Research と他の機関は共同で新しい Vincent ビデオ手法 StreamingT2V を提案しました。この方法では、自己回帰技術を使用し、長期短期記憶モジュールと組み合わせることで、強い時間的コヒーレンスを備えた長いビデオを生成できます。
次は 600 フレームの 1 分間のビデオ生成結果です。ミツバチと花が優れた一貫性を持っていることがわかります:
したがって、チームは条件アテンションモジュール (CAM)。 CAM は、アテンション メカニズムを使用して、以前のフレームからの情報を効果的に統合して新しいフレームを生成し、以前のフレームの構造や形状に制限されることなく、新しいフレームの動きを自由に処理できます。
生成されたビデオ内の人物やオブジェクトの外観変更の問題を解決するために、チームは外観保存モジュール (APM) も提案しました。これは、初期画像から開始できます (アンカー フレーム) オブジェクトまたはグローバル シーンの外観情報を抽出し、この情報を使用してすべてのビデオ パッチのビデオ生成プロセスを調整します。
長いビデオ生成の品質と解像度をさらに向上させるために、チームは自己回帰生成タスクのビデオ拡張モデルを改良しました。これを行うために、チームは高解像度の Vincent ビデオ モデルを選択し、SDEdit メソッドを使用して 24 の連続ビデオ ブロック (8 つのオーバーラップ フレームを含む) の品質を向上させました。
ビデオ ブロックのエンハンスメントの移行をスムーズにするために、重複するエンハンスド ビデオ ブロックをシームレスにブレンドするランダム ブレンディング方法も設計しました。
まず、5 秒間の 256 × 256 解像度のビデオ (16fps) を生成し、それをより高い解像度 (720 × 720)。図 2 は、その完全なワークフローを示しています。
長いビデオの生成部分は、初期化ステージとストリーミング T2V ステージで構成されます。
その中で、初期化段階では、事前トレーニングされた Vincent ビデオ モデル (たとえば、Modelscope を使用できます) を使用して、最初の 16 フレームのビデオ ブロックを生成します。 Vincent ビデオ ステージは、自己回帰方式で後続のフレームの新しいコンテンツを生成します。
自己回帰プロセス (図 3 を参照) の場合、チームが新たに提案した CAM は、前のビデオ ブロックの最後の 8 フレームの短期情報を利用して、ブロック間のシームレスな切り替えを実現できます。 。さらに、新しく提案されたAPMモジュールを使用して固定アンカーフレームの長期情報を抽出し、生成プロセス中の物事やシーンの詳細の変化に自己回帰プロセスがロバストに対応できるようにします。
長いビデオ (80、240、600、1200 フレーム以上) を生成した後、ストリーミング調整ステージのビデオ品質を向上させます。このプロセスでは、高解像度の Vison ショート ビデオ モデル (MS-Vid2Vid-XL など) を自己回帰方式で使用し、シームレスなビデオ ブロック処理のために新しく提案された確率的混合方法と組み合わせます。さらに、後者のステップでは追加のトレーニングが必要ないため、この方法の計算コストが低くなります。
条件付き注意モジュール
まず、事前トレーニング済みテキスト (短い) を使用します。ビデオ モデルは Video-LDM として表されます。アテンション モジュール (CAM) は、Video-LDM UNet に挿入される特徴エクストラクターと特徴インジェクターで構成されます。
特徴抽出器は、フレームごとの画像エンコーダーを使用し、その後、中間層まで Video-LDM UNet で使用されるのと同じエンコーダー層を使用します (UNet の重みによって初期化されます)。 。
機能注入の場合、ここでの設計は、UNet の各長距離ジャンプ接続が、クロス アテンションを通じて CAM によって生成された対応する機能に焦点を当てるようにすることです。
外観保持モジュール
APM モジュールはアンカー フレーム内の情報を修正できます。を使用して長期記憶をビデオ生成プロセスに統合します。これは、ビデオ パッチの生成中にシーンとオブジェクトの特性を維持するのに役立ちます。
APM がアンカー フレームとテキスト命令によって与えられるガイダンス情報の処理のバランスを取れるようにするために、チームは 2 つの改善を行いました: (1) アンカーの CLIP 画像トークンを結合するテキストを含むフレーム 命令の CLIP テキスト トークンが混合されます; (2) クロスアテンションを使用するために、各クロスアテンション レイヤーに重みが導入されます。
自動回帰ビデオ強化
生成された 24 フレームのビデオ ブロックを自己回帰的に強化するために、ここでは高解像度を使用します。 (1280x720) Vincent (ショート) ビデオ モデル (Refiner Video-LDM、図 3 を参照)。この処理は、まず入力ビデオ ブロックに大量のノイズを追加し、次にこの Vincent ビデオ拡散モデルを使用してノイズ除去処理を実行します。
しかし、この方法はビデオ ブロック間のトランジションの不一致の問題を解決するには十分ではありません。
この目的を達成するために、チームのソリューションはランダム ハイブリッド アプローチです。具体的な詳細については、元の論文を参照してください。
実験でチームが使用した評価指標には、時間的一貫性を評価するための SCuts スコア、モーションを意識したツイスト エラーが含まれます。 (MAWE) は動きとツイスト エラーの量、CLIP テキストと画像の類似性スコア (CLIP) はテキストの配置品質を評価し、美的スコア (AE) を評価します。
アブレーション研究
さまざまな新しいコンポーネントの有効性を評価するために、アブレーション チームは研究は、検証セットからランダムに抽出された 75 個のプロンプトに対して実行されました。
条件付き処理用の CAM: CAM は、モデルがより一貫性のあるビデオを生成するのに役立ち、比較すると、SCuts スコアは他のベースライン モデルより 88% 低くなります。
長期記憶: 図 6 は、長期記憶が自己回帰生成プロセス中にオブジェクトやシーンの特性の安定性を維持するのに大きく役立つことを示しています。
定量的な評価指標 (人物再識別スコア) では、APM は 20% の改善を達成しました。
ビデオ強化のためのランダム ミキシング: 他の 2 つのベンチマークと比較して、ランダム ミキシングは品質を大幅に向上させることができます。これは、図 4: StreamingT2V でよりスムーズなトランジションが得られることからもわかります。
StreamingT2V とベースライン モデルの比較
##チームは、画像からビデオへの手法 I2VGen-XL、SVD、DynamiCrafter-XL、自己回帰手法を使用した SEINE、ビデオ to -ビデオ メソッド SparseControl、およびテキストから長いビデオ MethodFreeNoise。定量的評価: 表 8 からわかるように、テスト セットの定量的評価は、StreamingT2V がシームレスなビデオ ブロックの遷移とモーションの一貫性の点で最高のパフォーマンスを発揮することを示しています。新しいメソッドの MAWE スコアも他のすべてのメソッドよりも大幅に優れており、2 番目に優れた SEINE よりも 50% 以上低いです。同様の動作が SCuts スコアでも見られます。 さらに、StreamingT2V は、生成されるビデオの単一フレーム品質の点で SparseCtrl よりわずかに劣るだけです。これは、この新しい方法が他の比較方法よりも優れた時間的一貫性とモーション ダイナミクスを備えた高品質の長時間ビデオを生成できることを示しています。 定性的評価: 次の図は、StreamingT2V と他の方式の効果を比較したもので、新しい方式の方がビデオの動的な効果を確保しながら、より高い一貫性を維持できることがわかります。 。 研究の詳細については、元の論文を参照してください。
以上が2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。