Sora の立ち上げが成功したことにより、ビデオ DiT モデルは幅広い注目と議論を集めました。安定した非常に大規模なニューラル ネットワークの設計は、視覚生成の分野において常に研究の焦点となってきました。 DiT モデルの成功により、スケーリング画像生成に新たな可能性がもたらされました。
しかし、ビデオ データは高度に構造化され複雑な性質を持っているため、DiT をビデオ生成の分野に拡張することは困難な作業です。上海人工知能研究所などの研究チームで構成されたチームは、大規模な実験を通じてこの疑問に答えた。
昨年 11 月、チームは Latte と呼ばれる自社開発モデルをリリースしました。そのテクノロジーは Sora に似ています。 Latte は世界初のオープンソースの文生ビデオ DiT であり、広く注目を集めています。 Open-Sora Plan (PKU) や Open-Sora (ColossalAI) などの多くのオープン ソース フレームワークは、Latte のモデル設計を使用および参照しています。
まず、Latte のビデオ生成効果を見てみましょう。
一般に、Latte には、事前トレーニングされた VAE とビデオという 2 つの主要なモジュールが含まれています。ディット。事前トレーニングされた VAE では、エンコーダーはビデオをピクセル空間から潜在空間にフレームごとに圧縮する役割を担い、ビデオ DiT はトークンを抽出し、時空間モデリングを実行して潜在表現を処理する役割を担います。ビデオを生成するためのピクセル空間の機能。最高のビデオ品質を得るために、研究者らは、Latte 設計における 2 つの重要な側面、つまりビデオ DiT モデルの全体的な構造設計とモデル トレーニングのベスト プラクティスの詳細に焦点を当てました。
(1) Latte 全体モデル構造設計検討
図 1 Latte モデルの構造とそのバリアント
著者は 4 つの異なる Latte バリアント (図 1) を提案し、時空間的注意メカニズムの観点から 2 つの Transformer モジュールを設計しました。各モジュールで学習:
1. 単一の注意メカニズム モジュール、各モジュール にのみ時間または空間の注意が含まれます。
2. 複数の注意メカニズム モジュール、各モジュール には時間的および空間的注意メカニズムの両方が含まれています (Open-sora 参照バリアント) 。
実験では、4 つのモデル バリアントに同じパラメーター量を設定することにより、バリアント 4 が他の 3 つのバリアントよりも FLOPS のパフォーマンスが優れていることがわかります (図 2)。明らかな違いがあるため、FVD も相対的に最も高くなります。他の 3 つのバリアントも全体的なパフォーマンスは同様です。バリアント 1 が最高のパフォーマンスを達成しました。今後、大規模データについてさらに詳細な議論を行う予定です。」
#図 2. モデル構造 FVD
(2) Latte モデルとトレーニングの詳細最適な設計の探索 (ベスト プラクティス)
モデルの全体的な構造設計に加えて、著者は他のモデルやトレーニングの生成効果に影響を与える要因も探索しました。 。1.トークン抽出: 単一フレーム トークン (a) と時空間トークン (b) の 2 つの方法が検討されました。前者は空間レベルでのみトークンを圧縮します。後者は時空間情報を同時に圧縮します。実験の結果、単一フレーム トークンは時空間トークンよりも優れていることがわかりました (図 4)。 Sora と比較すると、Sora が提案する時空間トークンはビデオ VAE によって時間次元で事前圧縮されており、潜在空間における Latte の設計と同様に、単一フレームのトークン処理のみが実行されると著者は推測しています。 #図 3. トークン抽出方法、(a) 単一フレーム トークンと (b) 時空トークン #図 4. トークン抽出 FVD 2. 条件付き注入モード: (a) S-AdaLN の探索(b) すべてのトークンは双方向です (図 5)。 S-AdaLN は、正規化で条件情報を変数に変換し、MLP を通じてモデルに注入します。 [すべてのトークン] フォームは、すべての条件をモデルへの入力として統合トークンに変換します。実験では、S-AdaLN メソッドがすべてのトークンよりも高品質の結果を得るのに効果的であることが示されました (図 6)。その理由は、S-AdaLN により各モジュールに情報を直接注入できるためです。ただし、すべてのトークンは条件付き情報を入力から最終層までレイヤーごとに渡す必要があり、情報フローのプロセスで損失が発生します。 図 5. (a) S-AdaLN と (b) すべてのトークン。
図 6. 条件付き注入法 FVD 3. 時空間位置エンコーディング: 絶対位置エンコーディングと相対位置エンコーディングを調べます。 異なる位置エンコーディングは最終的なビデオ品質にほとんど影響を与えません (図 7)。生成時間が短いため、位置エンコーディングの違いはビデオ品質に影響を与えるほどではありませんが、長いビデオを生成する場合は、この要素を再検討する必要があります。 4. モデルの初期化 : ImageNet の事前トレーニング パラメーターの初期化を使用した場合のモデルのパフォーマンスへの影響を調査します。実験の結果、 ImageNet を使用して初期化されたモデルの方が収束速度が速いことがわかりましたが、トレーニングが進むにつれて、ランダムに初期化されたモデルの方がより良い結果が得られます (図 8)。考えられる理由は、ImageNet とトレーニング セット FaceForensics の間に比較的大きな分布の差があるため、モデルの最終結果を促進できなかったことです。 Vincent ビデオ タスクでは、この結論を再検討する必要があります。一般的なデータセットの配布では、画像とビデオのコンテンツの空間分布は類似しており、事前トレーニングされた T2I モデルの使用により T2V を大幅に促進できます。 5. 画像とビデオの共同トレーニング: 共同トレーニング用にビデオと画像を統一トークンに圧縮します。ビデオ トークンはすべてのパラメータの最適化を担当し、画像トークンは空間パラメータの最適化のみを担当します。 共同トレーニングにより、最終結果が大幅に改善されました (表 2 および表 3). 画像 FID とビデオ FVD の両方が共同トレーニングによって減少しました. この結果は、UNet ベースのフレームワークと一致しています [2][3] 』は一貫している。 モデル サイズ : S、B、L、XL の 4 つの異なるモデル サイズを検討しました (表 1)。 ビデオ DiT の規模を拡大すると、生成されるサンプルの品質が大幅に向上します (図 9)。この結論は、その後のスケールアップのためにビデオ拡散モデルで Transformer 構造を使用することが正しいことも証明します。 #表 1. さまざまなサイズのラテ モデル スケール 図 9. モデル サイズ FVD 著者4 つの学術データセット (FaceForensics、TaichiHD、SkyTimelapse、UCF101) でそれぞれトレーニングされました。定性的および定量的な結果 (表 2 および表 3) は、Latte が最高のパフォーマンスを達成したことを示しており、モデルの全体的な設計が優れていることを証明しています。
表 2. UCF101 画質評価 ## Vincent Video Extension Latte の一般的なパフォーマンスをさらに証明するために、著者は空間パラメータの初期化として事前にトレーニングされた PixArt-alpha [4] モデルを使用して、Latte を Vincent ビデオ タスクに拡張しました。ラテはトレーニングの途中で、まずヴィンセントのビデオを作成する能力を身につけました。今後はスケールアップによりラテ生成能力の上限を検証する予定です。 ディスカッションと要約定性分析および定量分析
Latte は、世界初のオープンソース Vincent ビデオ DiT として有望な結果を達成しましたが、計算上の理由により、リソースには大きな違いがあり、生成の明確さ、流暢さ、持続時間の点でソラと比較するとまだ大きな差があります。チームはあらゆる種類の協力を歓迎し、積極的に求めており、オープンソースの力を利用して、優れたパフォーマンスを備えた自社開発の大規模ユニバーサルビデオ生成モデルを作成したいと考えています。
以上が昨年末にローンチした世界初のオープンソースVincentビデオ「Latte」を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。