2 つのステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算)

2 つのステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインで再生可能

PHPz

リリース： 2024-02-20 15:54:16

転載

1036 人が閲覧しました

消費されるコンピューティングリソースは、従来の Stable Video Diffusion (SVD) モデルの 2/25 のみです。

AnimateLCM-SVD-xt がリリースされ、繰り返しノイズ除去を行うためにビデオ拡散モデルが変更されますが、これには時間がかかり、多くの計算が必要です。

まず、生成されたアニメーション効果を見てみましょう。

サイバーパンクスタイルは制御が簡単で、少年はヘッドフォンを着用してネオン街の通りに立っています:

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真

リアル風は大丈夫、新婚夫婦が寄り添い、絶妙な花束を持ち、古代の石の壁の下で愛を目撃します:

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真

SF スタイル、あります。地球に侵略してくるエイリアンの視覚的な感覚もあります:

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真

AnimateLCM-SVD-xt は、MMLab、Avolution AI、上海、中文大学によって作成されています。香港の人工知能研究所とセンスタイム研究所の研究者が共同で提案した。

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩画像

25 フレーム解像度 576x1024 の高品質アニメーションを 2 ～ 8 ステップで生成できます。分類器のガイダンスが必要です 、4 つのステップで生成されたビデオは、従来の SVD よりも高速かつ効率的に高忠実度を実現できます:

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩画像

現時点では、AnimateLCM コードはオープンソースとなり、試用可能なオンラインデモが提供されます。

デモを始めましょう

デモインターフェイスからわかるように、AnimateLCM には現在 3 つのバージョンがあります。AnimateLCM-SVD-xt は汎用の画像からビデオを生成するもので、AnimateLCM-t2v は生成; AnimateLCM-i2v は、ビデオに対してパーソナライズされた画像を生成します。

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩画像

以下は設定エリアで、基本的な Dreambooth モデルまたは LoRA モデルを選択し、スライダーで LoRA アルファ値を調整できます。 . .

#Picture 两步生成25帧高质量动画，计算为SVD的8% | 在线可玩次に、プロンプトとネガティブプロンプトを入力して、生成されるアニメーションの内容と品質をガイドできます。

Picture 两步生成25帧高质量动画，计算为SVD的8% | 在线可玩調整できるパラメータもいくつかあります:

Picture 两步生成25帧高质量动画，计算为SVD的8% | 在线可玩実際に試してみましたプロンプトは「clouds in the sky」、パラメータ設定は上に示したとおりで、サンプリングステップが 4 ステップのみの場合、生成されるエフェクトは次のようになります。

Picture 两步生成25帧高质量动画，计算为SVD的8% | 在线可玩サンプリングステップが 25 ステップ、プロンプトワード「ウサギを抱いている少年」の場合、効果は次のとおりです:

#Picture

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩正式リリースの表示効果をもう一度見てください。 2 ステップ、4 ステップ、および 8 ステップの効果の比較は次のとおりです。

Picture

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩ステップが多いほど、アニメーションの品質は向上します。 AnimateLCM の 4 つのステップだけで高忠実度を実現できます:

Picture

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩さまざまなスタイルを実現できます:

写真＃＃＃＃＃＃

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真

どうやって行うのですか?

ビデオ拡散モデルは、一貫性のある高忠実度のビデオを生成できるため注目が高まっていますが、反復的なノイズ除去プロセスは時間がかかるだけでなく、計算量も多いことが難点の 1 つであることに注意してください。これにより、適用範囲が制限されます。

そして、この作品 AnimateLCM では、研究者は、サンプリングに必要なステップを削減するために事前トレーニングされた画像拡散モデルを簡素化する一貫性モデル (CM) からインスピレーションを得て、拡張に成功しました。条件付き画像生成に関する潜在整合性モデル (LCM) 。

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真

具体的には、研究者らは、分離一貫性学習(分離一貫性学習)戦略を提案しました。

まず安定拡散モデルを高品質の画像テキストデータセットの画像一貫性モデルに抽出し、次にビデオデータに対して一貫性抽出を実行してビデオ一貫性モデルを取得します。この戦略は、空間レベルと時間レベルで個別にトレーニングすることでトレーニング効率を向上させます。

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真

さらに、Stable Diffusion コミュニティでプラグアンドプレイアダプターのさまざまな機能を実装できるようにするため、 (たとえば、ControlNet 制御生成) を使用して、研究者らは、既存の制御アダプターと既存の制御アダプターの一貫性を高めるための Teacher-Free Adaptation (Teacher-Free Adaptation) 戦略も提案しました。一貫性モデルにより、より制御可能なビデオ生成を実現します。

两步生成25帧高质量动画，计算为SVD的8% | 在线可玩写真