Transformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現

WBOY
リリース: 2023-12-15 09:25:59
転載
1214 人が閲覧しました
ビデオ生成シナリオでは、Transformer を拡散モデルのノイズ除去バックボーンとして使用することが実現可能であることが、Li Feifei などの研究者によって証明されています。これは、ビデオ生成の分野における Transformer の大きな成功と考えられます。
最近、ビデオ生成に関する研究が多くの賞賛を受け、X ネチズンによって「ハリウッドの終わり」とさえ評価されました。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
本当にそれでいいのですか?まずは効果を見てみましょう:

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

#
これらのビデオにはアーティファクトがほとんどないだけでなく、非常に一貫性があり、詳細が満載であることは明らかです。大ヒット映画に実際に数フレームが追加されたとしても、明らかに矛盾するわけではないようにさえ思えます。

これらのビデオの作者は、スタンフォード大学、Google、ジョージア工科大学の研究者によって提案された Window Attendant Latent Transformer、つまり Window Attendant Latent Transformer です。 W.A.L.T と呼ばれます。この方法は、Transformer アーキテクチャを潜在ビデオ拡散モデルに統合することに成功しました。スタンフォード大学のリー・フェイフェイ教授も論文の著者の一人だ。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
  • プロジェクト Web サイト: https://walt-video-diffusion.github.io/
  • 論文アドレス: https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
これ以前、Transformer アーキテクチャは多くの異なる分野で大きな成功が収められていますが、画像とビデオの生成モデリングの分野を除いて、現在主流のパラダイムは拡散モデルです。

画像とビデオ生成の分野では、拡散モデルが主要なパラダイムとなっています。ただし、すべてのビデオ拡散方法の中で、主要なバックボーン ネットワークは、一連の畳み込み層とセルフ アテンション層で構成される U-Net アーキテクチャです。 Transformer のフル アテンション メカニズムのメモリ要件は入力シーケンスの長さに応じて二次関数的に増加するため、U-Net が推奨されます。ビデオなどの高次元信号を処理する場合、この成長パターンにより計算コストが非常に高くなります。

潜在拡散モデル (LDM) は、オートエンコーダーから導出された低次元の潜在空間で動作するため、計算要件が軽減されます。この場合、重要な設計上の選択は、潜在空間のタイプ、つまり空間圧縮と時空圧縮です。

空間圧縮は、大規模な画像とテキストのペアのデータセットのトレーニングを使用して実行される、事前トレーニング済みの画像オートエンコーダーと LDM の使用を可能にするため、空間圧縮を好むことがよくあります。ただし、空間圧縮を選択すると、ネットワークの複雑さが増し、特に高解像度のビデオを生成する場合、(メモリの制約により) Transformer をネットワーク バックボーンとして使用することが困難になります。一方、時空間圧縮はこれらの問題を軽減できますが、ビデオ テキスト データセットよりも大きくて多様になる傾向がある、画像とテキストのペアのデータセットを操作するのには適していません。

W.A.L.T は、潜在ビデオ拡散モデル (LVDM) 用の Transformer メソッドです。

#この方法は 2 つの段階で構成されます。

#最初の段階では、オートエンコーダーを使用して、ビデオと画像を統一された低次元の潜在空間にマッピングします。これにより、単一の生成モデルを画像データセットとビデオ データセットで共同トレーニングできるようになり、高解像度ビデオ生成の計算コストが大幅に削減されます。

第 2 フェーズでは、チームはセルフ アテンション レイヤーで構成される潜在ビデオ拡散モデル用の新しい Transformer ブロックを設計しました。空間的および時空間的注意。この設計には 2 つの主な利点があります。 1 つ目は、ローカル ウィンドウ アテンションを使用するため、計算要件を大幅に削減できます。第 2 に、空間層が画像とビデオ フレームを個別に処理できる一方で、時空間層はビデオの時間的関係をモデル化するために使用されるため、共同トレーニングが容易になります。

#概念的には単純ですが、この研究は、Transformer が潜在ビデオの拡散において優れた生成品質とパラメータ効率を備えていることを公開ベンチマークで実験的に実証した最初の研究です。

#最後に、新しい方法のスケーラビリティと効率を実証するために、チームは難しいフォトリアリスティックな画像からビデオへの生成タスクも実験しました。彼らは 3 つのモデルをカスケードしてトレーニングしました。これらには、基本的な潜在ビデオ拡散モデルと 2 つのビデオ超解像度拡散モデルが含まれます。その結果、解像度 512×896、毎秒 8 フレームのビデオが作成されます。このアプローチにより、UCF-101 ベンチマークで最先端のゼロショット FVD スコアが達成されます。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

さらに、このモデルは、一貫した 3D カメラの動きを持つビデオを生成するために使用できます。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

W.A.L.T

ビジュアルトークンを学ぶ

ビデオの生成モデリングの分野では、重要な設計上の決定は、潜在空間表現の選択です。理想的には、画像とビデオの両方の生成モデリングに使用できる、共有され統一された圧縮視覚表現が必要です。

具体的には、ビデオ シーケンス x が与えられた場合、目標は、特定の時間的および空間的スケールで時空間圧縮を実行する低次元表現 z を学習することです。ビデオと静止画像を統一して表現するには、ビデオの最初のフレームを残りのフレームとは別にエンコードする必要があります。これにより、静止画像をビデオの 1 フレームにすぎないかのように扱うことができます。

このアイデアに基づいて、チームの実際の設計では、MAGVIT-v2 トークナイザーの因果 3D CNN エンコーダー/デコーダー アーキテクチャが使用されています。

この段階の後、モデルへの入力は、単一のビデオまたは離散画像のスタックを表す潜在テンソルのバッチになります (図 2)。そして、ここでの暗黙的な表現は実数値であり、量子化されていません。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
画像とビデオの生成方法を学習します

Patchify。オリジナルの ViT デザインに従って、チームは各非表示フレームを重なり合わない一連のタイルに変換することで個別にタイル化しました。彼らはまた、空間的位置埋め込みと時間的位置埋め込みの合計である学習可能な位置埋め込みも使用しました。位置埋め込みは、タイルの線形投影に追加されます。画像の場合は、最初の隠しフレームに対応する時間的位置の埋め込みを追加するだけであることに注意してください。

#窓にご注意ください。グローバル セルフ アテンション モジュールのみで構成される Transformer モデルは、特にビデオ タスクの場合、計算コストとメモリコストが高くなります。画像とビデオの効率と共同処理を実現するために、チームは、空間 (S) と時空 (ST) という 2 種類の重複しない構成に基づいてウィンドウ方式で自己注意を計算しました。図 2 を参照してください。

#空間ウィンドウ (SW) の注目は、非表示のフレーム内のすべてのトークンに集中します。 SW は、画像とビデオの空間関係をモデル化します。時空間ウィンドウ (STW) アテンションの範囲は、ビデオの非表示フレーム間の時間的関係をモデル化する 3D ウィンドウです。最後に、絶対位置の埋め込みに加えて、相対位置の埋め込みも使用しました。

レポートによると、この設計はシンプルですが、計算効率が高く、画像とビデオのデータセットで共同トレーニングすることができます。フレーム レベルのオートエンコーダに基づく方法とは異なり、新しい方法では、ビデオ フレームを個別にエンコードおよびデコードする方法によくある問題であるちらつきアーティファクトが生成されません。
条件付き生成

制御可能なビデオ生成を実現するには、時間ステップを実行するだけでなく、条件付き拡散モデルでは、カテゴリ ラベル、自然言語、過去のフレーム、低解像度ビデオなどの追加の条件付き情報も使用する傾向があります。新しく提案された Transformer バックボーン ネットワークでは、チームは以下に説明するように 3 種類の条件付きメカニズムを統合しました。ウィンドウ化された Transformer ブロックでセルフ アテンション レイヤーを使用することに加えて、テキスト条件付き生成用のクロス アテンション レイヤーも追加しました。ビデオのみでモデルをトレーニングする場合、クロスアテンション レイヤーはセルフ アテンション レイヤーと同じウィンドウ制限アテンションを使用します。これは、S/ST に SW/STW クロスアテンション レイヤーがあることを意味します (図 2)。ただし、共同トレーニングの場合は、SW クロスアテンション レイヤーのみが使用されます。クロスアテンションを実現するために、チームのアプローチは、入力信号 (クエリ) と条件付き信号 (キー、値) を連結することです。

アダルン-LoRA。適応正規化レイヤーは、多くの生成合成モデルおよびビジュアル合成モデルにおける重要なコンポーネントです。適応正規化層を組み込むための簡単なアプローチは、条件付きパラメーターのベクトルで回帰する各層 i に MLP 層を含めることです。これらの追加の MLP レイヤーのパラメーターの数は、レイヤーの数に応じて線形に、モデルの次元に応じて二次的に増加します。 LoRA に触発されて、研究者らはモデル パラメーターを削減するためのシンプルなソリューション、AdaLN-LoRA を提案しました。

セルフコンディショニング。反復生成アルゴリズムは、外部入力に条件付けされるだけでなく、推論中に生成されるサンプルにも条件付けできます。具体的には、Chen らは論文「Analog bits: Generating discrete data using diffusion models with self-conditioning」の拡散モデルのトレーニング プロセスを変更して、モデルが特定の確率 p_sc でサンプルを生成し、これに基づいてサンプルを生成するようにしました。最初のサンプルでは、​​別のフォワード パスを使用してこの推定値を調整します。 1-p_sc が 1 回の順方向パスのみを完了するという一定の確率もあります。チームは、このモデル推定をチャネル次元に沿った入力と連結し、この単純な手法が v 予測と組み合わせるとうまく機能することを発見しました。

#自己回帰生成

自己回帰予測を通じて長いビデオを生成するために、チームはモデルはフレーム予測タスクでも共同トレーニングされました。これは、トレーニング プロセス中に過去のフレームに条件付けされた特定の確率 p_fp をモデルに与えることで実現されます。条件は、1 つの隠しフレーム (画像からビデオへの生成) または 2 つの隠しフレーム (ビデオ予測) のいずれかです。この条件は、ノイズの多い暗黙的な入力に沿ったチャネル次元によってモデルに統合されます。推論中に、c_fp を条件信号として使用して、標準の分類子なしのブートストラップが使用されます。

ビデオ超解像度

単一のビデオを使用して高解像度ビデオを生成する計算モデル コストが非常に高く、基本的には実現が困難です。研究者らは論文「高忠実度画像生成のためのカスケード拡散モデル」を参照し、カスケード法を使用して 3 つのモデルをカスケード接続し、ますます高い解像度で動作します。

基本モデルは 128×128 の解像度でビデオを生成し、その後 2 つの超解像度ステージを通じて 2 回アップサンプリングされます。低解像度の入力 (ビデオまたは画像) は、まず深度から空間への畳み込み演算を使用して空間的にアップサンプリングされます。トレーニング (グラウンド トゥルースの低解像度入力が提供される) とは異なり、推論は前の段階で生成された暗黙的な表現に依存することに注意してください。

この差を減らし、低解像度ステージで生成されたアーティファクトに対して超解像度ステージをより堅牢にするために、チームはノイズ条件付き強調も使用しました。

アスペクト比の微調整。トレーニングを簡素化し、さまざまなアスペクト比を持つより多くのデータ ソースを活用するために、ベース ステージでは正方形のアスペクト比を使用しました。次に、データのサブセットでモデルを微調整し、位置埋め込み補間によってアスペクト比 9:16 のビデオを生成しました。
実験

研究者らは、新しく提案された方法をさまざまなタスクで評価しました。画像とビデオの生成、フレーム予測、テキストベースのビデオ生成。彼らはまた、アブレーション研究を通じてさまざまな設計選択の影響を調査しました。

ビジュアル生成

ビデオ生成: UCF-101 と Kinetics-600 の両方各データセットにおいて、W.A.L.T は FVD インデックスの点でこれまでのすべての手法を上回っています (表 1 を参照)。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
画像生成: 表 2 は、W.A.L.T の結果を、256 × 256 解像度の画像を生成するための他の現在最良の方法と比較しています。新しく提案されたモデルは以前の方法よりも優れており、特殊なスケジューリング、畳み込み誘導バイアス、改善された拡散損失、および分類器を使用しないガイダンスを必要としません。 VDM の FID スコアはわずかに高くなりますが、より多くのモデル パラメーター (2B) があります。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
アブレーション研究

さまざまな設計上の決定の寄与を理解するために、チームはまた、アブレーション研究を実施しました。表 3 は、パッチ サイズ、ウィンドウ アテンション、セルフ コンディショニング、AdaLN-LoRA、およびオートエンコーダーに関するアブレーション研究の結果を示しています。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
テキストからビデオへの生成

チームはテキストからビデオへの変換に取り組んでいます。画像とテキストからビデオへの変換 私たちは、W.A.L.T のテキストからビデオへの生成機能を共同でトレーニングしました。彼らは、公共のインターネットと、約 9 億 7,000 万のテキストと画像のペアと約 8,900 万のテキストとビデオのペアを含む内部ソースからのデータセットを使用しました。

基本モデル (3B) の解像度は 17×128×128、カスケードされた 2 つの超解像度モデルは 17×128×224 → 17× 256× 448 (L、1.3B、p = 2) および 17×256×448→ 17×512×896 (L、419M、p = 2)。また、ベースステージのアスペクト比を微調整して、128×224 の解像度でビデオを作成しました。すべてのテキストからビデオへの生成結果では、分類子を使用しないブートストラップ アプローチが使用されます。

以下は生成されたビデオの例です。詳細については、プロジェクト Web サイトをご覧ください:

テキスト: 食べるリスハンバーガー。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

テキスト: 砂漠をゴースト ライダー バイクに乗った猫。

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

定量的評価

標準化されたトレーニング データセットとベンチマークが不足していることもあり、テキストベースのビデオ生成を科学的な方法で評価することは依然として課題です。これまでのところ、研究者らの実験と分析は、公平な比較を確保するために同じトレーニング データを使用する標準的な学術ベンチマークに焦点を当ててきました。

それでも、以前のテキストからビデオへの生成研究と比較するために、チームはゼロサンプル評価設定での UCF-101 データセットに関する結果を報告しています。
将Transformer用于扩散模型,AI 生成视频达到照片级真实感
W.A.L.T の利点は明らかであることがわかります。

詳細については、元の論文を参照してください。

以上がTransformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート