Transformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現-AI-php.cn

ホームページ

テクノロジー周辺機器

Transformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 15, 2023 am 09:25 AM

プロジェクト w.a.l.t

ビデオ生成シナリオでは、Transformer を拡散モデルのノイズ除去バックボーンとして使用することが実現可能であることが、Li Feifei などの研究者によって証明されています。これは、ビデオ生成の分野における Transformer の大きな成功と考えられます。

最近、ビデオ生成に関する研究が多くの賞賛を受け、X ネチズンによって「ハリウッドの終わり」とさえ評価されました。

本当にそれでいいのですか？まずは効果を見てみましょう:

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

これらのビデオにはアーティファクトがほとんどないだけでなく、非常に一貫性があり、詳細が満載であることは明らかです。大ヒット映画に実際に数フレームが追加されたとしても、明らかに矛盾するわけではないようにさえ思えます。

これらのビデオの作者は、スタンフォード大学、Google、ジョージア工科大学の研究者によって提案された Window Attendant Latent Transformer、つまり Window Attendant Latent Transformer です。 W.A.L.T と呼ばれます。この方法は、Transformer アーキテクチャを潜在ビデオ拡散モデルに統合することに成功しました。スタンフォード大学のリー・フェイフェイ教授も論文の著者の一人だ。

プロジェクト Web サイト: https://walt-video-diffusion.github.io/
論文アドレス: https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

これ以前、Transformer アーキテクチャは多くの異なる分野で大きな成功が収められていますが、画像とビデオの生成モデリングの分野を除いて、現在主流のパラダイムは拡散モデルです。

画像とビデオ生成の分野では、拡散モデルが主要なパラダイムとなっています。ただし、すべてのビデオ拡散方法の中で、主要なバックボーンネットワークは、一連の畳み込み層とセルフアテンション層で構成される U-Net アーキテクチャです。 Transformer のフルアテンションメカニズムのメモリ要件は入力シーケンスの長さに応じて二次関数的に増加するため、U-Net が推奨されます。ビデオなどの高次元信号を処理する場合、この成長パターンにより計算コストが非常に高くなります。

潜在拡散モデル (LDM) は、オートエンコーダーから導出された低次元の潜在空間で動作するため、計算要件が軽減されます。この場合、重要な設計上の選択は、潜在空間のタイプ、つまり空間圧縮と時空圧縮です。

空間圧縮は、大規模な画像とテキストのペアのデータセットのトレーニングを使用して実行される、事前トレーニング済みの画像オートエンコーダーと LDM の使用を可能にするため、空間圧縮を好むことがよくあります。ただし、空間圧縮を選択すると、ネットワークの複雑さが増し、特に高解像度のビデオを生成する場合、(メモリの制約により) Transformer をネットワークバックボーンとして使用することが困難になります。一方、時空間圧縮はこれらの問題を軽減できますが、ビデオテキストデータセットよりも大きくて多様になる傾向がある、画像とテキストのペアのデータセットを操作するのには適していません。

W.A.L.T は、潜在ビデオ拡散モデル (LVDM) 用の Transformer メソッドです。

#この方法は 2 つの段階で構成されます。

#最初の段階では、オートエンコーダーを使用して、ビデオと画像を統一された低次元の潜在空間にマッピングします。これにより、単一の生成モデルを画像データセットとビデオデータセットで共同トレーニングできるようになり、高解像度ビデオ生成の計算コストが大幅に削減されます。

第 2 フェーズでは、チームはセルフアテンションレイヤーで構成される潜在ビデオ拡散モデル用の新しい Transformer ブロックを設計しました。空間的および時空間的注意。この設計には 2 つの主な利点があります。 1 つ目は、ローカルウィンドウアテンションを使用するため、計算要件を大幅に削減できます。第 2 に、空間層が画像とビデオフレームを個別に処理できる一方で、時空間層はビデオの時間的関係をモデル化するために使用されるため、共同トレーニングが容易になります。

#概念的には単純ですが、この研究は、Transformer が潜在ビデオの拡散において優れた生成品質とパラメータ効率を備えていることを公開ベンチマークで実験的に実証した最初の研究です。

#最後に、新しい方法のスケーラビリティと効率を実証するために、チームは難しいフォトリアリスティックな画像からビデオへの生成タスクも実験しました。彼らは 3 つのモデルをカスケードしてトレーニングしました。これらには、基本的な潜在ビデオ拡散モデルと 2 つのビデオ超解像度拡散モデルが含まれます。その結果、解像度 512×896、毎秒 8 フレームのビデオが作成されます。このアプローチにより、UCF-101 ベンチマークで最先端のゼロショット FVD スコアが達成されます。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

さらに、このモデルは、一貫した 3D カメラの動きを持つビデオを生成するために使用できます。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

W.A.L.T

ビジュアルトークンを学ぶ

ビデオの生成モデリングの分野では、重要な設計上の決定は、潜在空間表現の選択です。理想的には、画像とビデオの両方の生成モデリングに使用できる、共有され統一された圧縮視覚表現が必要です。

具体的には、ビデオシーケンス x が与えられた場合、目標は、特定の時間的および空間的スケールで時空間圧縮を実行する低次元表現 z を学習することです。ビデオと静止画像を統一して表現するには、ビデオの最初のフレームを残りのフレームとは別にエンコードする必要があります。これにより、静止画像をビデオの 1 フレームにすぎないかのように扱うことができます。

このアイデアに基づいて、チームの実際の設計では、MAGVIT-v2 トークナイザーの因果 3D CNN エンコーダー/デコーダーアーキテクチャが使用されています。

この段階の後、モデルへの入力は、単一のビデオまたは離散画像のスタックを表す潜在テンソルのバッチになります (図 2)。そして、ここでの暗黙的な表現は実数値であり、量子化されていません。

画像とビデオの生成方法を学習します

Patchify。オリジナルの ViT デザインに従って、チームは各非表示フレームを重なり合わない一連のタイルに変換することで個別にタイル化しました。彼らはまた、空間的位置埋め込みと時間的位置埋め込みの合計である学習可能な位置埋め込みも使用しました。位置埋め込みは、タイルの線形投影に追加されます。画像の場合は、最初の隠しフレームに対応する時間的位置の埋め込みを追加するだけであることに注意してください。

#窓にご注意ください。グローバルセルフアテンションモジュールのみで構成される Transformer モデルは、特にビデオタスクの場合、計算コストとメモリコストが高くなります。画像とビデオの効率と共同処理を実現するために、チームは、空間 (S) と時空 (ST) という 2 種類の重複しない構成に基づいてウィンドウ方式で自己注意を計算しました。図 2 を参照してください。

#空間ウィンドウ (SW) の注目は、非表示のフレーム内のすべてのトークンに集中します。 SW は、画像とビデオの空間関係をモデル化します。時空間ウィンドウ (STW) アテンションの範囲は、ビデオの非表示フレーム間の時間的関係をモデル化する 3D ウィンドウです。最後に、絶対位置の埋め込みに加えて、相対位置の埋め込みも使用しました。

レポートによると、この設計はシンプルですが、計算効率が高く、画像とビデオのデータセットで共同トレーニングすることができます。フレームレベルのオートエンコーダに基づく方法とは異なり、新しい方法では、ビデオフレームを個別にエンコードおよびデコードする方法によくある問題であるちらつきアーティファクトが生成されません。

条件付き生成

制御可能なビデオ生成を実現するには、時間ステップを実行するだけでなく、条件付き拡散モデルでは、カテゴリラベル、自然言語、過去のフレーム、低解像度ビデオなどの追加の条件付き情報も使用する傾向があります。新しく提案された Transformer バックボーンネットワークでは、チームは以下に説明するように 3 種類の条件付きメカニズムを統合しました。ウィンドウ化された Transformer ブロックでセルフアテンションレイヤーを使用することに加えて、テキスト条件付き生成用のクロスアテンションレイヤーも追加しました。ビデオのみでモデルをトレーニングする場合、クロスアテンションレイヤーはセルフアテンションレイヤーと同じウィンドウ制限アテンションを使用します。これは、S/ST に SW/STW クロスアテンションレイヤーがあることを意味します (図 2)。ただし、共同トレーニングの場合は、SW クロスアテンションレイヤーのみが使用されます。クロスアテンションを実現するために、チームのアプローチは、入力信号 (クエリ) と条件付き信号 (キー、値) を連結することです。

アダルン-LoRA。適応正規化レイヤーは、多くの生成合成モデルおよびビジュアル合成モデルにおける重要なコンポーネントです。適応正規化層を組み込むための簡単なアプローチは、条件付きパラメーターのベクトルで回帰する各層 i に MLP 層を含めることです。これらの追加の MLP レイヤーのパラメーターの数は、レイヤーの数に応じて線形に、モデルの次元に応じて二次的に増加します。 LoRA に触発されて、研究者らはモデルパラメーターを削減するためのシンプルなソリューション、AdaLN-LoRA を提案しました。

セルフコンディショニング。反復生成アルゴリズムは、外部入力に条件付けされるだけでなく、推論中に生成されるサンプルにも条件付けできます。具体的には、Chen らは論文「Analog bits: Generating discrete data using diffusion models with self-conditioning」の拡散モデルのトレーニングプロセスを変更して、モデルが特定の確率 p_sc でサンプルを生成し、これに基づいてサンプルを生成するようにしました。最初のサンプルでは、別のフォワードパスを使用してこの推定値を調整します。 1-p_sc が 1 回の順方向パスのみを完了するという一定の確率もあります。チームは、このモデル推定をチャネル次元に沿った入力と連結し、この単純な手法が v 予測と組み合わせるとうまく機能することを発見しました。

#自己回帰生成

自己回帰予測を通じて長いビデオを生成するために、チームはモデルはフレーム予測タスクでも共同トレーニングされました。これは、トレーニングプロセス中に過去のフレームに条件付けされた特定の確率 p_fp をモデルに与えることで実現されます。条件は、1 つの隠しフレーム (画像からビデオへの生成) または 2 つの隠しフレーム (ビデオ予測) のいずれかです。この条件は、ノイズの多い暗黙的な入力に沿ったチャネル次元によってモデルに統合されます。推論中に、c_fp を条件信号として使用して、標準の分類子なしのブートストラップが使用されます。

ビデオ超解像度

単一のビデオを使用して高解像度ビデオを生成する計算モデルコストが非常に高く、基本的には実現が困難です。研究者らは論文「高忠実度画像生成のためのカスケード拡散モデル」を参照し、カスケード法を使用して 3 つのモデルをカスケード接続し、ますます高い解像度で動作します。

基本モデルは 128×128 の解像度でビデオを生成し、その後 2 つの超解像度ステージを通じて 2 回アップサンプリングされます。低解像度の入力 (ビデオまたは画像) は、まず深度から空間への畳み込み演算を使用して空間的にアップサンプリングされます。トレーニング (グラウンドトゥルースの低解像度入力が提供される) とは異なり、推論は前の段階で生成された暗黙的な表現に依存することに注意してください。

この差を減らし、低解像度ステージで生成されたアーティファクトに対して超解像度ステージをより堅牢にするために、チームはノイズ条件付き強調も使用しました。

アスペクト比の微調整。トレーニングを簡素化し、さまざまなアスペクト比を持つより多くのデータソースを活用するために、ベースステージでは正方形のアスペクト比を使用しました。次に、データのサブセットでモデルを微調整し、位置埋め込み補間によってアスペクト比 9:16 のビデオを生成しました。

実験

研究者らは、新しく提案された方法をさまざまなタスクで評価しました。画像とビデオの生成、フレーム予測、テキストベースのビデオ生成。彼らはまた、アブレーション研究を通じてさまざまな設計選択の影響を調査しました。

ビジュアル生成

ビデオ生成: UCF-101 と Kinetics-600 の両方各データセットにおいて、W.A.L.T は FVD インデックスの点でこれまでのすべての手法を上回っています (表 1 を参照)。

画像生成: 表 2 は、W.A.L.T の結果を、256 × 256 解像度の画像を生成するための他の現在最良の方法と比較しています。新しく提案されたモデルは以前の方法よりも優れており、特殊なスケジューリング、畳み込み誘導バイアス、改善された拡散損失、および分類器を使用しないガイダンスを必要としません。 VDM の FID スコアはわずかに高くなりますが、より多くのモデルパラメーター (2B) があります。

アブレーション研究

さまざまな設計上の決定の寄与を理解するために、チームはまた、アブレーション研究を実施しました。表 3 は、パッチサイズ、ウィンドウアテンション、セルフコンディショニング、AdaLN-LoRA、およびオートエンコーダーに関するアブレーション研究の結果を示しています。

テキストからビデオへの生成

チームはテキストからビデオへの変換に取り組んでいます。画像とテキストからビデオへの変換私たちは、W.A.L.T のテキストからビデオへの生成機能を共同でトレーニングしました。彼らは、公共のインターネットと、約 9 億 7,000 万のテキストと画像のペアと約 8,900 万のテキストとビデオのペアを含む内部ソースからのデータセットを使用しました。

基本モデル (3B) の解像度は 17×128×128、カスケードされた 2 つの超解像度モデルは 17×128×224 → 17× 256× 448 (L、1.3B、p = 2) および 17×256×448→ 17×512×896 (L、419M、p = 2)。また、ベースステージのアスペクト比を微調整して、128×224 の解像度でビデオを作成しました。すべてのテキストからビデオへの生成結果では、分類子を使用しないブートストラップアプローチが使用されます。

以下は生成されたビデオの例です。詳細については、プロジェクト Web サイトをご覧ください:

テキスト: 食べるリスハンバーガー。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

テキスト: 砂漠をゴーストライダーバイクに乗った猫。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

定量的評価

標準化されたトレーニングデータセットとベンチマークが不足していることもあり、テキストベースのビデオ生成を科学的な方法で評価することは依然として課題です。これまでのところ、研究者らの実験と分析は、公平な比較を確保するために同じトレーニングデータを使用する標準的な学術ベンチマークに焦点を当ててきました。

それでも、以前のテキストからビデオへの生成研究と比較するために、チームはゼロサンプル評価設定での UCF-101 データセットに関する結果を報告しています。

W.A.L.T の利点は明らかであることがわかります。

詳細については、元の論文を参照してください。

以上がTransformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7469

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータモデルは、1 兆個のパラメータレベル GPT-4 に匹敵します。 Jul 17, 2024 am 10:14 AM

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンスタオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニングフレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合 Jul 23, 2024 pm 02:05 PM

現在、次のトークン予測パラダイムを使用した自己回帰大規模言語モデルが世界中で普及していると同時に、インターネット上の多数の合成画像やビデオがすでに拡散モデルの威力を示しています。最近、MITCSAIL の研究チーム (そのうちの 1 人は MIT の博士課程学生、Chen Boyuan です) は、全系列拡散モデルとネクストトークンモデルの強力な機能を統合することに成功し、トレーニングおよびサンプリングパラダイムである拡散強制 (DF) を提案しました。）。論文タイトル：DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion 論文アドレス：https:/

See all articles

Transformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック