ImageNet 256 ベンチマーク CFG 生成の品質比較

ホームページ

テクノロジー周辺機器

ヤン・シュイチェン/チェン・ミンミンの新作！ Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースです

ヤン・シュイチェン/チェン・ミンミンの新作！ Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースです

王林

Mar 13, 2024 pm 05:58 PM

コアコンポーネントエミュレータ sora dit

Sora の魅力的なコアテクノロジーの 1 つとして、DiT は拡散トランスフォーマーを利用して生成モデルを大規模に拡張し、優れた画像生成効果を実現します。

ただし、モデルのサイズが大きくなると、トレーニングのコストが急増します。

南開大学Sea AI LabのYan Shuicheng氏とCheng Mingming氏の研究チーム、およびKunlun Wanwei 2050 Research Instituteは、ICCV 2023カンファレンスでマスク拡散トランスと呼ばれる新しいモデルを提案しました。このモデルは、マスクモデリング技術を使用して、意味表現情報を学習することで拡散トランスフォーマーのトレーニングを高速化し、画像生成分野で SoTA 効果を実現します。このイノベーションは、画像生成モデルの開発に新たなブレークスルーをもたらし、研究者により効率的なトレーニング方法を提供します。研究チームは、さまざまな分野の専門知識とテクノロジーを組み合わせることで、トレーニング速度を向上させ、生成結果を向上させるソリューションを提案することに成功しました。彼らの研究は、人工知能分野の発展に重要な革新的なアイデアに貢献し、将来の研究と実践に有益なインスピレーションを提供しました

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源写真

論文アドレス: https://arxiv.org/abs/2303.14389

GitHub アドレス: https://github.com/sail-sg/MDT

##最近、Masked Diffusion Transformer V2 が再び SoTA を更新し、DiT と比較してトレーニング速度が 10 倍以上向上し、ImageNet ベンチマークで 1.58 の FID スコアを達成しました。

論文とコードの最新バージョンはオープンソースです。

背景

DiT に代表される拡散モデルは画像生成の分野で大きな成功を収めてきましたが、研究者らは、拡散モデルは多くの場合、画像内のオブジェクトの部分間の意味的関係を効率的に学習することは困難であり、この制限がトレーニングプロセスの収束効率の低下につながります。

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源図

たとえば、上の図に示すように、DiT は 50k 番目で学習しました。トレーニングステップ犬の髪のテクスチャを生成し、200k トレーニングステップで犬の目と口の 1 つを生成する方法を学習しますが、もう 1 つの目は見逃します。

300k のトレーニングステップでも、DiT によって生成された犬の 2 つの耳の相対位置はあまり正確ではありません。

このトレーニングと学習のプロセスにより、拡散モデルは画像内のオブジェクトのさまざまな部分間の意味的関係を効率的に学習できず、各オブジェクトの意味的情報を個別に学習するだけであることがわかります。。

研究者らは、この現象の理由は、拡散モデルが各ピクセルの予測損失を最小限に抑えることによって実際の画像データの分布を学習するためであると推測しています。このプロセスでは、さまざまなピクセル間の関係が無視されます。画像内のオブジェクトの各部分間の意味的な相対関係により、モデルの収束速度が遅くなります。

方法: マスクされた拡散トランスフォーマー

上記の観察に触発されて、研究者らは、トレーニングを改善するためにマスクされた拡散トランス (MDT) を提案しました。拡散モデルの効率とビルド品質。

MDT は、拡散トランスフォーマーの文脈的意味情報の学習能力を明示的に強化し、画像内のオブジェクト間の関係を強化する意味情報の連想学習を目的として、拡散トランスフォーマー用に設計されたマスクモデリング表現学習戦略を提案します。

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源写真

上図に示すように、MDT は拡散トレーニングを維持しながらマスクモデリングを導入します。学習戦略のプロセス。ノイズを含む画像トークンをマスクすることで、MDT は非対称拡散変換器 (非対称拡散変換器) アーキテクチャを使用して、マスクされていないノイズを含む画像トークンからマスクされた画像トークンを予測し、それによってマスクモデリングと拡散トレーニングプロセスを同時に実現します。

推論プロセス中、MDT は標準の拡散生成プロセスを維持します。 MDT の設計により、Difffusion Transformer は、マスクモデリング表現の学習によってもたらされる意味情報表現能力と、画像の詳細を生成する拡散モデルの能力の両方を得ることができます。

具体的には、MDT は VAE エンコーダーを通じて画像を潜在空間にマッピングし、それらを潜在空間で処理してコンピューティングコストを節約します。

トレーニングプロセス中、MDT はまずノイズが追加された画像トークンの一部をマスクし、残りのトークンを非対称拡散変換器に送信して、ノイズ除去後のすべての画像トークンを予測します。

#非対称拡散トランスアーキテクチャ

##写真颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源

として上の図に示されているように、非対称拡散トランスのアーキテクチャには、エンコーダ、サイド補間器 (補助補間器)、およびデコーダが含まれています。

図颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源

トレーニングプロセス中、Encoder はマスクされていないトークンのみを処理します。推論では、マスクステップがないため、すべてのトークンが処理されます。

したがって、デコーダーがトレーニングまたは推論フェーズ中に常にすべてのトークンを処理できるようにするために、研究者らは解決策を提案しました。トレーニングプロセス中に、以下で構成される DiT ブロックを使用するというものです。補助補間器 (上の図に示す) は、エンコーダーの出力からマスクされたトークンを補間および予測し、推論のオーバーヘッドを追加することなく推論段階でそれを削除します。

MDT のエンコーダとデコーダは、グローバルおよびローカル位置エンコード情報を標準 DiT ブロックに挿入して、マスク部分のトークンの予測を支援します。

#非対称拡散トランス V2

##写真

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源として上の図に示すように、MDTv2 は、マスク拡散プロセス用に設計されたより効率的なマクロネットワーク構造を導入することにより、拡散とマスクモデリングの学習プロセスをさらに最適化します。

これには、エンコーダでの U-Net スタイルのロングショートカットとデコーダでの高密度入力ショートカットの統合が含まれます。

このうち、dense input-shortcut は、マスクされたトークンにノイズを追加してデコーダーに送信し、マスクされたトークンに対応するノイズ情報を保持するため、拡散のトレーニングが容易になります。プロセス。。

さらに、MDT は、より高速な Adan オプティマイザー、タイムステップ関連の損失重み、拡散モデルのマスクされたトレーニングプロセスをさらに加速する拡張マスク比など、より優れたトレーニング戦略も導入しました。。

#実験結果

ImageNet 256 ベンチマーク生成の品質比較

Image

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源 #上の表は、ImageNet 256 ベンチマークにおけるさまざまなモデルサイズでの MDT と DiT のパフォーマンスを比較しています。

MDT は、すべてのモデルサイズにおいて、より少ないトレーニングコストでより高い FID スコアを達成することは明らかです。

MDT のパラメータと推論コストは基本的に DiT と同じです。これは、前述したように、MDT の推論プロセス中に DiT と一致する標準の拡散プロセスが維持されるためです。

最大の XL モデルの場合、400k ステップでトレーニングされた MDTv2-XL/2 は、7000k ステップでトレーニングされた DiT-XL/2 を大幅に上回り、FID スコアは 1.92 向上しました。この設定では、MDT が DiT よりも約 18 倍高速にトレーニングできることが結果からわかります。

小規模モデルの場合、MDTv2-S/2 は、大幅に少ないトレーニングステップで、DiT-S/2 よりも大幅に優れたパフォーマンスを実現します。たとえば、400k ステップの同じトレーニングでは、MDTv2 の FID インデックスは 39.50 で、これは DiT の FID インデックス 68.40 を大幅に上回っています。

さらに重要なのは、この結果は、400k トレーニングステップでのより大きなモデル DiT-B/2 のパフォーマンスも上回っていることです (39.50 対 43.47)。

ImageNet 256 ベンチマーク CFG 生成の品質比較

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源 Image

我々はまだ上の表は、分類子を使用しないガイダンスの下で、MDT と既存の方法の画像生成パフォーマンスを比較しています。

MDT は、FID スコア 1.79 で、以前の SOTA DiT や他の手法を上回ります。 MDTv2 はパフォーマンスをさらに向上させ、少ないトレーニングステップで画像生成の SOTA FID スコアを新たな最低値の 1.58 に押し上げます。

DiT と同様に、トレーニングを継続しても、トレーニング中にモデルの FID スコアの飽和は観察されませんでした。

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源 #MDT が PaperWithCode のリーダーボードで SoTA を更新

収束速度の比較

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源図

上の図は、ImageNet 256 ベンチマークにおける 8×A100 GPU 上の DiT-S/2 ベースライン、MDT-S/2、および MDTv2 を比較しています。 . - 異なるトレーニングステップ/トレーニング時間における S/2 の FID パフォーマンス。

MDT は、より優れたコンテキスト学習機能のおかげで、パフォーマンスと生成速度の両方で DiT を上回っています。 MDTv2 のトレーニング収束速度は、DiT の 10 倍以上です。

MDT は、トレーニングステップとトレーニング時間の点で DiT よりも約 3 倍高速です。 MDTv2 は、MDT と比較してトレーニング速度をさらに約 5 倍向上させます。

たとえば、MDTv2-S/2 は、トレーニングに約 100 時間 (1500k ステップ) かかる DiT-S/2 よりも、わずか 13 時間 (15k ステップ) で優れたパフォーマンスを示します。は、コンテキスト表現の学習が拡散モデルの生成学習を高速化するために重要であることを明らかにしています。

要約と考察

MDT は、拡散学習に MAE と同様のマスクモデリング表現学習スキームを導入することで、画像オブジェクトの特性を利用できます。コンテキスト情報は、不完全な入力画像の完全な情報を再構築することで、画像内の意味部分間の相関関係を学習し、画像生成の品質と学習速度を向上させます。

研究者らは、視覚表現学習を通じて物理世界の意味的理解を強化することで、物理世界に対する生成モデルのシミュレーション効果を向上できると考えています。これは、生成モデルを通じて物理世界シミュレーターを構築するという Sora のビジョンと一致します。この研究が、表現学習と生成学習の統合に関するさらなる研究のきっかけとなることを願っています。

参考:

https://arxiv.org/abs/2303.14389

以上がヤン・シュイチェン/チェン・ミンミンの新作！ Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7433

CakePHP チュートリアル

1359

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

joiplayシミュレーターの使い方を紹介 May 04, 2024 pm 06:40 PM

jojplay シミュレータは、非常に使いやすい携帯電話シミュレータです。携帯電話で実行できるコンピュータゲームをサポートしており、一部のプレイヤーはその使い方を知りません。以下のエディタでその使い方を紹介します。。 Joiplay シミュレーターの使用方法 1. まず、Joiplay 本体と RPGM プラグインをダウンロードする必要があります。本体、プラグインの順にインストールするのが最適です。apk パッケージは、Joiplay バー (クリック) で入手できます。 >>>)を取得します。 2. Android が完成したら、左下隅にゲームを追加できます。 3. 適当に名前を入力し、実行ファイルの選択を押してゲームの game.exe ファイルを選択します。 4. アイコンは空白のままにすることも、お気に入りの画像を選択することもできます。

MSIマザーボードでvtを有効にする方法 May 01, 2024 am 09:28 AM

MSI マザーボードで VT を有効にするにはどうすればよいですか?どのような方法がありますか?このサイトは、大多数のユーザー向けに MSI マザーボード VT 有効化方法を注意深くまとめています。読んで共有することを歓迎します。最初のステップは、コンピューターを再起動して BIOS に入ることであり、起動速度が速すぎて BIOS に入ることができない場合はどうすればよいですか?画面が点灯したら、「Del」を押し続けて BIOS ページに入ります。2 番目のステップは、コンピューターのモデルによって BIOS インターフェイスと VT の名前が異なります。 : 1. BIOS ページに入ったら、「OC (またはオーバークロック)」-「CPU 機能」-「SVMMode (または Intel Virtualization Technology)」オプションを見つけて、「無効」に変更します。

ASRock マザーボードで vt を有効にする方法 May 01, 2024 am 08:49 AM

ASRock マザーボードで VT を有効にする方法、その方法と操作方法は何ですか。この Web サイトでは、ユーザーが読んで共有できるように ASRock マザーボード vt 有効化方法をまとめました。最初のステップは、画面が点灯した後、「F2」キーを押し続けて BIOS ページに入ります。起動速度が速すぎて BIOS に入ることができない場合はどうすればよいですか? 2 番目のステップは、メニューで VT オプションを見つけてオンにすることです。マザーボードのモデルによって BIOS インターフェイスと VT の名前が異なります。1. BIOS ページに入ったら、[詳細] - [CPU 構成 (CPU)] を見つけます。構成)」 - 「SVMMOD (仮想化テクノロジ)」オプションで、「無効」を「有効」に変更します。

よりスムーズなおすすめの Android エミュレータ (使用したい Android エミュレータを選択してください)

ユーザーにより良いゲーム体験と使用体験を提供できます Android エミュレータは、コンピュータ上で Android システムの実行をシミュレートできるソフトウェアです。市場にはさまざまな種類の Android エミュレータがあり、その品質も異なります。読者が自分に合ったエミュレータを選択できるように、この記事ではいくつかのスムーズで使いやすい Android エミュレータに焦点を当てます。 1. BlueStacks: 高速な実行速度優れた実行速度とスムーズなユーザーエクスペリエンスを備えた BlueStacks は、人気のある Android エミュレーターです。ユーザーがさまざまなモバイルゲームやアプリケーションをプレイできるようにし、非常に高いパフォーマンスでコンピュータ上で Android システムをシミュレートできます。 2. NoxPlayer: 複数のオープニングをサポートし、ゲームをより楽しくプレイできます。複数のエミュレーターで同時に異なるゲームを実行できます。

タブレットコンピュータにWindowsシステムをインストールする方法 May 03, 2024 pm 01:04 PM

BBK タブレットで Windows システムをフラッシュするにはどうすればよいですか? 最初の方法は、システムをハードディスクにインストールすることです。コンピュータシステムがクラッシュしない限り、システムに入ってダウンロードしたり、コンピュータのハードドライブを使用してシステムをインストールしたりできます。方法は次のとおりです。コンピュータの構成に応じて、WIN7 オペレーティングシステムをインストールできます。 Xiaobaiのワンクリック再インストールシステムをvivopadにダウンロードしてインストールすることを選択します。まず、お使いのコンピュータに適したシステムバージョンを選択し、「このシステムをインストールする」をクリックして次のステップに進みます。次に、インストールリソースがダウンロードされるまで辛抱強く待ち、環境がデプロイされて再起動されるまで待ちます。 vivopad に win11 をインストールする手順は次のとおりです。まず、ソフトウェアを使用して win11 がインストールできるかどうかを確認します。システム検出に合格したら、システム設定を入力します。そこで「更新とセキュリティ」オプションを選択します。クリック

ライフリスタートシミュレーターガイド May 07, 2024 pm 05:28 PM

Life Restart Simulator は非常に興味深いシミュレーションゲームです。このゲームにはさまざまな方法があります。以下に、Life Restart Simulator の完全なガイドを示します。戦略はあるのか？ライフリスタートシミュレーターガイドガイドライフリスタートシミュレーターの特徴プレイヤーが自由な発想で遊べる、非常にクリエイティブなゲームです。毎日完了すべきタスクがたくさんあり、この仮想世界で新しい生活を楽しむことができます。ゲーム内にはたくさんの曲があり、さまざまな人生があなたを待っています。ライフリスタートシミュレーターゲーム内容才能カード抽選: 才能: 不滅になるためには、神秘的な小箱を選択する必要があります。途中で死んでしまうことを避けるために、さまざまな小さなカプセルが用意されています。クトゥルフは選ぶかもしれない

Telnetコマンドを開く方法 Apr 17, 2024 am 04:48 AM

コマンドラインまたは他のソフトウェア (PuTTY、Putty for Android、iTerm2 など) を使用して Telnet コマンドを開くことができます。コマンドラインで「telnet」と入力し、Enter キーを押して開き、「telnet [ホスト名または IP アドレス] [ポート]」を使用してリモートデバイスに接続します。接続に成功すると、リモートのコマンドプロンプトが表示されます。デバイス。

pycharmをapkにパッケージ化する方法 Apr 18, 2024 am 05:57 AM

PyCharm を使用して Android アプリを APK としてパッケージ化するにはどうすればよいですか?プロジェクトが Android デバイスまたはエミュレータに接続されていることを確認してください。ビルドタイプを構成する: ビルドタイプを追加し、[署名された APK を生成する] にチェックを入れます。ビルドツールバーの [APK のビルド] をクリックし、ビルドタイプを選択してビルドを開始します。

See all articles

ヤン・シュイチェン/チェン・ミンミンの新作！ Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースです

ImageNet 256 ベンチマーク CFG 生成の品質比較

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック