U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用-AI-php.cn

実験

ホームページ

テクノロジー周辺機器

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 pm 04:10 PM

ai モデル

近年、Transformer によって機械学習がルネッサンスを迎えています。過去 5 年間、自然言語処理、コンピュータービジョン、その他の分野のニューラルアーキテクチャはトランスフォーマーによってほぼ独占されてきました。

しかし、この傾向の影響を受けていない画像レベルの生成モデルも数多くあります。たとえば、拡散モデルは、過去 1 年間で画像生成において驚くべき成果を達成しました。これらのほとんどすべてモデル畳み込み U-Net をバックボーンとして使用します。これはちょっと意外ですね！過去数年間のディープラーニングの大きな話題は、さまざまな分野で Transformer が優勢になったことです。 U-Net や畳み込みが拡散モデルで非常に優れたパフォーマンスを発揮する特別な点はありますか?

U-Net バックボーンネットワークを拡散モデルに初めて導入した研究は、Ho らに遡ることができます。この設計パターンは、自己回帰生成モデル PixelCNN をほんのわずかな変更を加えて継承しています。 PixelCNN は畳み込み層で構成されており、多くの ResNet ブロックが含まれています。標準の U-Net と比較すると、PixelCNN の追加の空間セルフアテンションブロックがトランスフォーマーの基本コンポーネントになります。他の研究とは異なり、Dhariwal 氏と Nichol 氏らは、適応正規化層を使用して条件情報とチャネル数を畳み込み層に注入するなど、U-Net のいくつかのアーキテクチャ上の選択肢を排除しています。

この記事では、UC バークレーの William Peebles とニューヨーク大学の Xie Saining が「変圧器を使用したスケーラブルな拡散モデル」を執筆しました。目標は、拡散モデルにおけるアーキテクチャ上の選択の重要性を明らかにすることです。将来の生成モデル研究のためのガイダンスを提供し、経験的なベースラインを提供します。この研究は、U-Net 誘導バイアスは拡散モデルのパフォーマンスにとって重要ではなく、変圧器などの標準設計で簡単に置き換えることができることを示しています。

この発見は、拡散モデルがアーキテクチャの統合トレンドから恩恵を受けることができることを示唆しています。たとえば、拡散モデルは他の分野からベストプラクティスやトレーニング方法を継承し、これらのモデルのスケーラビリティを維持できます。そして効率性。標準化されたアーキテクチャは、クロスドメイン研究の新たな可能性も開きます。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

#論文アドレス: https://arxiv.org/pdf/2212.09748.pdf
プロジェクトアドレス: https://github.com/facebookresearch/DiT
Paper ホームページ: https:/ / www.wpeebles.com/DiT

この研究は、トランスフォーマーベースの拡散モデルの新しいクラスである拡散トランスフォーマー (略して DiT) に焦点を当てています。 DiT は、Vision Transformers (ViT) のベストプラクティスに従い、小さいながらも重要な調整が加えられています。 DiT は、ResNet などの従来の畳み込みネットワークよりも効率的に拡張できることが示されています。

具体的には、この記事では、ネットワークの複雑さとサンプル品質の観点から、Transformer のスケーリング動作を研究します。潜在拡散モデル (LDM) フレームワークの下で DiT 設計空間を構築およびベンチマークすることにより、拡散モデルが VAE の潜在空間内でトレーニングされることで、U-Net バックボーンをトランスフォーマーに置き換えることが可能であることが示されています。この論文はさらに、DiT が拡散モデルのスケーラブルなアーキテクチャであることを示しています。ネットワークの複雑さ (Gflops で測定) とサンプルの品質 (FID で測定) の間には強い相関関係があります。 DiT を拡張し、大容量バックボーン (118.6 Gflops) で LDM をトレーニングするだけで、クラス条件付き 256 × 256 ImageNet 生成ベンチマークで 2.27 FID という最先端の結果が達成されます。

拡散トランスフォーマー

DiTs は、拡張性を維持するために標準トランスアーキテクチャに可能な限り忠実であることを目的とした拡散モデルの新しいアーキテクチャです。 DiT は ViT のベストプラクティスの多くを保持しており、図 3 は完全な DiT アーキテクチャを示しています。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

DiT への入力は空間表現 z (256 × 256 × 3 画像の場合、z の形状は 32 × 32 × 4) です。）。 DiT の最初の層は patchify で、各パッチを入力に線形的に埋め込むことで空間入力を T トークンのシーケンスに変換します。 patchify 後、標準の ViT 周波数ベースの位置埋め込みをすべての入力トークンに適用します。

patchify によって作成されるトークン T の数は、パッチサイズのハイパーパラメーター p によって決まります。図 4 に示すように、p を半分にすると T が 4 倍になり、したがってトランスの Gflops が少なくとも 4 倍になります。この記事では、p = 2,4,8 を DiT 設計空間に追加します。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

DiT ブロック設計: patchify の後、入力トークンは一連の Transformer ブロックによって処理されます。ノイズの多い画像入力に加えて、拡散モデルはノイズ時間ステップ t、クラスラベル c、自然言語などの追加の条件情報を処理する場合があります。この記事では、条件付き入力をさまざまな方法で処理する 4 つのトランスフォーマーブロックのバリエーションについて説明します。これらの設計は、標準の ViT ブロック設計にわずかながら重要な変更を加えたものです。すべてのモジュールの設計を図 3 に示します。

この記事では、モデルの深さと幅によって異なる 4 つの構成 (DiT-S、DiT-B、DiT-L、および DiT-XL) を試しました。これらのモデル構成の範囲は 33M ～ 675M のパラメーターと 0.4 ～ 119 の Gflops です。

実験

研究者らは、それぞれ異なるブロック設計 (インコンテキスト (119.4 Gflops)、クロス) を使用して、最高の Gflop で 4 つの DiT-XL/2 モデルをトレーニングしました。 -attention (137.6Gflops)、アダプティブレイヤノルム (adaLN、118.6Gflops)、または adaLN-zero (118.6Gflops)。次に、トレーニング中に FID が測定されました。その結果を図 5 に示します。

モデルサイズとパッチサイズを拡張します。図 2 (左) は、各モデルの Gflops と 400K トレーニング反復における FID の概要を示しています。モデルサイズを大きくし、パッチサイズを小さくすると、拡散モデルが大幅に改善されることがわかります。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

図 6 (上) は、パッチサイズが一定のまま、モデルサイズが増加するにつれて FID がどのように変化するかを示しています。 Transformer をより深く、より広くすることで、トレーニングのすべての段階で 4 つの設定にわたって FID が大幅に向上しました。同様に、図 6 (下) は、パッチサイズが縮小され、モデルサイズが一定のままの場合の FID を示しています。研究者らは、DiT によって処理されるトークンの数を単に拡大し、トレーニングプロセス全体を通じてパラメーターをほぼ固定したままにするだけで、FID が大幅に改善されたことを再度観察しました。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

図 8 は、400K トレーニングステップにおける FID-50K とモデルの Gflops の比較を示しています。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

SOTA 拡散モデル 256×256 ImageNet。拡張分析の後、研究者らはステップ数 7M で最高の Gflop モデルである DiT-XL/2 のトレーニングを続けました。図 1 は、このモデルのサンプルを示し、カテゴリ条件付き生成 SOTA モデルと比較しています。結果は表 2 に示されています。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

分類子ガイダンスを使用しない場合、DiT-XL/2 は以前のすべての拡散モデルよりも優れたパフォーマンスを示し、LDM が以前に達成した 3.60 を上回りました。 Best FID-50K は低下しました。 2.27まで。図 2 (右) に示すように、LDM-4 (103.6 Gflops) などの潜在空間 U-Net モデルと比較すると、DiT-XL/2 (118.6 Gflops) は ADM (1120 Gflops) よりもはるかに計算効率が高くなります。 ADM-U (742 Gflops)、ピクセル空間 U-Net モデルははるかに効率的です。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

#表 3 は、SOTA アプローチとの比較を示しています。 XL/2 は、この解像度でも以前のすべての拡散モデルよりも優れたパフォーマンスを示し、ADM の以前の最高 FID 3.85 を 3.04 に改善しました。

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

研究の詳細については、元の論文を参照してください。

以上がU-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1660

CakePHP チュートリアル

1417

Laravel チュートリアル

1311

PHP チュートリアル

1261

C# チュートリアル

1234

Related knowledge

ビットコインの価値はいくらですか Apr 28, 2025 pm 07:42 PM

ビットコインの価格は20,000ドルから30,000ドルの範囲です。 1。ビットコインの価格は2009年以来劇的に変動し、2017年には20,000ドル近くに達し、2021年にはほぼ60,000ドルに達しました。2。価格は、市場需要、供給、マクロ経済環境などの要因の影響を受けます。 3.取引所、モバイルアプリ、ウェブサイトを通じてリアルタイム価格を取得します。 4。ビットコインの価格は非常に不安定であり、市場の感情と外部要因によって駆動されます。 5.従来の金融市場と特定の関係を持ち、世界の株式市場、米ドルの強さなどの影響を受けています。6。長期的な傾向は強気ですが、リスクを慎重に評価する必要があります。

2025年のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの1つです Apr 28, 2025 pm 08:12 PM

2025年の世界の上位10の暗号通貨取引所には、Binance、Okx、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、Kucoin、Bittrex、Poloniexが含まれます。これらはすべて、高い取引量とセキュリティで知られています。

世界のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの最新バージョンです Apr 28, 2025 pm 08:09 PM

世界の上位10の暗号通貨取引プラットフォームには、Binance、Okx、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、Kucoin、Poloniexが含まれます。これらはすべて、さまざまな取引方法と強力なセキュリティ対策を提供します。

復号化GATE.IO戦略のアップグレード：Memebox 2.0でCrypto Asset Managementを再定義する方法は？ Apr 28, 2025 pm 03:33 PM

Memebox 2.0は、革新的なアーキテクチャとパフォーマンスのブレークスルーを通じて、暗号資産管理を再定義します。 1）3つの主要な問題点を解決します。資産サイロ、収入の減少、セキュリティと利便性のパラドックスです。 2）インテリジェントアセットハブ、動的リスク管理およびリターンエンハンスメントエンジン、クロスチェーン移動速度、平均降伏率、およびセキュリティインシデント応答速度が向上します。 3）ユーザーに、ユーザー価値の再構築を実現し、資産の視覚化、ポリシーの自動化、ガバナンス統合を提供します。 4）生態学的なコラボレーションとコンプライアンスの革新により、プラットフォームの全体的な有効性が向上しました。 5）将来的には、スマート契約保険プール、予測市場統合、AI主導の資産配分が開始され、引き続き業界の発展をリードします。

トップ10の仮想通貨取引アプリは何ですか？最新のデジタル通貨交換ランキング Apr 28, 2025 pm 08:03 PM

Binance、OKX、Gate.ioなどの上位10のデジタル通貨交換は、システムを改善し、効率的な多様化したトランザクション、厳格なセキュリティ対策を改善しました。

トップ通貨取引プラットフォームは何ですか？トップ10の最新の仮想通貨交換 Apr 28, 2025 pm 08:06 PM

現在、上位10の仮想通貨交換にランクされています。1。Binance、2。Okx、3。Gate.io、4。CoinLibrary、5。Siren、6。HuobiGlobal Station、7。Bybit、8。Kucoin、9。Bitcoin、10。BitStamp。

推奨される信頼できるデジタル通貨取引プラットフォーム。世界のトップ10のデジタル通貨交換。 2025 Apr 28, 2025 pm 04:30 PM

推奨される信頼できるデジタル通貨取引プラットフォーム：1。OKX、2。Binance、3。Coinbase、4。Kraken、5。Huobi、6。Kucoin、7。Bitfinex、8。Gemini、9。Bitstamp、10。Poloniex、これらのプラットフォームは、セキュリティ、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンス、ユーザーエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのデジタルエクスペリエンス、デジタルエクスペリエンスのために知られています。

CでChronoライブラリを使用する方法は？ Apr 28, 2025 pm 10:18 PM

CでChronoライブラリを使用すると、時間と時間の間隔をより正確に制御できます。このライブラリの魅力を探りましょう。 CのChronoライブラリは、時間と時間の間隔に対処するための最新の方法を提供する標準ライブラリの一部です。 Time.HとCtimeに苦しんでいるプログラマーにとって、Chronoは間違いなく恩恵です。コードの読みやすさと保守性を向上させるだけでなく、より高い精度と柔軟性も提供します。基本から始めましょう。 Chronoライブラリには、主に次の重要なコンポーネントが含まれています。STD:: Chrono :: System_Clock：現在の時間を取得するために使用されるシステムクロックを表します。 STD :: Chron

See all articles

U-Net から DiT へ: ドミナンス拡散モデルにおける変圧器技術の応用

実験

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック