CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決-AI-php.cn

拡散モデルは、画像生成における優れたパフォーマンスにより、生成モデルの新時代を切り開きます。 Stable Diffusion、DALLE、Imagen、SORA などの大規模なモデルが登場し、生成 AI の応用の可能性がさらに豊かになりました。しかし、現在の拡散モデルは理論的には完璧ではなく、サンプリング時間のエンドポイントにおける未定義の特異点の問題に注目した研究はほとんどありません。さらに、アプリケーションの特異点問題によって引き起こされる平均グレーレベルや、生成される画像の品質に影響を与えるその他の問題は解決されていません。

この問題を解決するために、WeChat ビジョンチームは中山大学と協力して拡散モデルの特異点問題を共同で調査し、プラグアンドアンドソリューションを提案しました。 play メソッドを使用して、初期段階でのサンプリング問題を効果的に解決します。この方法は、平均グレーレベルの問題を解決し、既存の拡散モデルの生成能力を大幅に向上させます。研究結果はCVPR 2024カンファレンスで発表された。

拡散モデルは、画像、音声、テキスト、ビデオの生成など、マルチモーダルなコンテンツ生成タスクで目覚ましい成功を収めています。これらのモデルのモデリングが成功するかどうかは、主に、 拡散プロセスの逆プロセスもガウス特性 に準拠するという仮定に依存しています。ただし、この仮説は完全には証明されていません。特にエンドポイント、つまり t=0 または t=1 では特異点の問題が発生し、特異点でのサンプリングを研究する既存の方法が制限されます。

さらに、特異点問題は拡散モデルの生成能力にも影響し、モデルに 平均グレースケール問題 が発生します。 , 以下に示すように、明るさの強い画像や弱い画像を生成することは困難です。これにより、現在の普及モデルの適用範囲もある程度制限されます。

時間エンドポイントにおける拡散モデルの特異点問題を解決するために、WeChat ビジュアルチームは中山大学と協力し、双方から綿密な調査を実施しました。理論的および実践的な側面。まず、チームは、特異点の瞬間における逆過程の近似ガウス分布を含む誤差上限を提案しました。これは、その後の研究に理論的基礎を提供しました。この理論的保証に基づいて、チームは特異点でのサンプリングを研究し、2 つの重要な結論に達しました。1) t=1 の特異点は、極限を見つけることで分離可能な特異点に変換できる、2) t=0 での特異点これは拡散モデルの固有の特性であり、回避する必要はありません。これらの結論に基づいて、チームは初期瞬間における拡散モデルのサンプリングの問題を解決するためのプラグアンドプレイ手法 SingDiffusion を提案しました。

多数の実験検証により、SingDiffusion モジュールは 1 回のトレーニングだけで既存の拡散モデルにシームレスに適用でき、平均グレー値の問題が大幅に解決されることが示されています。。 SingDiffusion は、分類子を使用しないガイダンス技術を使用せずに、現在の手法の生成品質を大幅に向上させることができ、特に Stable Diffusion1.5 (SD-1.5) に適用した後は、生成される画像の品質が 33% 向上しました。

CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

論文アドレス: https://arxiv.org/pdf/2403.08381.pdf

プロジェクトアドレス: https://pangzecheung.github.io/ SingDiffusion /

論文タイトル: 拡散モデルにおける時間間隔の終点における特異点への取り組み

逆過程のガウス特性

#拡散モデルの特異点問題を検討するには、特異点での逆過程を含む過程全体がガウス性を満たしていることを検証する必要があります。まず
を拡散モデルのトレーニングサンプルとして定義します。トレーニングサンプルの分布は次のように表現できます:

其中 δ 表示狄拉克函數。根據[1] 中連續時間擴散模型的定義，對於任兩個時刻0≤s,t≤1，正向過程可以表示為：

##其中

，

隨著時間單調的從1 變化到0。考慮到剛剛定義的訓練樣本分佈， CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

的單時刻邊際機率密度可以表示為： CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

由此，可以透過貝葉斯公式計算逆過程的條件分佈：

然而，經過的分佈是混合高斯分佈，難以用網路進行擬合。因此，主流的擴散模型通常假設這一分佈可以由單一高斯分佈來擬合。

#其中，

為了驗證這個假設，該研究在 Proposition 1 中估計了此擬合的誤差。 CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

然而，研究發現當 t=1 時，隨著 s 趨近 1，

也會趨近於 1，誤差無法忽略。因此，Proposition 1 並不能證明 t=1 時的逆高斯特性。為了解決這個問題，研究給出了新的命題： CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

命題 2 によれば、t=1 のとき、s が 1 に近づくにつれて CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

は 0 に近づきます。したがって、本研究は特異点モーメントを含む逆過程全体がガウス特性に従うことを証明した。

特異点でのサンプリング

逆関数のガウス特性の保証付きこの研究では、逆サンプリング公式に基づいて特異点モーメントのサンプリングを研究します。

まず、時間 t=1 における特異点の問題を考えます。 t=1、 CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

=0 の場合、次のサンプリング式では分母が 0 で除算されます:

研究チームは、極限を計算することで、特異値が得られることを発見しました。 point これは非特異点に変換できます:

ただし、この制限はテスト中に計算できません。この目的を達成するために、この研究では、時間 t=1 で CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

をフィッティングし、「x - 予測」を使用して初期特異点でのサンプリング問題を解くことを提案します。

次に、時刻 t=0 を考えます。ガウス分布フィッティングの逆プロセスは、分散 0 のガウス分布、つまりディラック関数になります。 ## ＃＃＃＃＃＃＃＃＃＃＃＃＃で＃＃＃。このような特異点により、サンプリングプロセスが正しいデータ

に収束します。したがって、t=0 での特異点は拡散モデルの優れた特性であり、回避する必要はありません。

さらに、この調査では、付録で DDIM、SDE、および ODE の特異点の問題についても調査しています。 CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

プラグアンドプレイ SingDiffusion モジュール

特異点でのサンプリングは、拡散モデルによって生成された画像。たとえば、高輝度または低輝度のキューを入力する場合、既存の方法では多くの場合、平均グレースケールの画像しか生成できません。これは、平均グレースケール問題と呼ばれます。この問題は、既存の方法が t=0 の特異点でのサンプリングを無視し、1-ϵ の瞬間でのサンプリングの初期分布として標準ガウス分布

を使用するという事実に起因します。ただし、上の図に示すように、標準のガウス分布と 1-ϵ 時間の実際のデータ分布の間には大きなギャップがあります。

このようなギャップの下では、命題 3 によれば、既存の手法は t=1 で平均値 0 の画像、つまり平均グレースケール画像を生成することと等価です。したがって、既存の手法では、明るさが極端に強い画像や弱い画像を生成することは困難です。この問題を解決するために、この研究では、標準的なガウス分布と実際のデータ分布の間の変換をフィッティングすることによってこのギャップを埋めるプラグアンドプレイの SingDiffusion 手法を提案します。

SingDiffuion のアルゴリズムを次の図に示します。

前のセクションの結論によると、この研究は t =1 の瞬間に「x - 予測」法を使用して特異点でのサンプリング問題を解決します。画像とテキストのデータペア CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

の場合、このメソッドは CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

に適合するように Unet CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

をトレーニングします。損失関数は次のように表されます。

モデルが収束したら、以下の DDIM サンプリング式に従い、新しく取得したモジュール CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

sampling

を使用できます。

DDIM のサンプリング公式は、生成された CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

が 1-ε 時点でのデータ分布 CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

に確実に適合するようにし、それによって平均グレースケールの問題を解決します。このステップの後、事前トレーニングされたモデルを使用して、 CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

が生成されるまで後続のサンプリングステップを実行できます。このメソッドはサンプリングの最初のステップにのみ関与し、その後のサンプリングプロセスとは何の関係もないため、SingDiffusion はほとんどの既存の拡散モデルに適用できることに注意してください。さらに、分類子ガイダンス操作がないことによって引き起こされるデータオーバーフローの問題を回避するために、このメソッドは次の正規化操作も使用します。

ここで、ガイダンスは分類子ガイダンス操作がないことを表します。最終結果、neg は負のキューの下での出力を表し、pos は正のキューの下での出力を表し、ω はガイダンスの強度を表します。

実験

まず第一に、研究はSD-1.5で行われました。 SD-2.0 - 平均グレースケール問題を解決する SingDiffusion の能力は、ベースモデルと SD-2.0 の 3 つのモデルで検証されました。今回の研究では、生成条件として「真っ白/黒背景」「白/黒背景にモノクロ線画ロゴ」を含む4つの極端なプロンプトを選択し、生成された画像の平均グレースケール値を計算したところ、下表のようになりました。表示:

#表からわかるように、この研究では平均グレー値の問題を大幅に解決し、入力テキストの説明の明るさに一致する画像を生成できます。さらに、この研究では、次の図に示すように、これら 4 つのプロンプトステートメントに基づく生成結果も視覚化しました。

#図からわかるように、このメソッドを追加した後、 , 既存の拡散モデルでは、白または黒の画像を生成できます。

この方法によって達成される画質の改善をさらに研究するために、研究では COCO データセットでのテストのために 30,000 の記述を選択しました。まず、この研究では、次の表に示すように、分類子ガイダンスを使用せずにモデル自体の生成能力を実証します。この方法は、生成された画像の FID を大幅に削減し、CLIP インデックスを向上させることができます。 SD-1.5 モデルでは、この論文の方法により、元のモデルと比較して FID インデックスが 33% 減少することは注目に値します。

さらに、分類器ガイダンスなしで提案された方法の生成能力を検証するために、この研究では、さまざまなガイダンスサイズ ω∈[1.5, 2,3,4,5,6,7,8] CLIP 対 FID のパレート曲線:

図から、同じ CLIP レベルでは、提案手法の方がより低い FID 値を取得し、より現実的な画像を生成できることがわかります。

さらに、この研究では、次の図に示すように、さまざまな CIVITAI 事前トレーニングモデルの下で提案された方法の一般化能力も実証しています。

CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题この研究で提案された方法は 1 回のトレーニングのみを必要とし、既存の拡散モデルに簡単に適用して平均グレースケール問題を解決できることがわかります。

最後に、この研究で提案された方法は、次の図に示すように、事前トレーニングされた ControlNet モデルにもシームレスに適用できます。結果この方法は、ControlNet の平均グレースケール問題を効果的に解決できることがわかります。

参考文献: CVPR 2024｜生成不了光线极强的CVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決？微信视觉团队有效解决扩散模型奇点问题

[1] Tero Karras、Miika Aittala、Timo Aila、Samuli Laine。拡散ベースの生成モデルの設計空間、Advances in Neural Information Processing Systems (NeurIPS)、26565 ～ 26577 ページ、2022 年。

以上がCVPR 2024｜非常に強い光で画像を生成できないのですか？ WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。