非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決-AI-php.cn

拡散モデルは画像生成における色表現に役割を果たし、生成モデルの新時代を推進します。 Stable Diffusion、DALLE、Imagen、SORA などの大規模なモデルが登場し、生成 AI のアプリケーション背景がさらに充実しました。しかし、現在の拡散モデルは理論的には完璧ではなく、サンプリング期間の終点における未定義の特異点の問題に注目した研究はほとんどありません。さらに、アプリケーションの特異点問題によって引き起こされる平均グレーレベルや、生成される画像の品質に影響を与えるその他の問題は解決されていません。

この問題を解決するために、WeChat ビジョンチームは中山大学と協力して拡散モデルの特異点問題を共同で調査し、プラグアンドプレイ手法を提案しました。初期段階のサンプリング問題は解決されます。この方法は、平均グレーレベルの問題を解決し、既存の拡散モデルの生成能力を大幅に向上させます。この研究結果はCVPR 2024カンファレンスで発表されました。

拡散モデルは、画像、音声、テキスト、ビデオの生成など、マルチモーダルなコンテンツ生成タスクで目覚ましい成功を収めています。これらのモデルのモデリングが成功するかどうかは、主に、 拡散プロセスの逆プロセスもガウス特性 に準拠するという仮定に依存しています。ただし、この仮説は完全には証明されていません。特にエンドポイント、つまり t=0 または t=1 では特異点の問題が発生し、特異点でのサンプリングを研究する既存の方法が制限されます。

さらに、特異点問題は拡散モデルの生成能力にも影響し、モデルに 平均グレースケール問題が発生します。以下に示すように、明るさが強いまたは弱い画像を生成することは困難です。これにより、現在の普及モデルの適用範囲もある程度制限されます。

時間エンドポイントにおける拡散モデルの特異点問題を解決するために、WeChat ビジュアルチームは中山大学と協力し、理論と実践の両方から徹底的な研究を実施しました。側面。まず、チームは、特異点の瞬間における逆過程の近似ガウス分布を含む誤差上限を提案しました。これは、その後の研究に理論的基礎を提供しました。この理論的保証に基づいて、チームは特異点でのサンプリングを研究し、2 つの重要な結論に達しました。1) t=1 の特異点は、極限を見つけることで分離可能な特異点に変換できる、2) t=0 での特異点これは拡散モデルの固有の特性であり、回避する必要はありません。これらの結論に基づいて、チームは初期瞬間における拡散モデルのサンプリングの問題を解決するためのプラグアンドプレイ手法 SingDiffusion を提案しました。

多数の実験を通じて、SingDiffusion モジュールは 1 回のトレーニングだけで既存の拡散モデルにシームレスに適用でき、平均グレー値の問題を大幅に解決できることが証明されています。 SingDiffusion は、分類器のないガイダンス技術を使用せずに、現在の手法の生成品質を大幅に向上させることができ、特に Stable Diffusion 1.5 (SD-1.5) に適用した後、生成される画像の品質は 33% 向上しました。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

論文アドレス: https://arxiv.org/pdf/2403.08381.pdf

プロジェクトアドレス: https://pangzecheung.github.io/SingDiffusion/

論文のタイトル: 拡散モデルにおける時間間隔の終点における特異点への取り組み

逆過程のガウス特性

拡散モデルの特異点問題を研究するには、過程全体の特異点における逆過程が成り立つことを検証する必要があります。ガウス特性を満たします。まず非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決 # を拡散モデルのトレーニングサンプルとして定義します。トレーニングサンプルの分布は次のように表現できます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

ここで、δはディラック関数を表します。 [1] の連続時間拡散モデルの定義によれば、任意の 2 つの瞬間 0≤s,t≤1 について、順方向プロセスは次のように表すことができます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

その中で非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決、、、時間の経過とともに単調になる1から0に変化します。先ほど定義したトレーニングサンプル分布を考慮すると、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決の単一瞬間周辺確率密度は次のように表すことができます。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

##したがって、逆プロセスの条件付き分布はベイズの公式を通じて計算できます。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

# ただし、得られた分布は混合ガウス分布です。ネットワークを使用してフィッティングを実行するのは困難です。したがって、主流の拡散モデルは通常、この分布が単一のガウス分布に適合すると仮定します。この仮説を検証するために、研究では命題 1 のこのフィッティングの誤差を推定します。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

ただし、研究では、t=1 の場合、s が 1 に近づくにつれて、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決も 1 に近づくことがわかりました。、エラーは無視できません。したがって、命題 1 は t=1 における逆ガウス特性を証明しません。この問題を解決するために、この研究は新しい命題を与えます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

命題 2 によると、t=1 のとき、s は次のようになります。 1、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決は 0 に近づきます。したがって、本研究は特異点モーメントを含む逆過程全体がガウス特性に従うことを証明した。

特異点の瞬間におけるサンプリング非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

逆過程のガウス特性が保証されているため、この研究は特異点のサンプリングに基づいています。逆サンプリング公式に基づくモーメントの研究が開始されました。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決まず、時間 t=1 における特異点の問題を考えます。 t=1、

=0 の場合、次のサンプリング式では分母が 0 で除算されます。

研究チームは、次のことを発見しました。極限を計算すると、特異点は非特異点に変換できます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

ただし、この制限はテスト中に計算できません。この目的を達成するために、この研究では、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決を時間 t=1 でフィッティングすることができ、「x - 予測」を使用して初期特異点でのサンプリング問題を解決できることを提案します。

# 次に、時刻 t=0 を考えます。ガウス分布フィッティングの逆プロセスは、分散 0 のガウス分布、つまりディラック関数になります。 ## ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃で＃＃＃＃＃＃＃＃＃。このような特異点により、サンプリングプロセスが正しいデータに収束します

。したがって、t=0 での特異点は拡散モデルの優れた特性であり、回避する必要はありません。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

さらに、この調査では、付録で DDIM、SDE、および ODE の特異点の問題についても調査しています。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決プラグアンドプレイ SingDiffusion モジュール

特異点でのサンプリングは拡散モデルの生成に影響します画像品質。たとえば、高輝度または低輝度のキューを入力する場合、既存の方法では多くの場合、平均グレースケールの画像しか生成できません。これは、平均グレースケール問題と呼ばれます。この問題は、既存の方法が t=0 の特異点でのサンプリングを無視し、1-ϵ の瞬間でのサンプリングの初期分布として

標準ガウス分布

を使用するという事実に起因します。ただし、上の図に示すように、標準のガウス分布と 1-ϵ 時間の実際のデータ分布の間には大きなギャップがあります。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

このようなギャップの下では、命題 3 によれば、既存の方法は t= で平均値 0 の画像に向かって移動することと等価です。 1 つまり、平均的なグレースケール画像を生成します。したがって、既存の手法では、明るさが極端に強い画像や弱い画像を生成することは困難です。この問題を解決するために、この研究では、標準的なガウス分布と実際のデータ分布の間の変換をフィッティングすることによってこのギャップを埋めるプラグアンドプレイの SingDiffusion 手法を提案します。 SingDiffuion のアルゴリズムは次の図に示されています。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

の結論によると、前のセクション、この研究「x - 予測」法は、特異点でのサンプリング問題を解くために時間 t=1 で使用されます。画像とテキストのデータペア

の場合、このメソッドは

に適合するように Unet 非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

をトレーニングします。損失関数は次のように表されます: 非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決モデルが収束したら、以下の DDIM サンプリング式に従い、新しく取得したモジュールを使用できますサンプリング非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

DDIM のサンプリング式は、生成された非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決が 1-ε 時間でのデータ分布に一致することを保証します。これにより、平均グレースケールの問題。このステップの後、事前トレーニングされたモデルを使用して、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決が生成されるまで後続のサンプリングステップを実行できます。このメソッドはサンプリングの最初のステップにのみ関与し、その後のサンプリングプロセスとは何の関係もないため、SingDiffusion はほとんどの既存の拡散モデルに適用できることに注意してください。さらに、分類子ガイダンス操作がないことによって引き起こされるデータオーバーフローの問題を回避するために、このメソッドは次の正規化操作も使用します。分類子ガイダンス操作を行わなかった後の結果、neg は否定的なプロンプトの下での出力を表し、pos は肯定的なプロンプトの下での出力を表し、ω はガイダンスの強度を表します。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決実験

まず、この研究では、SD-1.5、SD-2.0 ベース、SD-2.0 の 3 つのモデルで SingDiffusion を検証しました。平均グレースケールの問題を解決します。今回の研究では、生成条件として「真っ白/黒背景」「白/黒背景にモノクロ線画ロゴ」を含む4つの極端なプロンプトを選択し、生成された画像の平均グレースケール値を計算したところ、下表のようになりました。表示:

#表からわかるように、この研究は平均グレー値の問題を大幅に解決し、明るさに一致する色を生成できます。入力テキストの説明の画像。さらに、この研究では、次の図に示すように、これら 4 つのプロンプトステートメントに基づく生成結果も視覚化しました。図にあるように、このメソッドを追加すると、既存の拡散モデルで白または黒の画像を生成できるようになります。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決この方法によって達成される画質の向上をさらに研究するために、研究では COCO データセットでのテストのために 30,000 の記述を選択しました。まず、この研究では、次の表に示すように、分類子を使用しないガイダンスを使用せずにモデル自体の生成機能を実証しています。表提案手法により、生成された画像の FID が大幅に削減され、CLIP インデックスが向上することがわかります。 SD-1.5 モデルでは、この論文の方法により、元のモデルと比較して FID インデックスが 33% 減少することは注目に値します。