著者 | 鄭鵬飛
USTC、HKBU TMLRグループ近年、生成 AI の急速な発展により、テキストから画像への生成やビデオ生成などの注目を集める分野に大きな推進力が注入されています。これらの技術の中核は、拡散モデルの適用にあります。拡散モデルは、最初に連続的にノイズを追加する順方向プロセスを定義することによって画像を徐々にガウス ノイズに変更し、次に逆方向プロセスを通じてガウス ノイズを徐々に除去して鮮明な画像に変換して実際のサンプルを取得します。拡散常微分モデルは、生成された画像の値を補間するために使用され、ビデオや一部の広告クリエイティブの生成に大きな応用可能性があります。ただし、この方法を自然画像に適用すると、補間された画像効果が満足できない場合が多いことに気付きました。
一般に、拡散モデルはガウス ノイズをサンプリングし、徐々にノイズを除去して高品質の画像を生成します。補間された画像の品質が低いということは、その基礎となる変数が期待されるガウス分布に従わなくなっていることを意味します。内挿された画像の品質を向上させるには、基礎となる変数がガウス分布からより厳密にサンプリングされていることを確認する必要があります。潜在変数を直接スケーリングしたりオフセットしたりすると、結果の画像に重大な損傷が生じるため、元の画像の情報を保存するために、潜在変数をあまり変更することはできません。したがって、内在する変数をできるだけ破壊せずに、補間画像の品質を向上させることが困難な問題になります。
まず、潜在変数のノイズレベルを変更して、どのような潜在変数が拡散モデルによって高品質な画像に復元できるかを分析し、SDEdit メソッドを組み合わせてガウスノイズを導入し、画像の品質を向上させます。補間された画像とガウス ノイズの導入により、追加情報がもたらされます。さらに、私たちのアプローチの基礎となる高次元空間における潜在的な直交性を分析します。球面線形補間法とノイズを直接導入する方法を組み合わせて、潜在的な極値を抑制し、予想される分布に近づけるために微小なガウスノイズと組み合わせ、元の画像を導入して問題を軽減するという新しい補間法を提案します。情報損失。この補間方法を使用すると、元の画像情報を保持しながら、自然画像の補間結果を大幅に改善できます。
次に、私たちの研究結果を簡単に紹介します。
論文タイトル: NoiseDiffusion: 球面線形補間を超えた拡散モデルによる画像補間のノイズの修正
論文リンク:
https:/ /www.php.cn/link/68310dc294a1c38c7ba636380151daca コードリンク:
https://www.php.cn/link/fc9e5c39356354a60d33ca59499913ca はじめに
図 1: 顔画像への球面線形補間法の適用
拡散モデルは最も一般的に使用される画像補間法ですそれは球面線形補間法です [1,2]:
この方法を自然画像に適用します。図 2 から、自然画像に球面線形補間法を適用すると、補間効果が大幅に低下することがわかります。
図 2: 自然画像と生成画像間の補間効果の比較
分析
図 3: さまざまなノイズ レベルでのガウス ノイズ除去の効果
最初に、生成された画像に対するノイズ レベルの影響を調べます。ガウス ノイズのレベルがノイズ除去のレベルと一致する場合にのみ (中央の画像)、より高品質の画像が得られることがわかります。ノイズ レベルがノイズ除去レベルより低い場合 (右画像)、またはノイズ除去レベルより高い場合 (左画像)、生成される画像の品質は低下します。この現象を説明するために定理 1 を使用します:
定理 1 は、高次元空間における標準ガウス ノイズの分布特性を説明しています。これらは主に超球面に集中しています。この超球の内側では、点の確率密度は比較的高くなりますが、それが占める体積が小さいため、その全体的な寄与は大きくありません。一方、超球の外側では、点の体積は大きくなりますが、確率 密度は距離とともに急速に減衰するため、外側の点からの寄与も無視できます。したがって、拡散モデルを学習させる場合、主に観測する潜在変数は超球面に集中しており、これらの理由から超球面内外の潜在変数を効果的にノイズ除去することは困難です。
図 4: 自然画像の補間が失敗する理由
自然画像には、トレーニング中に拡散モデルが認識できなかった複雑な特徴が含まれていることが多く、これにより拡散が引き起こされます。モデルは、自然画像を標準のガウス ノイズに変換しようとすると困難に遭遇します。具体的には、これらの画像の潜在変数には、モデルのノイズ除去能力の範囲を超えるまたは下回るガウス ノイズが含まれる可能性があります。ただし、拡散モデルの能力は主に、定理 1 で説明されている超球上のガウス ノイズの復元に限定されています。この範囲外のノイズの場合、モデルは効果的に処理できないことがよくあります。したがって、画像補間を実行すると、低品質の補間画像が生成されることがよくあります。
図 5: ノイズ補間を直接導入する
画像の品質を向上させ、潜在変数を作成するために超球面に近づくには、SDEdit [3] と組み合わせた方法を採用しました。具体的には、標準的なガウス ノイズを画像に直接追加し、次に補間を実行し、最後にノイズ除去を実行します。図 5 から、この方法により補間画像の品質が大幅に向上することが明確にわかります。ただし、このアプローチでは、図に示すような追加情報も導入されることに注意してください。
図 6: NoiseDiffusion の全体設計
画質を向上させ、情報損失をできる限り減らすために、球面線形補間法とノイズを直接導入する補間法に加え、新たなNoiseDiffusion法を提案します。図 6 に示すように、NoiseDiffusion の全体的な設計は、補間プロセス中の情報保持を考慮するだけでなく、ノイズを導入することで画質を向上させ、両者の効果的なバランスを実現します。次に、NoiseDiffusion の設計思想について詳しく説明します。
図 7: 潜在変数の極値の制限
統計によると、特定の範囲を超えるとノイズ成分は外れ値とみなすことができます。図 3 と組み合わせると、ノイズ除去レベルよりも高いガウス ノイズは、自然画像の補間結果の異常なカラー パッチに非常によく似た明らかなノイズ ポイントを生成することがわかります。これらの異常なカラー パッチの生成は、潜在変数の原因となります。これらの分析に基づいて、潜在変数の極値に制約を課して、これらの異音の影響を制御します。図 7 からわかるように、潜在変数の極値を制限することで、画像の品質が大幅に向上しました。
図 8: 元の画像情報の導入
潜在的な変数に制約を課すとき、不注意になる可能性があります。コンポーネントが破損し、情報が失われる可能性があります。この潜在的な情報損失を補うために、元の画像情報を補足として導入します。図 8 に示すように、元の画像情報を導入した後、補間画像の品質が大幅に向上しました。これは、元の画像情報が情報損失を補う上で重要な役割を果たしていることを示しています。潜在変数による制約と元の画像情報の補完を組み合わせることで、画質を確保しながら情報損失を低減し、より正確で自然な補間効果を実現します。
球面線形補間は、2 つの潜在変数間の角度の計算に依存する補間方法です。ただし、実際のアプリケーションでは、これらの潜在変数がほぼ直交状態を示すことが多いことが観察されます。この現象を説明するために、理論的裏付けとして定理 2 を紹介します。
図 9: さまざまなサイズのガウス ノイズの導入
図 10: 設計 1 と組み合わせることで、導入されるガウス ノイズの量を削減できます
図 9 からわかるように、導入するガウス ノイズの量を徐々に増やすと、補間された画像の品質が大幅に向上することがわかります。ただし、ノイズの量が増加すると、追加情報の導入も増加するため、この改善にはコストがかかります。実際の補間プロセスでは、品質要件を満たしながら追加情報の導入を最小限に抑えるために、導入する必要があるガウス ノイズの量を効果的に削減するために前述の戦略を組み合わせました (図 10)。これにより、補間に関する情報がより適切に保持されます。オリジナルの画像。
図 11: 球面線形補間法との比較
提案手法と球面線形補間法を比較します。結果は次のとおりです。を比較しました (図 11 を参照)。補間結果から判断すると、私たちの方法は情報をほとんど失わずに、補間画像の品質を大幅に向上させます。これは、情報の完全性を維持し、画質を向上させるという私たちの方法の優れたパフォーマンスを十分に示しています。
安定拡散 [4] についても実験を行いました。安定拡散の潜在空間は構造化されていないため、滑らかな補間を得るのは困難です (図 12)。したがって、より小さいタイム ステップでの補間 () を検討します。これにより、元の画像の特徴がより多く保持され、補間結果がより滑らかになりますが、画質が低下します (図 13)。この問題を解決するために、NoiseDiffusion メソッドを適用して潜在変数を修正しました (図 14)。実験結果から、私たちの方法は変更する情報を減らしながら画像の品質を大幅に向上させることがわかります。
図 12:
図 12:
# の場合の球面線形補間の使用図 13:##図 14: NoiseDiffusion 補間を使用する場合
[1] Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma、Abhishek Kumar、 Stefano Ermon、Ben Poole、ICLR でのスコアベースの生成モデリング、2021 年。
[2] Jiaming Song、Chenlin Meng、Stefano Ermon、ICLR で。 .
[3] Chenlin Meng、Yutong He、Yang Song、Jiaming Song、Jiajun Wu、Jun-Yan Zhu、Stefano Ermon。
Sdedit: 確率微分によるガイド付き画像合成と編集方程式。ICLR、2022 年。
[4]Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser、Bjorn Ommer、CVPR にて。
[5] Weihao Xia、Yulun Zhang、Yujiu Yang、Jing-Hao Xue、Bolei Zhou、Ming-Hsuan Yang
inversion: パターン分析とマシン インテリジェンスに関する IEEE トランザクション、2022 年。 .
研究グループの紹介
香港バプテスト大学の信頼できる機械学習および推論研究グループ (TMLR グループ) は、多数の若手教授および博士研究員で構成されています。研究者、博士課程学生、客員博士課程学生、研究助手からなる研究チームは、理学部コンピュータサイエンス学科に所属しています。研究グループは、信頼できる表現学習、因果推論に基づく信頼できる学習、信頼できる基本モデルとその他の関連アルゴリズム、理論とシステム設計、および自然科学への応用を専門としています。具体的な研究の方向性と関連結果は、グループのページでご覧いただけます。 Github (https://github.com/tmlr-group)。研究チームは、香港研究助成評議会優秀若手研究者プログラム、中国国立自然科学財団の一般プロジェクトおよび青少年プロジェクトなどの政府研究資金および産業研究資金、ならびにマイクロソフト、NVIDIA、百度、アリババ、テンセントなどの企業。若手教授と上級研究者が協力しており、GPU コンピューティング リソースも十分にあり、多くの博士研究員、博士課程の学生、研究助手、研究インターンを長期的に採用しています。さらに、当グループは少なくとも 3 ~ 6 か月の自費訪問ポスドク研究員、博士課程の学生、研究助手からの応募も歓迎しており、リモート アクセスもサポートされています。興味のある学生は、履歴書と予備研究計画書を電子メール アドレス (bhanml@comp.hkbu.edu.hk) に送信してください。
以上がICLR 2024 スポットライト | NoiseDiffusion: 拡散モデルのノイズを修正し、補間画像の品質を向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。