このレビュー (普及モデル: 手法とアプリケーションの包括的な調査) は、カリフォルニア大学の Ming-Hsuan Yang 氏と、北京大学 Cui Bin 研究所の Google Research によるものです。 、CMU、UCLA、モントリオール ミラ研究所およびその他の研究チームは、既存の拡散モデルの包括的な概要と分析を初めて実施し、拡散モデル アルゴリズムからの分類、他の 5 つの主要な生成モデルとの関連性、および拡散モデルのアルゴリズムによる分類を詳細に説明しました。 7 つの主要分野での応用を検討し、応用などを実施し、最終的に普及モデルの現状の限界と今後の発展の方向性を提案します。
記事リンク: https://arxiv.org/abs/2209.00796 拡散モデルの論文分類概要のこのレビュー github リンク: https://github.com/YangLing0818/ Diffusion -Models-Papers-Survey-Taxonomy
Diffusion モデルは、深い生成モデル SOTA の中で新しいものです。拡散モデルは、画像生成タスクにおいてオリジナルの SOTA: GAN を上回り、コンピュータ ビジョン、NLP、波形信号処理、マルチモーダル モデリング、分子グラフ モデリング、時系列モデリングなどの多くの応用分野で優れたパフォーマンスを発揮します。浄化など。さらに、拡散モデルは、ロバスト学習、表現学習、強化学習などの他の研究分野と密接に関連しています。
ただし、元の拡散モデルにも欠点があります。サンプリング速度が遅く、通常、サンプルを抽出するために数千の評価ステップが必要です。最尤推定は尤度ベースの推定と比較できません。他のモデルと比較すると、さまざまなデータ型に一般化する能力が劣ります。現在、多くの研究が実用化の観点から上記の制限を解決するため、または理論的な観点からモデルの機能を分析するために多くの努力が払われています。
しかし、アルゴリズムからアプリケーションに至る普及モデルの最近の進歩についての体系的なレビューは現在不足しています。この急速に成長する分野の進歩を反映するために、普及モデルの最初の包括的なレビューを紹介します。私たちは、私たちの研究が拡散モデルの設計上の考慮事項と高度な手法に光を当て、さまざまな分野での応用を実証し、将来の研究の方向性を示すことを構想しています。このレビューの概要を以下に示します。
#拡散モデルはさまざまなタスクで優れたパフォーマンスを発揮しますが、依然として独自の欠点があり、多くの点が挙げられます。研究により拡散モデルが改善されました。
拡散モデルの研究の進捗状況を系統的に明らかにするために、元の拡散モデルの 3 つの主な欠点、つまりサンプリング速度の遅さ、最尤差、データの一般化の弱さをまとめました。また、拡散モデルの改善研究を、サンプリング速度の改善、最尤化の強化、およびデータ一般化の強化という 3 つの対応するカテゴリに分類することも提案されています。
最初に改善の動機を説明し、次に手法の特徴に応じて改善の方向ごとに研究を分類し、手法間の関連性と相違点を明確に示します。 。ここでは、例としていくつかの重要なメソッドのみを選択します。図に示すように、各タイプのメソッドは私たちの研究で詳しく紹介されています。 3 種類の拡散モデルを分析し、他の 5 つの生成モデル、GAN、VAE、自己回帰モデル、正規化フロー、エネルギーベース モデルを紹介します。
研究者は、拡散モデルの優れた特性を考慮して、その特性に応じて拡散モデルを他の生成モデルと組み合わせました。拡散モデルの詳細 この記事では、拡散モデルと他の生成モデルを組み合わせる作業を紹介し、元の生成モデルの改良点を説明します。拡散モデルは多くの分野で優れた性能を発揮しており、拡散モデルは応用分野によって変形が異なることを考慮し、拡散モデルの応用研究を体系的に導入しました。 : コンピューター ビジョン、NLP、波形信号処理、マルチモーダル モデリング、分子グラフ モデリング、時系列モデリング、敵対的浄化。各タスクについて、タスクを定義し、拡散モデルを利用してタスクを処理する作業を紹介します。
この作業の主な貢献を次のように要約します。
生成モデリングにおける中心的な問題は、モデルの柔軟性と計算能力のトレードオフのバランスです。拡散モデルの基本的な考え方は、順拡散プロセスを通じてデータの分布を体系的に撹乱し、その後、逆拡散プロセスを学習することでデータの分布を復元することで、非常に柔軟で計算が容易なモデルを生成することです。生成モデル。
(1) ノイズ除去拡散確率モデル (DDPM)
DDPM は、2 つのパラメータ化されたマルコフ連鎖構成と変分推論を使用して、有限時間後の元のデータ分布と一致するサンプルを生成します。フォワード チェーンの機能はデータに摂動を与えることであり、データの分布が事前分布、つまり標準ガウス分布になるまで、事前に設計されたノイズ スケジュールに従ってデータにガウス ノイズを徐々に追加します。逆方向チェーンは、指定された事前確率から開始され、パラメーター化されたガウス変換カーネルを使用して、元のデータ分布を徐々に復元することを学習します。が元のデータとその分布を表す場合、前方チェーンの分布は次の式で表すことができます。
これは、前方チェーンがはマルコフプロセスとは、t段階のノイズを加えた後のサンプルであり、あらかじめ与えられたノイズの進み具合を制御するパラメータです。が 1 に近づくと、ほぼ標準ガウス分布に従うと考えられます。それが非常に小さい場合、逆プロセスの転送カーネルは近似的にガウスであると考えることができます。
変分の下限は次のように学習できます。損失関数:
## (2) スコアベースの生成モデル (SGM)
上記の DDPM は、SGM の離散形式とみなすことができます。 SGM は、確率微分方程式(SDE)を構築してデータ分布を滑らかに乱し、元のデータ分布を既知の事前分布に変換します。対応する逆 SDE を使用して、以前の分布を元のデータ分布に変換します。
したがって、拡散プロセスを逆にしてデータを生成するには、必要な情報は、各時点における分数関数のみです。スコアマッチング手法を使用すると、次の損失関数を通じてスコア関数を学習できます:
2 つの方法と 2 つの関係の詳細については、記事を参照してください。元の拡散モデルの 3 つの主な欠点は、サンプリング速度が遅い、尤度の最大化が不十分であること、およびデータ一般化能力が弱いことです。最近の研究の多くはこれらの欠点に対処しているため、改良された拡散モデルをサンプリング速度の強化、最尤化の強化、およびデータ一般化の強化の 3 つのカテゴリに分類します。次の 3、4、5 セクションで、これら 3 種類のモデルを詳しく紹介します。
適用する場合、新しいサンプルの最高品質を達成するために、多くの場合、拡散モデルを処理する必要があります。数千回 新しいサンプルを取得するための 1 万ステップの計算。これにより、拡散モデルの実際の応用価値が制限されます。実際の応用では、多くの場合、処理の次のステップに材料を提供するために多数の新しいサンプルを生成する必要があるからです。
研究者は、拡散モデルのサンプリング速度を向上させるために多くの研究を行ってきました。これらの研究について詳しく説明します。これを、離散化最適化、非マルコフ プロセス、部分サンプリングの 3 つの方法に洗練します。
(1) 離散化最適化手法は、拡散 SDE を解く手法を最適化します。実際には複雑な SDE を解くには実解を近似するために離散解しか使用できないため、このタイプの方法では、サンプルの品質を確保しながら離散ステップの数を削減するために SDE の離散化方法を最適化しようとします。 SGM は、逆方向プロセスを解くための一般的な方法、つまり、順方向プロセスと逆方向プロセスに同じ離散化方法を採用する方法を提案します。順方向 SDE に離散化が与えられている場合:
# 次に、逆 SDE も同じ方法で離散化できます:
この方法は、単純な DDPM よりもわずかに優れています。さらに、SGM は SDE ソルバーに補正機能を追加し、各ステップで生成されるサンプルが正しい分布になるようにします。解法の各ステップで、ソルバーにサンプルが与えられた後、補正器はマルコフ連鎖モンテカルロ法を使用して、生成されたばかりのサンプルの分布を補正します。実験によると、ソルバーに補正器を追加すると、ソルバーのステップ数を直接増やすよりも効率的であることがわかりました。
(2) 非マルコフ過程メソッドは、元のマルコフ過程の制限を打ち破ります。逆プロセスの各ステップは、より多くの過去のサンプルに依存して新しいサンプルを予測できます。ステップ サイズを大きくすると、より適切な予測を行うこともできるため、サンプリング プロセスが高速化されます。その中で、主な作業である DDIM は、フォワード プロセスがマルコフ プロセスであることを前提とせず、次の分布に従います:
サンプリングDDIM のプロセスは離散化された正規微分方程式として扱うことができるため、サンプリング プロセスはより効率的であり、サンプルの内挿をサポートします。さらなる研究により、DDIM は多様体上拡散モデル PNDM の特殊なケースと見なすことができることがわかりました。
(3) 部分サンプリング法は、生成プロセスで時間ノードの一部を無視し、残りの時間ノードのみを使用してサンプルを生成することにより、サンプリング時間を直接短縮します。たとえば、漸進的蒸留は、トレーニングされた拡散モデルからより効率的な拡散モデルを蒸留します。トレーニングされた拡散モデルの場合、漸進的蒸留は新しい拡散モデルの 1 ステップがトレーニングされた拡散モデルの 2 ステップに対応するように拡散モデルを再トレーニングします。これにより、新しいモデルは古いモデルのサンプリング プロセスの半分を節約できます。具体的なアルゴリズムは次のとおりです。
この蒸留プロセスを継続的にループさせると、サンプリング ステップを大幅に削減できます。
最尤推定における拡散モデルのパフォーマンスは、尤度関数に基づく生成モデルのパフォーマンスより劣りますが、最大画像圧縮、半教師あり学習、敵対的浄化など、多くのアプリケーション シナリオは非常に重要です。対数尤度を直接計算するのは難しいため、研究は主に変分下限 (VLB) の最適化と分析に焦点を当てています。拡散モデルの最尤推定を改善するモデルについて詳しく説明します。私たちはこれを、目標設計、ノイズ スケジュール最適化、学習可能な逆分散という 3 つのカテゴリの手法に細分化します。
(1) 目的 拡散 SDE を使用して、生成されたデータの対数尤度とスコア関数に一致する損失関数の関係を推定する設計手法です。このように、損失関数を適切に設計することで、VLB と対数尤度を最大化できます。 Song らは、プラグイン逆 SDE によって生成されたサンプルの尤度関数値が損失関数値以下になるように、損失関数の重み関数を設計できることを証明しました。尤度関数の上限。分数関数フィッティングの損失関数は次のとおりです。
重み関数を拡散係数 g(t) に設定するだけで、次のようになります。損失関数は尤度関数の VLB、つまり
## (2) ノイズになります。設計に従って最適化をスケジュールするか、VLB を増やすためにフォワード プロセスのノイズの多い進行状況を学習します。 VDM は、離散ステップが無限大に近づくと、損失関数が信号対雑音比関数 SNR(t) の終点によって完全に決定されることを証明します。 # 次に、「離散ステップが無限大に近づくとき」では、信号対雑音比関数 SNR(t) のエンドポイントを学習することで VLB を最適化し、関数値を学習することでモデルの他の側面を改善できます。信号対雑音比関数の中央部分。 3. 学習可能な逆分散法は逆プロセスの分散を学習するため、フィッティング エラーが減少し、VLB を効果的に最大化できます。 Analytic-DPM は、DDPM と DDIM の逆プロセスに最適な期待値と分散があることを証明します。
上記の式とトレーニング済みの Fractional を使用します。関数を使用すると、特定のフォワード プロセスの条件下で、最適な VLB をほぼ達成できます。
5
データ一般化の強化拡散モデルは、データがユークリッド空間、つまり平面幾何学を持つ多様体に存在すると仮定します。また、ガウス ノイズを追加すると必然的にデータが連続状態空間に変換されるため、拡散モデルは最初は写真などの連続データしか扱えず、離散データやその他のデータ型を直接適用する効果は乏しいです。これにより、普及モデルの適用シナリオが制限されます。
(1) 特徴空間統合法は、データを統合潜在空間に変換し、潜在空間上に拡散します。 LSGM は、VAE フレームワークを通じてデータを連続的な潜在空間に変換し、その上に拡散することを提案します。この方法の難しさは、VAE と拡散モデルを同時にトレーニングする方法です。 LSGM は、基礎となる事前分布が扱いにくいため、部分的なマッチング損失が適用されなくなることを示しています。 LSGM は、VAE の従来の損失関数 ELBO を損失関数として直接使用し、ELBO とスコア マッチングの関係を導き出します。
この式は定数を無視します。という意味で確立されています。拡散プロセスにおけるサンプルの分数関数をパラメータ化することにより、LSGM は ELBO を効率的に学習して最適化できます。
(2) データ依存型遷移カーネル法は、データ型の特性に応じて拡散過程における遷移カーネルを設計するため、拡散モデルを特定のデータ型に直接適用できます。 D3PM は、遅延ランダムウォーク、吸収状態などに設定できる離散データ用の遷移カーネルを設計しました。 GEODIFF は、3D 分子グラフ データ用の並進回転不変グラフ ニューラル ネットワークを設計し、不変初期分布と遷移カーネルによって不変周辺分布を導出できることを証明しました。これが次のような平行移動 - 回転変換であると仮定します。
その場合、生成されたサンプル分布にも平行移動 - 回転の不変性があります。
以下の各セクションでは、最初に他の 5 つの重要なタイプの生成モデルを紹介します。そしてその強みと限界を分析します。次に、拡散モデルがそれらにどのように関連しているかを紹介し、拡散モデルを組み込むことでこれらの生成モデルをどのように改善できるかを説明します。 VAE、GAN、自己回帰モデル、正規化フロー、エネルギーベースのモデル、拡散モデルの関係を以下の図に示します。
マルチモーダル タスクでは、拡散モデルテキストから画像への生成 (GLIDE) を使用できます:
拡散モデルを使用して、分子グラフで薬物分子やタンパク質分子を生成することもできます世代 (GeoDiff):
#アプリケーション分類の概要を表に示します。
##8 今後の研究の方向性
以上が最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。