最近、拡散モデルはその優れたパフォーマンスにより GAN モデルや自己回帰モデルを上回り、生成モデルの主流の選択肢となっています。 SD、SDXL、Midjourney、Imagen などの普及モデルベースのテキストから画像への生成モデルは、高品質の画像を生成する驚くべき能力を実証しています。通常、これらのモデルは、既存のハードウェア上で効率的な処理と正確なモデル トレーニングを保証するために、特定の解像度でトレーニングされます。
図 1: SDXL 1.0 で 2048 × 2048 画像を生成するために使用されるさまざまな方法の比較。 [1]
これらの拡散モデルでは、パターンの重複や重大なアーチファクトが頻繁に発生します。たとえば、図 1 の左端に示されています。これらの問題は、トレーニングの解決策を超えて特に深刻です。
論文では、香港中文大学センスタイム共同研究室とその他の機関の研究者が、拡散モデルで一般的に使用されるUNet構造の畳み込み層の詳細な研究を実施しました。図 2 に示すように、領域分析の観点から FouriScale が提案されている周波数を分析しました。
図 2 解像度間の一貫性を確保する FouriScale のプロセスの概略図 (オレンジ色の線)。
拡張畳み込み演算とローパス フィルタリング演算を導入して、事前トレーニングされた拡散モデル内の元の畳み込み層を置き換えることにより、さまざまな解像度での構造とスケールの一貫性を実現できます。この方法を「塗りつぶしてからトリミング」戦略と組み合わせることで、さまざまなサイズやアスペクト比を満たす画像を柔軟に生成できます。さらに、FouriScale をガイドとして使用することで、この方法は、あらゆるサイズの高解像度画像を生成する際に、完全な画像構造と優れた画質を保証できます。 FouriScale はオフラインでの予測計算を必要とせず、優れた互換性と拡張性を備えています。
定量的および定性的な実験結果は、FouriScale が事前トレーニングされた拡散モデルを使用して高解像度画像の生成において大幅な改善を達成したことを示しています。
1. Atrous 畳み込みにより、解像度全体での構造の一貫性が保証されます
拡散モデルのノイズ除去ネットワークは、通常、特定の解像度で行われます。このネットワークは通常、U-Net 構造を採用します。著者らは、推論段階でノイズ除去ネットワークのパラメーターを使用して、再トレーニングを必要とせずに高解像度の画像を生成することを目指しています。推論解像度での構造の歪みを避けるために、著者はデフォルトと高解像度の間で構造の一貫性を確立しようとしています。 U-Net の畳み込み層の場合、構造の一貫性は次のように表現できます。
ここで、k は元の畳み込みカーネル、k' は New です。より大きな解像度向けにカスタマイズされたコンボリューション カーネル。空間ダウンサンプリングの周波数領域表現によれば、次のようになります。
式 (3) は次のように記述できます。
この式は、理想的なコンボリューション カーネル k' のフーリエ スペクトルが s×s コンボリューション カーネル k のフーリエ スペクトルによって接合される必要があることを示しています。言い換えれば、k' のフーリエ スペクトルは周期的な繰り返しを持つ必要があり、この繰り返しパターンが k のフーリエ スペクトルです。
広く使用されている拡張畳み込みは、まさにこの要件を満たしています。 atrous コンボリューションの周波数領域の周期性は、次の式で表すことができます:
事前トレーニング済みの拡散モデル (トレーニング解像度は (h, w)) を使用して (H, W) の高解像度画像を生成する場合、 atrous コンボリューション 元のコンボリューション カーネルを使用すると、拡張係数は (H/h, W/w) となり、これが理想的なコンボリューション カーネル k' になります。
#2. ローパス フィルタリングにより、解像度全体でのスケールの一貫性が保証されます
#ただし、穴の体積のみを使用すると、製品はこれを行うことができません。図 3 の左上隅に示すように、atrous コンボリューションを使用しただけでは、詳細にはパターンの繰り返し現象が依然として残ります。著者は、これは、空間ダウンサンプリングの周波数エイリアシング現象により周波数領域成分が変化し、その結果、解像度が異なると周波数領域分布に差異が生じるためであると考えています。解像度全体でのスケールの一貫性を確保するために、空間ダウンサンプリング後の周波数エイリアシングの問題を取り除くために、高周波成分を除去するローパス フィルターを導入しました。図 3 の右側の比較曲線からわかるように、ローパス フィルターを使用した後は、高解像度と低解像度での周波数分布が近くなり、一貫したスケールが確保されます。図 3 の左下隅からわかるように、ローパス フィルターを使用した後、細部のパターンの繰り返し現象が大幅に改善されました。
図 3 (a) ローパス フィルターの有無による視覚的な比較。 (b) ローパス フィルターなしのフーリエ相対対数振幅曲線。 (c) ローパス フィルターを使用したフーリエ相対対数振幅曲線。
#3. あらゆるサイズの画像生成に適しています
上記の方法では、生成された解像度のアスペクト比がデフォルトの推論解像度と一致する場合に FouriScale を任意のサイズの画像生成に適応させるために、著者は「塗りつぶして切り抜く」方法を採用しています。方法 1 はこの方法の組み合わせを示しています FouriScale の擬似コード.
4. FouriScale ガイド
原因: 周波数領域の動作FouriScale では、生成された画像に必然的にディテールの損失や望ましくないアーティファクトが発生します。この問題を解決するために、図 4 に示すように、著者は誘導手法として FouriScale を提案しました。具体的には、元の条件付き生成推定と無条件生成推定に基づいて、追加の条件付き生成推定を導入しました。この追加の条件付き生成推定の生成プロセスでも激しい畳み込みが使用されますが、詳細が失われないようにするために、より穏やかなローパス フィルターが使用されます。同時に、FouriScale によって出力された条件付き生成推定値の注意スコアを使用して、この追加の条件付き生成推定値の注意スコアを置き換えます。注意スコアには生成された画像の構造情報が含まれているため、この操作は画像を正しく処理します。画質を確保しながら構造情報を導入。
図 4 (a) FouriScale のブート図。 (b) FouriScale をガイドとして使用せずに生成された画像には、明らかなアーティファクトと詳細エラーがあります。 (c) FouriScale をガイドとして使用して生成された画像。
1. 定量的テスト結果
著者は、[1] の方法に従い、3 つのヴィンセント グラフ モデル (SD 1.5、SD 2.1、SDXL 1.0 を含む) をテストして、4 つの高解像度画像を生成しました。テストされた解像度は、それぞれのトレーニング解像度のピクセル数の 4x、6.25x、8x、および 16x でした。 Laion-5B で 30000/10000 個の画像とテキストのペアをランダムにサンプリングした結果を表 1 に示します。
表 1 別のトレーニングは必要ありませんメソッドの定量的結果の比較
彼らのメソッドは、事前トレーニングされた各モデルおよび異なる解像度で最適な結果を達成しました。
2. 定性的テストの結果
図 5 に示すように、その方法は事前トレーニングされた各モデル、画像生成の品質、一貫した構造をさまざまな解像度で保証できます。
#図 5 トレーニング不要のさまざまな方法で生成された画像の比較
以上がこの新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。