Apple による最新の研究により、高解像度画像における拡散モデルのパフォーマンスが大幅に向上しました。
この方法を使用すると、同じ解像度の画像のトレーニング ステップの数が 70% 以上削減されます。
1024×1024の解像度では、画質がそのままフルに表現され、細部まではっきりと見えます。
Apple はこの成果を MDM と名付けました。DM は Diffusion Model の略で、最初の M は Matryoshka の略です。
本物のマトリョーシカ人形と同じように、MDM は高解像度プロセス内に低解像度プロセスをネストし、複数のレイヤーにネストします。
高解像度と低解像度の拡散プロセスが同時に実行されるため、高解像度プロセスにおける従来の拡散モデルのリソース消費が大幅に削減されます。
解像度 256×256 の画像の場合、バッチ サイズ 1024 の環境では、従来の拡散モデルは 150 万ステップでトレーニングする必要がありますが、MDM は 150 万ステップでトレーニングする必要があります。必要となるのは 390,000 で、70% 以上減少します。
さらに、MDM はエンドツーエンドのトレーニングを採用しており、特定のデータセットや事前トレーニングされたモデルに依存せず、生成品質を確保しながら速度を向上させ、柔軟に使用できます。
高解像度の画像を描画できるだけでなく、16×256 平方のビデオを合成することもできます。
#一部のネチズンは、Apple がついにテキストと画像を結びつけたとコメントしました。
それでは、MDM の「マトリョーシカ」テクノロジーは正確にどのように機能するのでしょうか?
トレーニングを開始する前に、データを前処理する必要があります。高解像度の画像は、特定のアルゴリズムを使用してリサンプリングされます。解像度のバージョン。
次に、これらの異なる解像度のデータを統合 UNet モデリングに使用します。小さな UNet は低解像度を処理し、高解像度を処理する大きな UNet にネストされます。
クロス解像度接続を通じて、異なるサイズの UNet 間で機能とパラメータを共有できます。
#MDM トレーニングは段階的なプロセスです。
共同でモデリングを行っていますが、最初から高解像度でトレーニングを行うのではなく、低解像度から徐々に拡張していきます。
これにより、膨大な量の計算が回避され、低解像度 UNet の事前トレーニングによって高解像度トレーニング プロセスが高速化されることも可能になります。
トレーニング プロセス中に、より高解像度のトレーニング データがプロセス全体に徐々に追加され、モデルが徐々に増加する解像度に適応し、最終的な高解像度プロセスにスムーズに移行できるようになります。
ただし、全体として、高解像度プロセスが徐々に追加された後でも、MDM トレーニングは依然としてエンドツーエンドの共同プロセスです。
異なる解像度での共同トレーニングでは、複数の解像度の損失関数が一緒にパラメーターの更新に参加し、多段階トレーニングによって引き起こされるエラーの蓄積を回避します。
各解像度には、対応するデータ項目の再構成損失があります。異なる解像度の損失は重み付けされて結合されます。生成品質を確保するために、低解像度の損失の重みが大きくなります。
推論フェーズでは、MDM は並列性と進行性を組み合わせた戦略も採用します。
さらに、MDM は、事前トレーニングされた画像分類モデル (CFG) を使用して、生成されたサンプルがより合理的な方向に最適化されるように導き、低解像度のサンプルにノイズを追加して高解像度のサンプルに近づけます。 -解像度サンプル: サンプルの分布。
それでは、MDM の効果は何でしょうか?
画像に関して言えば、ImageNet および CC12M データ セットでは、MDM の FID (値が低いほど効果が高くなります) と CLIP パフォーマンスは、SOTA よりも大幅に優れています。通常のディフュージョンモデル。
FID は画像自体の品質を評価するために使用され、CLIP は画像とテキスト命令の一致度を示します。
DALL E や IMGEN などの SOTA モデルと比較すると、MDM のパフォーマンスも非常に近いですが、MDM のトレーニング パラメーターはこれらのモデルよりもはるかに小さいです。
MDM は通常の拡散モデルより優れているだけでなく、他のカスケード拡散モデルよりも優れています。
アブレーション実験の結果は、低解像度トレーニングのステップが増えるほど、MDM 効果の強化がより明らかになる一方、ネスト レベルが増えると同じ結果が得られることを示しています。 CLIP スコアに必要なトレーニング ステップは少なくなります。
CFG パラメーターの選択は、複数のテスト後の FID と CLIP の間のトレードオフの結果です (高い CLIP スコアは CFG 強度の増加に対応します)。
以上がApple の「マトリョーシカ」スタイルの普及モデルにより、トレーニングのステップ数が 70% 削減されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。