最近、拡散モデルは画像生成の分野で大きな進歩を遂げ、画像生成およびビデオ生成タスクに前例のない開発機会をもたらしました。素晴らしい結果にもかかわらず、拡散モデルの推論プロセスに固有のマルチステップ反復ノイズ除去特性により、計算コストが高くなります。最近、拡散モデルの推論プロセスを高速化する一連の拡散モデル蒸留アルゴリズムが登場しました。これらの方法は、大きく 2 つのカテゴリに分類できます: i) 軌道保存蒸留、ii) 軌道再構築蒸留。ただし、これら 2 種類の方法は、効果の上限や出力領域の変更によって制限されます。
これらの問題を解決するために、ByteDance 技術チームは Hyper-SD と呼ばれる軌跡セグメンテーション一貫性モデルを提案しました。 Hyper-SD のオープンソースは、Huggingface CEO の Clem Delangue 氏によっても認められています。
このモデルは、ほぼ損失のないパフォーマンスを維持しながらノイズ除去ステップの数を圧縮する、軌道保存蒸留と軌道再構築蒸留の利点を組み合わせた、新しい拡散モデル蒸留フレームワークです。既存の拡散モデル加速アルゴリズムと比較して、この方法は優れた加速結果を達成します。広範な実験とユーザーレビューを経て、Hyper-SD+ は SDXL と SD1.5 の両方のアーキテクチャで 1 ~ 8 ステップで SOTA レベルのイメージ生成パフォーマンスを達成できます。
プロジェクトのホームページ: https://hyper-sd.github.io/
紙のリンク: https://arxiv.org/abs/2404.13686
Huggingface のリンク: https:/ // /huggingface.co/ByteDance/Hyper-SD
シングルステップ生成デモリンク: https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
リアルタイム描画ボード デモリンク: https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble
拡散モデル加速のための既存の蒸留方法は、大きく 2 つのカテゴリに分類できます。軌道保存蒸留と軌道再構築蒸留。軌道保存蒸留技術は、拡散に対応する常微分方程式 (ODE) の元の軌道を維持することを目的としています。原理は、抽出されたモデルと元のモデルが同様の出力を生成するようにすることで、推論ステップを削減することです。ただし、このような方法では加速は達成できますが、モデルの容量が限られており、トレーニングやフィッティング中に避けられないエラーが発生するため、生成品質の低下につながる可能性があることに注意してください。対照的に、軌道再構成手法は、軌道の中間ステップを無視して、軌道上の端点または実画像を主な監視ソースとして直接使用し、より効果的な軌道を再構成することで推論ステップの数を削減し、限られた時間内で実行できます。 . ステップ内でモデルの可能性を探り、元の軌道の制約から解放します。ただし、多くの場合、これにより、高速化されたモデルの出力ドメインが元のモデルと矛盾し、次善の結果が得られます。
この論文は、軌道保存戦略と再構築戦略の利点を組み合わせた軌道セグメンテーション一貫性モデル (略して Hyper-SD) を提案します。具体的には、このアルゴリズムではまず、軌道セグメンテーションの一貫性蒸留を導入して各セグメント内の一貫性を強化し、徐々にセグメントの数を減らしてフルタイムの一貫性を実現します。この戦略は、不十分なモデル フィッティング機能と推論エラーの蓄積による一貫性のあるモデルのパフォーマンスが最適ではないという問題を解決します。その後、アルゴリズムはヒューマン フィードバック学習 (RLHF) を使用してモデル生成効果を向上させ、加速プロセス中のモデル生成効果の損失を補い、低ステップ推論によりよく適合させます。最後に、アルゴリズムは分別蒸留を使用してワンステップ生成パフォーマンスを強化し、統合された LORA を通じて理想的なフルタイムステップの一貫した拡散モデルを実現し、生成効果において優れた結果を達成します。
方法
1. 軌跡分割の一貫性蒸留
Consistent Distillation (CD) [24] と Consistent Trajectory Model (CTM) [4] は両方とも、ワンショット蒸留を通じて拡散モデルをタイム ステップ範囲 [0, T] 全体で一貫したモデルに変換することを目的としています。ただし、これらの蒸留モデルは、モデルのフィッティング機能の制限により、最適化を達成できないことがよくあります。 CTM に導入されたソフト一貫性目標に触発され、時間ステップ範囲 [0, T] 全体を k 個のセグメントに分割し、区分的に一貫性のあるモデルの蒸留をステップごとに実行することで、トレーニング プロセスを改良しました。
最初の段階では、k=8 に設定し、元の拡散モデルを使用して と を初期化します。開始タイム ステップ は から一様にランダムにサンプリングされます。次に、終了時間ステップ をサンプリングします。ここで、 は次のように計算されます:
トレーニング損失は次のように計算されます:
ここで、 は式 3 によって計算され、 は指数を表します。学生モデルの移動平均 (EMA)。
その後、前の段階のモデルの重みを復元し、トレーニングを継続し、k を [4,2,1] まで徐々に減らします。 k=1 が標準の CTM トレーニング スキームに対応することは注目に値します。距離メトリック d については、敵対的損失と平均二乗誤差 (MSE) 損失の混合を使用します。実験では、予測値と目標値が近い場合(たとえば、k=8、4の場合)、MSE損失がより効果的である一方、予測値と目標値の差が大きくなるにつれて敵対的損失が増加することが観察されました。 . より正確になります (たとえば、k=2、1 の場合)。したがって、トレーニング フェーズ全体を通じて、敵対的損失の重みを動的に増加させ、MSE 損失の重みを減少させます。さらに、トレーニングの安定性を高めるためにノイズ摂動メカニズムも統合しています。 2 段階の軌跡セグメント コンセンサス蒸留 (TSCD) プロセスを例に挙げます。以下の図に示すように、最初のステージでは、 および 期間で独立した整合性蒸留を実行し、その後、前の 2 つの期間の整合性蒸留結果に基づいてグローバルな整合性蒸留を実行します。
完全なアルゴリズムプロセスは次のとおりです:
2. 人間によるフィードバック学習
蒸留に加えて、加速拡散モデルのパフォーマンスを向上させるためにフィードバック学習をさらに組み合わせます。具体的には、人間の美的好みや既存の視覚認識モデルからのフィードバックを活用することで、加速モデルの生成品質を向上させます。美的フィードバックについては、以下に示すように、LAION 美的予測子と ImageReward で提供される美的嗜好報酬モデルを利用して、より美的画像を生成するようにモデルをガイドします。
ここで、はLAIONデータセットとImageRewardモデルの美的予測子を含む美的報酬モデル、cはテキストプロンプト、はヒンジ損失としてReLU関数と一緒に使用されます。美的好みからのフィードバックに加えて、画像に関する豊富な事前知識を埋め込んだ既存の視覚認識モデルも優れたフィードバックプロバイダーとして機能する可能性があることに注目します。経験的に、インスタンス セグメンテーション モデルは、適切に構造化されたオブジェクトを生成するようにモデルをガイドできることがわかりました。具体的には、まず画像上のノイズを潜在空間のに拡散し、その後、ImageRewardと同様に、特定のタイムステップまで反復ノイズ除去を実行し、を直接予測します。続いて、知覚インスタンス セグメンテーション モデルを利用して、次のように実際の画像のインスタンス セグメンテーション アノテーションとノイズ除去画像のインスタンス セグメンテーション予測の違いを調べることにより、構造生成のパフォーマンスを評価します。
ここで、 はインスタンス セグメンテーション モデルです。 (ソロなど)。インスタンス セグメンテーション モデルは、生成された画像の構造的欠陥をより正確にキャプチャし、よりターゲットを絞ったフィードバック信号を提供できます。インスタンスセグメンテーションモデルに加えて、他の知覚モデルも適用できることは注目に値します。これらの知覚モデルは、主観的な美学に対する補完的なフィードバックとして機能し、客観的な生成品質に重点を置くことができます。したがって、フィードバック信号を使用した最適化された拡散モデルは次のように定義できます。
3. ワンステップ生成の強化
一貫性損失の固有の制限のため、一貫性モデル フレームワーク内でのワンステップ生成は機能しません。理想的。 CM で分析されたように、コンセンサス蒸留モデルは、位置 で軌道終点 を導く際に優れた精度を示しています。したがって、分別蒸留は、TSCD モデルの一段階生成効果をさらに向上させるのに適した効果的な方法です。具体的には、最適化分布整合蒸留(DMD)技術によりさらなる生成を進めます。 DMD は、教師モデルからの分布 と偽モデルからの分布 という 2 つの異なるスコアリング関数を利用してモデルの出力を強化します。平均二乗誤差 (MSE) 損失とスコアベースの蒸留を組み合わせて、トレーニングの安定性を向上させます。このプロセスでは、前述のヒューマン フィードバック学習手法も統合され、モデルを微調整して忠実度の高い画像を効果的に生成します。
これらの戦略を統合することにより、私たちの方法は SD1.5 と SDXL の両方で優れたローステップ推論結果を達成するだけでなく (分類子ガイドを必要としない)、それぞれの特定の数値を必要とせずに理想的なグローバル一貫性モデルも達成します。ステップ数は、統一された低ステップ推論モデルを実現するために UNet または LoRA をトレーニングするために使用されます。
実験
SD1.5とSDXLに関するさまざまな既存の加速アルゴリズムを定量的に比較すると、Hyper-SDが現在の最先端の方法よりも大幅に優れていることがわかります
さらに、Hyper-SD は 1 つのモデルを使用してさまざまな低ステップ推論を実現できます。上記の定量的指標は、推論に統合モデルを使用した場合の手法の効果も示しています。
SD1.5 および SDXL に対する加速効果の視覚化は、拡散モデル推論の加速における Hyper-SD の優位性を直感的に示しています。
多数のユーザースタディでも、既存のさまざまな加速アルゴリズムと比較した Hyper-SD の優位性が示されています。
Hyper-SD によってトレーニングされた加速された LoRA は、さまざまなスタイルの Vincent フィギュア ベース モデルとよく互換性があります。
同時に、Hyper-SD の LoRA は既存の ControlNet にも適応して、少ないステップ数で高品質の制御可能な画像生成を実現します。
概要
この論文は、低ステップ状況での拡散モデルの生成能力を大幅に向上させ、SDXL と SD15 に基づいた新しい SOTA パフォーマンスを達成できる統合拡散モデル アクセラレーション フレームワークである Hyper-SD を提案しています。この方法では、軌道分割一貫性蒸留を使用して、蒸留プロセス中の軌道保存能力を強化し、元のモデルに近い生成効果を実現します。次に、ヒューマン フィードバック学習と変分分留をさらに活用することで、非常に低いステップ数でのモデルの可能性が向上し、より最適化された効率的なモデル生成が実現します。この論文では、生成 AI コミュニティの開発をさらに促進することを目的として、1 から 8 ステップ推論の SDXL および SD15 用の Lora プラグインと、専用のワンステップ SDXL モデルもオープンソース化しました。
以上が拡散モデルを加速し、最速の 1 ステップで SOTA レベルのイメージを生成、Byte Hyper-SD はオープンソースですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。