著者丨Mike Young
翻訳: 元の意味を変えずにコンテンツを再作成する言語は中国語です。元の文は表示されません
元の意味を変えずにコンテンツを確認してください、言語を書き直す必要があります 中国語では、元の文を表示する必要はありません
推奨 | 51CTO テクノロジー スタック (WeChat ID: blog51cto)
##写真
LCM の精製プロセスに LoRA を導入することによりにより、リファインによるメモリ オーバーヘッドが大幅に削減され、限られたリソースで SDXL や SSD-1B などのより大きなモデルをトレーニングできるようになります。さらに重要なことは、LCM-LoRA トレーニングを通じて取得された LoRA パラメーター (「加速ベクトル」) は、特定のスタイルのデータセットを微調整することによって取得された他の LoRA パラメーター (「スタイル ベクトル」) と直接組み合わせることができることです。トレーニングを行わなくても、加速度ベクトルとスタイル ベクトルの線形結合によって得られるモデルは、最小限のサンプリング ステップで特定の絵画スタイルの画像を生成する機能を獲得します。
図 2. 論文では次のように主張されています。 「LCM-LoRA-SD-V1.5 を使用して 512×512 解像度の画像を生成し、LCM-LoRA-SDXL および LCM-LoRA-SSD-1B を使用して 1024×1024 解像度の画像を生成しました。」
3. 制限事項
LCM の現在のバージョンにはいくつかの制限があります。最も重要なことは 2 段階のトレーニング プロセスです。最初に LDM をトレーニングし、次にそれを使用して LCM をトレーニングします。将来の研究では、LDM を必要としない、より直接的な LDM トレーニング方法が研究される可能性があります。この文書では主に無条件画像生成について説明しますが、条件付き生成タスク (テキストから画像への合成など) にはさらに多くの作業が必要になる場合があります。
潜在整合性モデル (LCM) は、高品質の画像を迅速に生成する上で重要な一歩を踏み出しました。これらのモデルは、わずか 1 ~ 4 ステップで低速な LDM と同等の結果を生成でき、テキストから画像へのモデルの実際の適用に革命を起こす可能性があります。現在、特にトレーニング プロセスと生成タスクの範囲に関していくつかの制限がありますが、LCM はニューラル ネットワークに基づく実用的な画像生成において大幅な進歩を示しています。提供された例は、これらのモデルの可能性を強調しています
#5、一般的な加速モジュールとしての LCM-LoRA#はじめにで述べたように、この論文は 2 つの部分に分かれています。 2 番目の部分では、LCM-LoRA テクノロジについて説明します。LCM-LoRA テクノロジにより、少ないメモリを使用して事前トレーニングされたモデルの微調整が可能になり、効率が向上します。
ここでの重要な革新は、LoRA パラメータを LCM に統合することです。 、これにより、両方の利点を組み合わせたハイブリッド モデルが生成されます。この統合は、特定のスタイルの画像を作成したり、特定のタスクに応答したりする場合に特に役立ちます。 LoRA パラメータの異なるセットを選択して組み合わせ、それぞれを独自のスタイルに合わせて微調整すると、研究者は追加のトレーニングなしで最小限の手順で画像を生成できる多用途モデルを作成できます。
彼らは、特定の絵画スタイル向けに微調整された LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた例を通じて、研究でこのことを実証しました。この組み合わせにより、さまざまなサンプリング ステップ (2 ステップ、4 ステップ、8 ステップ、16 ステップ、32 ステップなど) でさまざまなスタイルの 1024 × 1024 解像度の画像を作成できます。結果は、これらのパラメーターを組み合わせれば、さらなるトレーニングを行わなくても高品質の画像を生成できることが示されており、モデルの効率性と多用途性が強調されています。
ここで注目に値するのは、加速度ベクトル (τLCM) とスタイル ベクトル (τ) は、特定の数式を使用して結合されます (λ1 と λ2 はこれらの数式の調整可能な係数です)。この組み合わせにより、カスタム スタイルの画像を迅速に生成できるモデルが得られます。
論文の図 3 (以下に示す) は、特定のスタイルの LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた結果を示すことで、このアプローチの有効性を示しています。これは、さまざまなスタイルの画像を迅速かつ効率的に生成するモデルの機能を示しています。
#図 3# 強調表示された主要な結果には、わずか数ステップで LCM が含まれます。 高品質の 512x512 および 1024x1024 画像を作成するには、数百枚の画像が必要ですLDM を使用した手順。ただし、現在の制限として、LDM は 2 段階のトレーニング プロセスに依存しているため、開始するには依然として LDM が必要です。将来の研究により、このプロセスが簡素化される可能性があります。
LCM は、特に提案されている LCM-LoRA モデルで LoRA と組み合わせた場合、非常に賢いイノベーションです。高品質な画像をより迅速かつ効率的に作成できるという利点があり、デジタルコンテンツ制作において幅広い応用が期待できると思います。
参考リンク: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generated-high-quality-images-much-faster/
#
以上がLCM: 高品質の画像を劇的に高速に生成する新しい方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。