LCM: 高品質の画像を劇的に高速に生成する新しい方法

WBOY
リリース: 2023-11-30 14:31:11
転載
833 人が閲覧しました

著者丨Mike Young

翻訳: 元の意味を変えずにコンテンツを再作成する言語は中国語です。元の文は表示されません

元の意味を変えずにコンテンツを確認してください、言語を書き直す必要があります 中国語では、元の文を表示する必要はありません

推奨 | 51CTO テクノロジー スタック (WeChat ID: blog51cto)

LCM: 高品質の画像を劇的に高速に生成する新しい方法 ##写真

潜在整合性モデル (LCM) と呼ばれる新しいテクノロジーの出現のおかげで、AI はテキストから画像への変換において大きな進歩をもたらします。潜在拡散モデル (LDM) などの従来の方法は、テキストの手がかりを使用して詳細で創造的な画像を生成するのに優れていますが、速度が遅いという致命的な欠点があります。 LDM を使用して単一のイメージを生成するには、数百の手順が必要となる可能性があり、これは多くの実際のアプリケーションには遅すぎます

中国語で書き直されました: LCM は、イメージの生成に必要なステップ数を削減することで、状況を一変させます。画像を丹念に生成するために何百ものステップを必要とする LDM と比較して、LCM はわずか 1 ~ 4 つのステップで同様の品質の結果を生成できます。この効率を達成するために、LCM は事前トレーニングされた LDM をより簡潔な形式に改良し、それによって必要なコンピューティング リソースと時間を大幅に削減します。 LDM モデルがどのように機能するかを説明した最近の論文を分析します。

この論文では、汎用の安定拡散加速モジュールである LCM-LoRA と呼ばれるイノベーションも紹介されています。このモジュールは、追加のトレーニングなしで、さまざまな安定拡散微調整モデルに接続できます。これは、さまざまな画像生成タスクを高速化できる汎用的に適用可能なツールであり、AI を活用して画像を作成するためのツールとなる可能性があります。この論文のこの部分についても詳しく説明します。

1. LCM の効率的なトレーニング

ニューラル ネットワークの分野では、特に複雑な条件でニューラル ネットワークをトレーニングする場合、膨大な計算能力を必要とする大きな課題があります。方程式、時間。しかし、この論文の背後にあるチームは、洗練と呼ばれる独創的な方法を使用してこの問題を解決することに成功しました。

書き換えられた内容: 研究チームのアプローチは次のとおりです。 まず、テキストとテキストのペアのデータセットを使用しました。標準的な潜在拡散モデル (LDM) をトレーニングするための画像。 LDM が稼働すると、それをメンターとして使用し、新しいトレーニング データを生成します。次に、この新しいデータを使用して潜在整合性モデル (LCM) をトレーニングしました。最も興味深いのは、LCM は、巨大なデータセットを使用して最初からトレーニングすることなく、LDM の機能から学習できることです。本当に重要なのは、プロセスの効率です。研究者らは、単一の GPU のみを使用して、高品質 LCM のトレーニングを約 32 時間で完了しました。これは、以前の方法よりもはるかに高速で実用的であるため、重要です。これは、スーパーコンピューティング リソースにアクセスできる人だけでなく、より多くの人やプロジェクトがこのような高度なモデルを作成できることを意味します。

図 1. LCM-LoRA の概要

LCM: 高品質の画像を劇的に高速に生成する新しい方法LCM の精製プロセスに LoRA を導入することによりにより、リファインによるメモリ オーバーヘッドが大幅に削減され、限られたリソースで SDXL や SSD-1B などのより大きなモデルをトレーニングできるようになります。さらに重要なことは、LCM-LoRA トレーニングを通じて取得された LoRA パラメーター (「加速ベクトル」) は、特定のスタイルのデータセットを微調整することによって取得された他の LoRA パラメーター (「スタイル ベクトル」) と直接組み合わせることができることです。トレーニングを行わなくても、加速度ベクトルとスタイル ベクトルの線形結合によって得られるモデルは、最小限のサンプリング ステップで特定の絵画スタイルの画像を生成する機能を獲得します。

2. 結果

この研究は、AI を使用して潜在整合性モデル (LCM) に基づいて画像を生成する際の大きな進歩を示しています。 LCM は、わずか 4 ステップで高品質の 512x512 画像を作成することに優れています。これは、潜在拡散モデル (LDM) などの従来のモデルで必要とされる数百のステップに比べて大幅な改善です。画像は鮮明な詳細とリアルなテクスチャを誇っており、それは特に以下の例で明らかです。

写真

図 2. 論文では次のように主張されています。 「LCM-LoRA-SD-V1.5 を使用して 512×512 解像度の画像を生成し、LCM-LoRA-SDXL および LCM-LoRA-SSD-1B を使用して 1024×1024 解像度の画像を生成しました。」LCM: 高品質の画像を劇的に高速に生成する新しい方法

これらのモデルは、小さな画像を簡単に処理できるだけでなく、1024x1024 の大きな画像を生成することにも優れています。これらは、これまで可能であったものよりもはるかに大規模なニューラル ネットワーク モデルに拡張する能力を実証し、その適応性を示しています。論文内の例 (LCM-LoRA-SD-V1.5 および LCM-LoRA-SSD-1B バージョンの例など) では、さまざまなデータセットや実際のシナリオにおけるモデルの幅広い適用性が明らかにされています。

3. 制限事項

LCM の現在のバージョンにはいくつかの制限があります。最も重要なことは 2 段階のトレーニング プロセスです。最初に LDM をトレーニングし、次にそれを使用して LCM をトレーニングします。将来の研究では、LDM を必要としない、より直接的な LDM トレーニング方法が研究される可能性があります。この文書では主に無条件画像生成について説明しますが、条件付き生成タスク (テキストから画像への合成など) にはさらに多くの作業が必要になる場合があります。

4. 主な啓発

潜在整合性モデル (LCM) は、高品質の画像を迅速に生成する上で重要な一歩を踏み出しました。これらのモデルは、わずか 1 ~ 4 ステップで低速な LDM と同等の結果を生成でき、テキストから画像へのモデルの実際の適用に革命を起こす可能性があります。現在、特にトレーニング プロセスと生成タスクの範囲に関していくつかの制限がありますが、LCM はニューラル ネットワークに基づく実用的な画像生成において大幅な進歩を示しています。提供された例は、これらのモデルの可能性を強調しています

#5、一般的な加速モジュールとしての LCM-LoRA

#はじめにで述べたように、この論文は 2 つの部分に分かれています。 2 番目の部分では、LCM-LoRA テクノロジについて説明します。LCM-LoRA テクノロジにより、少ないメモリを使用して事前トレーニングされたモデルの微調整が可能になり、効率が向上します。

ここでの重要な革新は、LoRA パラメータを LCM に統合することです。 、これにより、両方の利点を組み合わせたハイブリッド モデルが生成されます。この統合は、特定のスタイルの画像を作成したり、特定のタスクに応答したりする場合に特に役立ちます。 LoRA パラメータの異なるセットを選択して組み合わせ、それぞれを独自のスタイルに合わせて微調整すると、研究者は追加のトレーニングなしで最小限の手順で画像を生成できる多用途モデルを作成できます。

彼らは、特定の絵画スタイル向けに微調整された LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた例を通じて、研究でこのことを実証しました。この組み合わせにより、さまざまなサンプリング ステップ (2 ステップ、4 ステップ、8 ステップ、16 ステップ、32 ステップなど) でさまざまなスタイルの 1024 × 1024 解像度の画像を作成できます。結果は、これらのパラメーターを組み合わせれば、さらなるトレーニングを行わなくても高品質の画像を生成できることが示されており、モデルの効率性と多用途性が強調されています。

ここで注目に値するのは、加速度ベクトル (τLCM) とスタイル ベクトル (τ) は、特定の数式を使用して結合されます (λ1 と λ2 はこれらの数式の調整可能な係数です)。この組み合わせにより、カスタム スタイルの画像を迅速に生成できるモデルが得られます。

論文の図 3 (以下に示す) は、特定のスタイルの LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた結果を示すことで、このアプローチの有効性を示しています。これは、さまざまなスタイルの画像を迅速かつ効率的に生成するモデルの機能を示しています。

#図 3

LCM: 高品質の画像を劇的に高速に生成する新しい方法


一般的には、この記事はこれですこのセクションでは、LCM-LoRA モデルの多用途性と効率性を強調します。LCM-LoRA モデルを使用すると、非常に少ない計算リソースを使用しながら、高品質でスタイル固有の画像を迅速に生成できます。このテクノロジーには幅広い用途があり、デジタル アートから自動コンテンツ作成に至るまで、あらゆる分野で画像を生成する方法に革命を起こすことが期待されています。 a 新しい手法である潜在整合性モデル (LCM) を使用して、テキストから画像を生成するプロセスを高速化します。従来の潜在拡散モデル (LDM) とは異なり、LCM は数百のステップではなく、わずか 1 ~ 4 のステップで同様の品質の画像を生成できます。この大幅な効率向上は、リファインメント手法、つまり、事前にトレーニングされた LDM を使用して LCM をトレーニングすることによって達成され、大量の計算を回避します。

さらに、LCM についても研究しました。 LoRA は、低ランク適応 (LoRA) を使用して事前トレーニングされたモデルを微調整し、メモリ要件を削減する拡張手法です。このアンサンブル手法では、追加のトレーニングを必要とせず、最小限の計算ステップで特定のスタイルの画像を作成できます。

# 強調表示された主要な結果には、わずか数ステップで LCM が含まれます。 高品質の 512x512 および 1024x1024 画像を作成するには、数百枚の画像が必要ですLDM を使用した手順。ただし、現在の制限として、LDM は 2 段階のトレーニング プロセスに依存しているため、開始するには依然として LDM が必要です。将来の研究により、このプロセスが簡素化される可能性があります。

LCM は、特に提案されている LCM-LoRA モデルで LoRA と組み合わせた場合、非常に賢いイノベーションです。高品質な画像をより迅速かつ効率的に作成できるという利点があり、デジタルコンテンツ制作において幅広い応用が期待できると思います。

参考リンク: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generated-high-quality-images-much-faster/

#

以上がLCM: 高品質の画像を劇的に高速に生成する新しい方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート