このチュートリアルでは、安定した拡散XL(SDXL)とDreamBoothを探り、画像生成とモデルの微調整のために
ライブラリを活用する方法を示しています。 個人的な写真を使用してSDXLを微調整し、結果を評価します。 AIの新人は、AIの基礎コースから始めることをお勧めします。
diffusers
を理解する 安定性AIのSDXL 1.0は、AIテキストからイメージの生成の大幅な飛躍を表しています。 研究のみのSDXL 0.9に基づいて、現在では最も強力に公開されている画像作成モデルになっています。 広範なテストは、他のオープンソースの代替品と比較して、その優れた画質を確認します。
arxiv.orgの画像
この改善された品質は、35億個のパラメーターベースジェネレーターと66億個のパラメーターリファイナーの2つのモデルのアンサンブルに由来します。この二重アプローチは、消費者GPUの効率を維持しながら、画質を最適化します。 SDXL 1.0は画像生成を簡素化し、簡潔なプロンプトから複雑な結果を生成します。 カスタムデータセットの微調整も合理化されており、画像構造、スタイル、および構成をきめぶき制御します。 dreambooth:パーソナライズされた画像生成
GoogleのDreambooth(2022)は、特に安定した拡散などのテキストから画像モデルの生成AIのブレークスルーです。 Googleの研究者が説明しているように、
「それは写真ブースのようなものですが、あなたの夢があなたを連れて行くところならどこでも合成できる方法で主題をキャプチャします。」
Dreamboothの画像dreamboothはカスタムサブジェクトをモデルに注入し、特定の人、オブジェクト、またはシーン向けの専門的なジェネレーターを作成します。 トレーニングには、いくつかの(3〜5)の画像のみが必要です。 訓練されたモデルは、想像力によってのみ制限された、被験者を多様な設定とポーズに配置します。
dreamboothアプリケーション
Dreamboothのカスタマイズ可能な画像生成には、さまざまなフィールド:
クリエイティブインダストリーズ:
グラフィックデザイン、広告、エンターテイメントは、そのユニークな視覚コンテンツ作成機能から利益を得ています。パーソナライズ:現実または純粋に架空の設定で複製するのが難しいまたは不可能なシナリオを作成します。
教育と研究:
視覚的表現を必要とするパーソナライズされた教育コンテンツとエイズ研究を生成します。diffusers
CUDA対応GPUが利用可能であることを確認してください:
!nvidia-smi
インストールdiffusers
:
%pip install --upgrade diffusers[torch] -q
モデルをロードします(GPUメモリ効率にFP16を使用):
from diffusers import DiffusionPipeline, AutoencoderKL import torch vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16) pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", vae=vae, torch_dtype=torch.float16, variant="fp16", use_safetensors=True) pipe.to("cuda");
画像の生成:
prompt = "A man in a spacesuit is running a marathon in the jungle." image = pipe(prompt=prompt, num_inference_steps=25, num_images_per_prompt=4)
ヘルパー関数を使用して画像を表示(オリジナルで提供):
# ... (image_grid function from original code) ... image_grid(image.images, 2, 2)
リファイナー品質を向上させるには、SDXLリファイナーを利用してください:
# ... (refiner loading and processing code from original) ...
AutoTrain AdvancedはSDXL微調整を簡素化します。 使用してインストールしてください:
(注:元のチュートリアルでは、代替方法のために現在時代遅れのコラブノートブックを使用しています。これは簡潔に省略されています。)
%pip install -U autotrain-advanced
このチュートリアルは、画像の個人的なデータセットにAutoTrain AdvancedのDreamboothスクリプトを使用して、微調整されたSDXLの詳細な例で進みます。このセクションでは、変数の設定、Kaggleデータセットの作成、AutoTrainスクリプトの実行が含まれます。 出力は、トレーニングプロセスと、結果として得られるLORAウェイトが顔にアップロードされたことを示しています。 次に、微調整されたモデルとの推論が実証され、さまざまなシナリオで指定された主題の生成された画像を紹介します。 最後に、微調整されたモデルを使用したリファイナーの使用が検討されます。 長さの制約により、この詳細なセクションはここで大幅に凝縮されています。 完全なコードと説明については、オリジナルを参照してください。
結論
このチュートリアルは、SDXLとDreamBoothの包括的な概要を提供し、ライブラリとAutoTrain Advancedでの能力と使いやすさを紹介します。 微調整プロセスは、パーソナライズされた画像生成の力を示しており、さらなる探索のための成功と領域の両方を強調しています(精製業者の微調整モデルとの相互作用など)。 チュートリアルは、AIの分野でさらに学習するための推奨事項で終了します。
以上がドリームブースとロラを使用した安定した拡散XLを微調整しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。