ディフューザー フレームワークを適応させるための完全なチュートリアル セットがここにあります。 T2I アダプターから人気の ControlNet まで
ChatGPT が世に出てから間もなく、ControlNet の出現により、英語と中国語のインターネット上で多くの開発者と一般ユーザーが急速に獲得しました。一部のユーザーは、ControlNet の出現が AI 創造の時代をもたらしたとさえ宣伝しました。直立歩行です。同時期の ControlNet、T2I-Adapter、Composer、LoRA トレーニング技術を含め、制御可能な世代は、AI 創造の最後の高い壁であると言っても過言ではなく、予見可能な時間内にさらなるブレークスルーをもたらす可能性が非常に高いです。したがって、ユーザーの作成コストが大幅に削減され、作成のプレイアビリティが向上します。 ControlNet がオープンソースになってからわずか 2 週間で、公式のスター数は 10,000 を超え、この人気は間違いなく前例のないものです。
同時に、オープンソース コミュニティもユーザーの敷居を大幅に下げました。たとえば、Hugging Face プラットフォームは、基本的なモデルの重みと一般的なモデル トレーニング フレームワークのディフューザー、安定したモデルを提供します。 diffusion-webui 完全なデモ プラットフォームが開発され、Civitai は多数の様式化された LoRA ウェイトを提供しました。
Webui が現在最も人気がありますが、このツールは、最近発表されたさまざまな生成モデルを迅速にサポートし、ユーザーが設定できる多くのオプションをサポートしています。フロントエンド インターフェイスの使いやすさに重点を置いているため、その背後にあるコード構造は実際には非常に複雑で、開発者にとって十分に使いやすいものではありません。たとえば、webui は複数のタイプの読み込みと推論をサポートしていますが、異なるフレームワークでの変換をサポートしたり、モデルの柔軟なトレーニングをサポートしたりすることはできません。コミュニティでの議論の中で、私たちは既存のオープンソース コードではまだ解決されていない多くの問題点を発見しました。
まず、コード フレームワークは互換性がありません. ControlNet や T2I-Adapter など、現在普及しているモデルは互換性がありません主流の Stable Diffusion トレーニング ライブラリとのディフューザーには互換性がないため、ControlNet の事前トレーニング済みモデルをディフューザー フレームワークで直接使用することはできません。
2 番目に、モデルの読み込みは制限されています 現在、モデルは .bin、.ckpt、.pth などのさまざまな形式で保存されています。 、.satetensors など、webui に加えて、ディフューザー フレームワークは現在、これらのモデル形式のサポートが限られています。ほとんどの LoRA モデルが主にセーフテンソルに保存されていることを考慮すると、ユーザーがベースでトレーニングされた既存のモデルに LoRA モデルを直接ロードすることは困難です。ディフューザーフレームワークについて。
3 番目、基本モデルは制限されています 現在、ControlNet と T2I-Adapter は Stable-Diffusion-1.5 に基づいてトレーニングされており、 SD1.5 でのモデルの重みのみがオープンソース化されている 特定のシナリオを考慮すると、anything-v4 や ChilloutMix などの高品質なアニメーション モデルがすでに存在している 制御可能な情報が導入されたとしても、最終的に生成される結果は UNet の機能によって制限されているSD1.5では。
最後に、モデル トレーニングには制限があります. 現在、LoRA はスタイル転送と特定の画像 IP の維持 1. ただし、ディフューザー フレームワークは現在、UNet の LoRA 埋め込みのみをサポートしており、テキスト エンコーダーの埋め込みをサポートできないため、LoRA トレーニングが制限されます。
オープンソース コミュニティと議論した結果、ディフューザー フレームワークが一般的なコード ライブラリとして、最近発売された世代モデルにも同時に適応する予定であることがわかりました。多くの基盤となるインターフェイスの書き換えが必要ですが、更新にはまだ時間がかかります。この目的を達成するために、私たちは上記の実際の問題から出発し、開発者がより簡単に開発できるよう、各問題に対して独自に開発したソリューションを率先して提案しました。
LoRA、ControlNet、T2I アダプターからディフューザーまでの完全な適応ソリューション##ディフューザー用 LoRA
このソリューションは、ディフューザー フレームワーク、つまりディフューザーのトレーニングに基づいて保存されたモデルに、LoRA ウェイトをさまざまな形式で柔軟に埋め込むことです。通常、LoRA のトレーニングではベース モデルがフリーズされるため、スタイルまたは IP 条件制約としてプラグイン可能なモジュールとして既存のモデルに簡単に埋め込むことができます。 LoRA 自体は一般的な学習手法であり、その基本原理は、低ランク分解によりモジュールのパラメータ数を大幅に削減できることです。現在、画像生成では、一般的に、画像生成において、モジュールに依存しないプラグイン可能なモジュールを学習するために使用されます。ベース モデル。実際の使用方法は、それを残差の形式でベース モデルの出力とマージすることです。1 つ目は LoRA ウェイトの埋め込みですが、現在 Civitai プラットフォームで提供されるウェイトは主に ckpt 形式またはセーフテンサー形式で保存されており、次の 2 つの状況に分けられます。 (1) フルモデル (ベースモデル LoRA モジュール) フルモデルがセーフテンサー形式の場合、次の方法で変換できます。次のディフューザー スクリプト 完全なモデルが ckpt 形式の場合は、次のディフューザー スクリプトを使用して変換できます 変換後完了したら、ディフューザーの API を使用してモデルを直接ロードできます。 (2) LoRA のみ (LoRA モジュールのみが含まれます) 現在、ディフューザーは正式に LoRA ウェイトのロードのみをサポートできません。オープンソース プラットフォームでは、LoRA ウェイトは基本的にこの形式で保存されます。基本的に、これにより LoRA 重みのキーと値の再マッピングが完了し、それがディフューザー モデルに適応されます。このため、私たちはこの機能を独自にサポートし、変換スクリプトを提供しています。 モデルをディフューザー形式で指定し、LoRA ウェイトをセーフテンサー形式で保存するだけです。変換例を示します。 さらに、LoRA 自体は軽量であるため、小さなデータでのトレーニングを迅速に完了でき、他のネットワークに埋め込むことができます。既存の LoRA ウェイトに限定されないように、ディフューザー フレームワークで LoRA のマルチモジュール (UNet テキスト エンコーダー) トレーニングをサポートし、公式コード ベース (https://github.com/huggingface/) で PR を提出しました。 diffusers/pull/ 2479)、ColossalAI での LoRA のトレーニングをサポートします。 コードはオープンソースです: https://github.com/haofanwang/Lora-for-Diffusers ##ディフューザー用の ControlNetpython ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.safetensors--dump_path save_dir --from_safetensors
python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.ckpt--dump_path save_dir
from diffusers import StableDiffusionPipeline
pipeline = StableDiffusionPipeline.from_pretrained (save_dir,torch_dtype=torch.float32)
pipeline = StableDiffusionPipeline.from_pretrained (model_id,torch_dtype=torch.float32)
model_path = "onePieceWanoSagaStyle_v2Offset.safetensors"
state_dict = load_file (model_path)
# the default mergering ratio is 0.75, you can manually set it
python convert_lora_safetensor_to_diffusers.py
さらに、ControlNet Inpainting もサポートし、ディフューザーに適合したパイプラインを提供します。
コードはオープンソースです: https://github.com/haofanwang/ControlNet-for -ディフューザー
T2I-ディフューザー用アダプター
コードはオープンソースです: https://github.com/haofanwang/T2I-Adapter-for-Diffusers
現在、上記の 3 つの適応ソリューションはコミュニティにオープンソース化されており、それぞれ ControlNet と T2I-Adapter で正式に認められており、stable-diffusion-webui-colab の作者からも感謝を受けています。 。私たちはディフューザー関係者との協議を続けており、近い将来、上記のソリューションの公式コードベースへの統合を完了する予定です。事前に当社の作品を試していただくことも可能です。ご質問がございましたら、直接問題を提起していただければ、できるだけ早く返信させていただきます。
以上がディフューザー フレームワークを適応させるための完全なチュートリアル セットがここにあります。 T2I アダプターから人気の ControlNet までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









この AI 支援プログラミング ツールは、急速な AI 開発のこの段階において、多数の有用な AI 支援プログラミング ツールを発掘しました。 AI 支援プログラミング ツールは、開発効率を向上させ、コードの品質を向上させ、バグ率を減らすことができます。これらは、現代のソフトウェア開発プロセスにおける重要なアシスタントです。今日は Dayao が 4 つの AI 支援プログラミング ツールを紹介します (すべて C# 言語をサポートしています)。皆さんのお役に立てれば幸いです。 https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot は、より少ない労力でより迅速にコードを作成できるようにする AI コーディング アシスタントであり、問題解決とコラボレーションにより集中できるようになります。ギット

デバイスをリモートでプログラムする必要がある場合は、この記事が役に立ちます。あらゆるデバイスをプログラミングするためのトップ GE ユニバーサル リモート コードを共有します。 GE リモコンとは何ですか? GEUniversalRemote は、スマート TV、LG、Vizio、Sony、Blu-ray、DVD、DVR、Roku、AppleTV、ストリーミング メディア プレーヤーなどの複数のデバイスを制御するために使用できるリモコンです。 GEUniversal リモコンには、さまざまな機能を備えたさまざまなモデルがあります。 GEUniversalRemote は最大 4 台のデバイスを制御できます。あらゆるデバイスでプログラムできるトップのユニバーサル リモート コード GE リモコンには、さまざまなデバイスで動作できるようにするコードのセットが付属しています。してもいいです

世界初の AI プログラマー Devin の誕生から 1 か月も経たない 2022 年 3 月 3 日、プリンストン大学の NLP チームはオープンソース AI プログラマー SWE-agent を開発しました。 GPT-4 モデルを利用して、GitHub リポジトリの問題を自動的に解決します。 SWE ベンチ テスト セットにおける SWE エージェントのパフォーマンスは Devin と同様で、平均 93 秒かかり、問題の 12.29% を解決しました。専用端末と対話することで、SWE エージェントはファイルの内容を開いて検索したり、自動構文チェックを使用したり、特定の行を編集したり、テストを作成して実行したりできます。 (注: 上記の内容は元の内容を若干調整したものですが、原文の重要な情報は保持されており、指定された文字数制限を超えていません。) SWE-A

Go 言語開発モバイル アプリケーション チュートリアル モバイル アプリケーション市場が活況を続ける中、ますます多くの開発者が Go 言語を使用してモバイル アプリケーションを開発する方法を検討し始めています。シンプルで効率的なプログラミング言語として、Go 言語はモバイル アプリケーション開発でも大きな可能性を示しています。この記事では、Go 言語を使用してモバイル アプリケーションを開発する方法を詳しく紹介し、読者がすぐに始めて独自のモバイル アプリケーションの開発を開始できるように、具体的なコード例を添付します。 1. 準備 始める前に、開発環境とツールを準備する必要があります。頭

プログラマーとして、私はコーディング体験を簡素化するツールに興奮しています。人工知能ツールの助けを借りて、デモ コードを生成し、要件に応じて必要な変更を加えることができます。 Visual Studio Code に新しく導入された Copilot ツールを使用すると、自然言語によるチャット対話を備えた AI 生成コードを作成できます。機能を説明することで、既存のコードの意味をより深く理解できます。 Copilot を使用してコードを生成するにはどうすればよいですか?始めるには、まず最新の PowerPlatformTools 拡張機能を入手する必要があります。これを実現するには、拡張機能のページに移動し、「PowerPlatformTool」を検索して、[インストール] ボタンをクリックする必要があります。

Android 開発は多忙で刺激的な仕事であり、開発に適した Linux ディストリビューションを選択することが特に重要です。数多くある Linux ディストリビューションの中で、Android 開発に最適なのはどれでしょうか?この記事では、この問題をいくつかの側面から検討し、具体的なコード例を示します。まず、現在人気のある Linux ディストリビューション (Ubuntu、Fedora、Debian、CentOS など) をいくつか見てみましょう。これらにはそれぞれ独自の利点と特徴があります。

Linux オペレーティング システムでファイルを操作するには、開発者がファイル、コード、プログラム、スクリプトなどを効率的に作成および実行できるようにするさまざまなコマンドとテクニックを使用する必要があります。 Linux 環境では、拡張子「.a」を持つファイルは静的ライブラリとして非常に重要です。これらのライブラリはソフトウェア開発において重要な役割を果たし、開発者が複数のプログラム間で共通の機能を効率的に管理および共有できるようにします。 Linux 環境で効果的なソフトウェア開発を行うには、「.a」ファイルの作成方法と実行方法を理解することが重要です。この記事では、Linux の「.a」ファイルのインストールと構成方法を包括的に紹介します。Linux の「.a」ファイルの定義、目的、構造、作成および実行方法について見てみましょう。 Lとは何ですか

2023 年 3 月 14 日に ChatGLM-6B が発売されて以来、GLM シリーズ モデルは幅広い注目と認知を得てきました。特にChatGLM3-6Bがオープンソース化されてからは、Zhipu AIが投入する第4世代モデルに対する開発者の期待が高まっている。 GLM-4-9B のリリースにより、この期待はついに完全に満たされました。 GLM-4-9B の誕生 小型モデル (10B 以下) により強力な機能を提供するために、GLM 技術チームはこの新しい第 4 世代 GLM シリーズ オープン ソース モデル、GLM-4-9B をほぼ半年の期間を経て発売しました。探検。このモデルは、精度を確保しながらモデルサイズを大幅に圧縮し、推論速度の高速化と効率化を実現しています。 GLM 技術チームの調査はまだ終わっていない
