ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで-AI-php.cn

ホームページ

テクノロジー周辺機器

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 06:16 PM

開発するコード

ChatGPT が世に出てから間もなく、ControlNet の出現により、英語と中国語のインターネット上で多くの開発者と一般ユーザーが急速に獲得しました。一部のユーザーは、ControlNet の出現が AI 創造の時代をもたらしたとさえ宣伝しました。直立歩行です。同時期の ControlNet、T2I-Adapter、Composer、LoRA トレーニング技術を含め、制御可能な世代は、AI 創造の最後の高い壁であると言っても過言ではなく、予見可能な時間内にさらなるブレークスルーをもたらす可能性が非常に高いです。したがって、ユーザーの作成コストが大幅に削減され、作成のプレイアビリティが向上します。 ControlNet がオープンソースになってからわずか 2 週間で、公式のスター数は 10,000 を超え、この人気は間違いなく前例のないものです。

同時に、オープンソースコミュニティもユーザーの敷居を大幅に下げました。たとえば、Hugging Face プラットフォームは、基本的なモデルの重みと一般的なモデルトレーニングフレームワークのディフューザー、安定したモデルを提供します。 diffusion-webui 完全なデモプラットフォームが開発され、Civitai は多数の様式化された LoRA ウェイトを提供しました。

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで

Webui が現在最も人気がありますが、このツールは、最近発表されたさまざまな生成モデルを迅速にサポートし、ユーザーが設定できる多くのオプションをサポートしています。フロントエンドインターフェイスの使いやすさに重点を置いているため、その背後にあるコード構造は実際には非常に複雑で、開発者にとって十分に使いやすいものではありません。たとえば、webui は複数のタイプの読み込みと推論をサポートしていますが、異なるフレームワークでの変換をサポートしたり、モデルの柔軟なトレーニングをサポートしたりすることはできません。コミュニティでの議論の中で、私たちは既存のオープンソースコードではまだ解決されていない多くの問題点を発見しました。

まず、コードフレームワークは互換性がありません. ControlNet や T2I-Adapter など、現在普及しているモデルは互換性がありません主流の Stable Diffusion トレーニングライブラリとのディフューザーには互換性がないため、ControlNet の事前トレーニング済みモデルをディフューザーフレームワークで直接使用することはできません。

2 番目に、モデルの読み込みは制限されています現在、モデルは .bin、.ckpt、.pth などのさまざまな形式で保存されています。、.satetensors など、webui に加えて、ディフューザーフレームワークは現在、これらのモデル形式のサポートが限られています。ほとんどの LoRA モデルが主にセーフテンソルに保存されていることを考慮すると、ユーザーがベースでトレーニングされた既存のモデルに LoRA モデルを直接ロードすることは困難です。ディフューザーフレームワークについて。

3 番目、基本モデルは制限されています現在、ControlNet と T2I-Adapter は Stable-Diffusion-1.5 に基づいてトレーニングされており、 SD1.5 でのモデルの重みのみがオープンソース化されている特定のシナリオを考慮すると、anything-v4 や ChilloutMix などの高品質なアニメーションモデルがすでに存在している制御可能な情報が導入されたとしても、最終的に生成される結果は UNet の機能によって制限されているSD1.5では。

最後に、モデルトレーニングには制限があります. 現在、LoRA はスタイル転送と特定の画像 IP の維持 1. ただし、ディフューザーフレームワークは現在、UNet の LoRA 埋め込みのみをサポートしており、テキストエンコーダーの埋め込みをサポートできないため、LoRA トレーニングが制限されます。

オープンソースコミュニティと議論した結果、ディフューザーフレームワークが一般的なコードライブラリとして、最近発売された世代モデルにも同時に適応する予定であることがわかりました。多くの基盤となるインターフェイスの書き換えが必要ですが、更新にはまだ時間がかかります。この目的を達成するために、私たちは上記の実際の問題から出発し、開発者がより簡単に開発できるよう、各問題に対して独自に開発したソリューションを率先して提案しました。

LoRA、ControlNet、T2I アダプターからディフューザーまでの完全な適応ソリューション

##ディフューザー用 LoRA

このソリューションは、ディフューザーフレームワーク、つまりディフューザーのトレーニングに基づいて保存されたモデルに、LoRA ウェイトをさまざまな形式で柔軟に埋め込むことです。通常、LoRA のトレーニングではベースモデルがフリーズされるため、スタイルまたは IP 条件制約としてプラグイン可能なモジュールとして既存のモデルに簡単に埋め込むことができます。 LoRA 自体は一般的な学習手法であり、その基本原理は、低ランク分解によりモジュールのパラメータ数を大幅に削減できることです。現在、画像生成では、一般的に、画像生成において、モジュールに依存しないプラグイン可能なモジュールを学習するために使用されます。ベースモデル。実際の使用方法は、それを残差の形式でベースモデルの出力とマージすることです。

1 つ目は LoRA ウェイトの埋め込みですが、現在 Civitai プラットフォームで提供されるウェイトは主に ckpt 形式またはセーフテンサー形式で保存されており、次の 2 つの状況に分けられます。

(1) フルモデル (ベースモデル LoRA モジュール)

フルモデルがセーフテンサー形式の場合、次の方法で変換できます。次のディフューザースクリプト

python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.safetensors--dump_path save_dir --from_safetensors

ログイン後にコピー

完全なモデルが ckpt 形式の場合は、次のディフューザースクリプトを使用して変換できます

python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.ckpt--dump_path save_dir

ログイン後にコピー

変換後完了したら、ディフューザーの API を使用してモデルを直接ロードできます。

from diffusers import StableDiffusionPipeline
pipeline = StableDiffusionPipeline.from_pretrained (save_dir,torch_dtype=torch.float32)

ログイン後にコピー

(2) LoRA のみ (LoRA モジュールのみが含まれます)

現在、ディフューザーは正式に LoRA ウェイトのロードのみをサポートできません。オープンソースプラットフォームでは、LoRA ウェイトは基本的にこの形式で保存されます。基本的に、これにより LoRA 重みのキーと値の再マッピングが完了し、それがディフューザーモデルに適応されます。このため、私たちはこの機能を独自にサポートし、変換スクリプトを提供しています。

pipeline = StableDiffusionPipeline.from_pretrained (model_id,torch_dtype=torch.float32)
model_path = "onePieceWanoSagaStyle_v2Offset.safetensors"
state_dict = load_file (model_path)

ログイン後にコピー

モデルをディフューザー形式で指定し、LoRA ウェイトをセーフテンサー形式で保存するだけです。変換例を示します。

# the default mergering ratio is 0.75, you can manually set it 
python convert_lora_safetensor_to_diffusers.py

ログイン後にコピー

さらに、LoRA 自体は軽量であるため、小さなデータでのトレーニングを迅速に完了でき、他のネットワークに埋め込むことができます。既存の LoRA ウェイトに限定されないように、ディフューザーフレームワークで LoRA のマルチモジュール (UNet テキストエンコーダー) トレーニングをサポートし、公式コードベース (https://github.com/huggingface/) で PR を提出しました。 diffusers/pull/ 2479)、ColossalAI での LoRA のトレーニングをサポートします。

コードはオープンソースです: https://github.com/haofanwang/Lora-for-Diffusers

##ディフューザー用の ControlNet

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで

##このソリューションは、ディフューザーフレームワークでの ControlNet の使用をサポートします。。オープンソースコミュニティのいくつかの試みに基づいて、ControlNet Anything-V3 の完全なユースケースを提供し、元の SD1.5 から Anything-v3 モデルへのベースモデルの置き換えをサポートします。これにより、ControlNet のアニメーション生成機能が向上します。。

さらに、ControlNet Inpainting もサポートし、ディフューザーに適合したパイプラインを提供します。

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで

および複数条件制御用の Multi-ControlNet。

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで

コードはオープンソースです: https://github.com/haofanwang/ControlNet-for -ディフューザー

T2I-ディフューザー用アダプター

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで

#ControlNet と同様に、オープンソース T2I アダプターのディフューザーへの適応も同時にサポートしています。

コードはオープンソースです: https://github.com/haofanwang/T2I-Adapter-for-Diffusers

現在、上記の 3 つの適応ソリューションはコミュニティにオープンソース化されており、それぞれ ControlNet と T2I-Adapter で正式に認められており、stable-diffusion-webui-colab の作者からも感謝を受けています。。私たちはディフューザー関係者との協議を続けており、近い将来、上記のソリューションの公式コードベースへの統合を完了する予定です。事前に当社の作品を試していただくことも可能です。ご質問がございましたら、直接問題を提起していただければ、できるだけ早く返信させていただきます。

以上がディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7522

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

おすすめのAI支援プログラミングツール4選 Apr 22, 2024 pm 05:34 PM

この AI 支援プログラミングツールは、急速な AI 開発のこの段階において、多数の有用な AI 支援プログラミングツールを発掘しました。 AI 支援プログラミングツールは、開発効率を向上させ、コードの品質を向上させ、バグ率を減らすことができます。これらは、現代のソフトウェア開発プロセスにおける重要なアシスタントです。今日は Dayao が 4 つの AI 支援プログラミングツールを紹介します (すべて C# 言語をサポートしています)。皆さんのお役に立てれば幸いです。 https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot は、より少ない労力でより迅速にコードを作成できるようにする AI コーディングアシスタントであり、問題解決とコラボレーションにより集中できるようになります。ギット

あらゆるデバイス上の GE ユニバーサルリモートコードプログラム Mar 02, 2024 pm 01:58 PM

デバイスをリモートでプログラムする必要がある場合は、この記事が役に立ちます。あらゆるデバイスをプログラミングするためのトップ GE ユニバーサルリモートコードを共有します。 GE リモコンとは何ですか? GEUniversalRemote は、スマート TV、LG、Vizio、Sony、Blu-ray、DVD、DVR、Roku、AppleTV、ストリーミングメディアプレーヤーなどの複数のデバイスを制御するために使用できるリモコンです。 GEUniversal リモコンには、さまざまな機能を備えたさまざまなモデルがあります。 GEUniversalRemote は最大 4 台のデバイスを制御できます。あらゆるデバイスでプログラムできるトップのユニバーサルリモートコード GE リモコンには、さまざまなデバイスで動作できるようにするコードのセットが付属しています。してもいいです

どのAIプログラマーが一番優れているでしょうか? Devin、Tongyi Lingma、SWE エージェントの可能性を探る Apr 07, 2024 am 09:10 AM

世界初の AI プログラマー Devin の誕生から 1 か月も経たない 2022 年 3 月 3 日、プリンストン大学の NLP チームはオープンソース AI プログラマー SWE-agent を開発しました。 GPT-4 モデルを利用して、GitHub リポジトリの問題を自動的に解決します。 SWE ベンチテストセットにおける SWE エージェントのパフォーマンスは Devin と同様で、平均 93 秒かかり、問題の 12.29% を解決しました。専用端末と対話することで、SWE エージェントはファイルの内容を開いて検索したり、自動構文チェックを使用したり、特定の行を編集したり、テストを作成して実行したりできます。 (注: 上記の内容は元の内容を若干調整したものですが、原文の重要な情報は保持されており、指定された文字数制限を超えていません。) SWE-A

Go 言語を使用してモバイルアプリケーションを開発する方法を学ぶ Mar 28, 2024 pm 10:00 PM

Go 言語開発モバイルアプリケーションチュートリアルモバイルアプリケーション市場が活況を続ける中、ますます多くの開発者が Go 言語を使用してモバイルアプリケーションを開発する方法を検討し始めています。シンプルで効率的なプログラミング言語として、Go 言語はモバイルアプリケーション開発でも大きな可能性を示しています。この記事では、Go 言語を使用してモバイルアプリケーションを開発する方法を詳しく紹介し、読者がすぐに始めて独自のモバイルアプリケーションの開発を開始できるように、具体的なコード例を添付します。 1. 準備始める前に、開発環境とツールを準備する必要があります。頭

Copilot を使用してコードを生成する方法 Mar 23, 2024 am 10:41 AM

プログラマーとして、私はコーディング体験を簡素化するツールに興奮しています。人工知能ツールの助けを借りて、デモコードを生成し、要件に応じて必要な変更を加えることができます。 Visual Studio Code に新しく導入された Copilot ツールを使用すると、自然言語によるチャット対話を備えた AI 生成コードを作成できます。機能を説明することで、既存のコードの意味をより深く理解できます。 Copilot を使用してコードを生成するにはどうすればよいですか?始めるには、まず最新の PowerPlatformTools 拡張機能を入手する必要があります。これを実現するには、拡張機能のページに移動し、「PowerPlatformTool」を検索して、[インストール] ボタンをクリックする必要があります。

Android 開発に最適な Linux ディストリビューションはどれですか? Mar 14, 2024 pm 12:30 PM

Android 開発は多忙で刺激的な仕事であり、開発に適した Linux ディストリビューションを選択することが特に重要です。数多くある Linux ディストリビューションの中で、Android 開発に最適なのはどれでしょうか?この記事では、この問題をいくつかの側面から検討し、具体的なコード例を示します。まず、現在人気のある Linux ディストリビューション (Ubuntu、Fedora、Debian、CentOS など) をいくつか見てみましょう。これらにはそれぞれ独自の利点と特徴があります。

Linux の「.a」ファイルを作成して実行する Mar 20, 2024 pm 04:46 PM

Linux オペレーティングシステムでファイルを操作するには、開発者がファイル、コード、プログラム、スクリプトなどを効率的に作成および実行できるようにするさまざまなコマンドとテクニックを使用する必要があります。 Linux 環境では、拡張子「.a」を持つファイルは静的ライブラリとして非常に重要です。これらのライブラリはソフトウェア開発において重要な役割を果たし、開発者が複数のプログラム間で共通の機能を効率的に管理および共有できるようにします。 Linux 環境で効果的なソフトウェア開発を行うには、「.a」ファイルの作成方法と実行方法を理解することが重要です。この記事では、Linux の「.a」ファイルのインストールと構成方法を包括的に紹介します。Linux の「.a」ファイルの定義、目的、構造、作成および実行方法について見てみましょう。 Lとは何ですか

清華大学と Zhipu AI オープンソース GLM-4: 自然言語処理に新たな革命を起こす Jun 12, 2024 pm 08:38 PM

2023 年 3 月 14 日に ChatGLM-6B が発売されて以来、GLM シリーズモデルは幅広い注目と認知を得てきました。特にChatGLM3-6Bがオープンソース化されてからは、Zhipu AIが投入する第4世代モデルに対する開発者の期待が高まっている。 GLM-4-9B のリリースにより、この期待はついに完全に満たされました。 GLM-4-9B の誕生小型モデル (10B 以下) により強力な機能を提供するために、GLM 技術チームはこの新しい第 4 世代 GLM シリーズオープンソースモデル、GLM-4-9B をほぼ半年の期間を経て発売しました。探検。このモデルは、精度を確保しながらモデルサイズを大幅に圧縮し、推論速度の高速化と効率化を実現しています。 GLM 技術チームの調査はまだ終わっていない

See all articles

ディフューザー フレームワークを適応させるための完全なチュートリアル セットがここにあります。 T2I アダプターから人気の ControlNet まで

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

ディフューザーフレームワークを適応させるための完全なチュートリアルセットがここにあります。 T2I アダプターから人気の ControlNet まで