Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース-AI-php.cn

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2024-06-21 20:44:10

オリジナル

1218 人が閲覧しました

6 月 21 日、Tencent Hunyuan Wenshengtu Large Model (以下、Hunyuan DiT モデル) は、トレーニングコードを完全にオープンソース化し、同時に Hunyuan DiT LoRA 小規模データセットトレーニングソリューションをオープンソース化することを発表しました。制御可能なプラグイン ControlNet。

これは、世界中の企業や個人の開発者やクリエイターが、Hunyuan DiT トレーニングコードに基づいて微調整して、よりパーソナライズされた専用モデルを作成し、より自由に作成できることを意味します。 DiT のコード、これに基づいて独自のアプリケーションを構築し、テクノロジーの迅速な反復と革新を促進します。

中国語ネイティブモデルとして、ユーザーは Hunyuan DiT のトレーニングコードを微調整するときに、データを英語に翻訳することなく、中国語のデータとラベルを直接使用できます。

以前、Tencent Hunyuanwenshengtu の大型モデルは、包括的なアップグレードとオープンソースを発表しました。Hugging Face プラットフォームと Github でリリースされており、企業および個人の開発者は無料で商用利用できます。これは業界初の中国ネイティブの DiT アーキテクチャヴィンセントグラフオープンソースモデルであり、中国語と英語のバイリンガル入力と理解をサポートします。このモデルはオープンソースになってからまだ 1 か月しか経っていませんが、Github スターの数は 2.4,000 に達しており、オープンソースコミュニティで最も人気のある DiT モデルの 1 つとなっています。

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース Hunyuan DiT Github プロジェクトページ

トレーニングコードはオープンソースですが、LoRA 小規模データセットトレーニングソリューションと制御可能なプラグイン ControlNet のリリースにより、Hunyuan DiT モデルのオープンソースエコロジーがより想像力豊かなものになります。。

LoRA モデル (正式名: Low-Rank Adaptation of Large Language Models) は、大規模言語モデルを微調整するために使用されるテクノロジーです。ヴィンセントグラフモデルでは、LoRA がプラグインとして使用され、ユーザーは元のモデルを変更したりモデルサイズを大きくしたりすることなく、少量のデータを使用して特定の絵画スタイル、IP、またはキャラクター特性を備えたモデルをトレーニングできます。

LoRA テクノロジーは文生図のオープンソース分野で非常に人気があり、多くのクリエイターがこのテクノロジーを使用してさまざまなモデルを作成しています。たとえば、複数の個人写真を使用して特定の人物専用の高精度の写真スタジオを生成しています。ブラインドボックス、クレイ、その他のスタイルのモデルを制作します。

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース

AI画像コミュニティLiblibAIのLoRAモデル

今回Hunyuan DiTがリリースした専用LoRAプラグインを使用すると、開発者は少なくとも1つの画像を使用して専用モデルを作成できます。たとえば、4 つの青と白の磁器の写真と対応するプロンプトワードをインポートすると、モデルのトレーニングが完了し、「青と白の磁器」生成モデルが作成されます。ユーザーは簡単なプロンプトワードを入力して、目的の青と白の磁器を生成します。画像。

トレーニングデータの一部:

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース

トレーニングされたモデルの推論結果の例:

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース

Hunyuan DiT LoRAによってトレーニングされた青と白の磁器生成モデルを使用

別のプラグインControlNetが起動されました今回は、ヴィンセント画像の分野で使用される制御可能な生成アルゴリズムです。これにより、ユーザーは条件を追加することで画像生成をより適切に制御できます。

現在、Tencent Hunyuan は、画像のエッジ (キャニー)、奥行き (デプス)、人間の姿勢 (ポーズ) などの条件を抽出して適用できる 3 つの最初のリリースの ControlNet モデルを提供しており、開発者はそれらを推論に直接使用できます。 3 つの ControlNet プラグインは、線画によるフルカラー画像の生成、同じ奥行き構造の画像の生成、同じ姿勢の人物の生成を実現できます。同時に、Hunyuan DiT は ControlNet トレーニングソリューションもオープンソース化したので、開発者や作成者はカスタマイズされた ControlNet モデルをトレーニングできます。

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース

Tencent Hunyuan DiT によって発売された 3 つの ControlNet プラグインの効果のデモンストレーション

Hunyuan DiT モデルはオープンソース化されて以来、多くの開発者からサポートとフィードバックを受けており、Tencent Hunyuan チームも継続的に開発を行っています。 Hunyuan DiT モデルに基づいてモデルを改善および最適化する Yuan DiT のオープンソースコンポーネントは、業界と連携して次世代のビジュアル世代のオープンソースエコシステムを構築します。今月初め、Hunyuan DiT は推論効率をさらに向上させ、グラフ生成時間を 75% 短縮できる独自の高速化ライブラリをリリースしました。同時に、モデルの使いやすさが大幅に向上しました。ユーザーは、ComfyUI のグラフィカルインターフェイスに基づいて Hunyuan DiT を使用したり、Hugging Face Diffusers の汎用モデルライブラリを使用して、わずか 3 行で Hunyuan DiT モデルを呼び出すことができます。元のコードライブラリをダウンロードすることなく、コードをダウンロードできます。

Tencent の Hunyuanwenshengtu の機能は、マテリアルの作成、製品の合成、ゲームのグラフィックスなど、多くのビジネスやシナリオで広く使用されていることがわかります。今年の初めに、Tencent Advertising は、Tencent の Hunyuan モデルに基づくワンストップ AI 広告クリエイティブプラットフォームである Tencent Advertising Miaosi をリリースしました。「CCTVニュース」や「新華日報」など20以上のメディアもニュースコンテンツ制作にテンセント・フンユアン・ウェンシェントゥを利用している。

Tencent Hunyuan オープンソース Wensheng Diagram Large Model

公式ウェブサイト: https://dit.hunyuan.tencent.com/

コード: https://github.com/Tencent/HunyuanDiT

モデル: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

論文: https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

データ作成プロセス: https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

以上がTencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Tencent、Hunyuan Wensheng グラフ大規模モデルのソース トレーニング コードを公開し、LoRA および ControlNet プラグインをリリース

Tencent、Hunyuan Wensheng グラフ大規模モデルのソーストレーニングコードを公開し、LoRA および ControlNet プラグインをリリース