6 月 21 日、Tencent Hunyuan Wenshengtu Large Model (以下、Hunyuan DiT モデル) は、トレーニング コードを完全にオープンソース化し、同時に Hunyuan DiT LoRA 小規模データセット トレーニング ソリューションをオープンソース化することを発表しました。制御可能なプラグイン ControlNet。
これは、世界中の企業や個人の開発者やクリエイターが、Hunyuan DiT トレーニング コードに基づいて微調整して、よりパーソナライズされた専用モデルを作成し、より自由に作成できることを意味します。 DiT のコード、これに基づいて独自のアプリケーションを構築し、テクノロジーの迅速な反復と革新を促進します。
中国語ネイティブ モデルとして、ユーザーは Hunyuan DiT のトレーニング コードを微調整するときに、データを英語に翻訳することなく、中国語のデータとラベルを直接使用できます。
以前、Tencent Hunyuanwenshengtu の大型モデルは、包括的なアップグレードとオープンソースを発表しました。Hugging Face プラットフォームと Github でリリースされており、企業および個人の開発者は無料で商用利用できます。これは業界初の中国ネイティブの DiT アーキテクチャ ヴィンセント グラフ オープン ソース モデルであり、中国語と英語のバイリンガル入力と理解をサポートします。このモデルはオープンソースになってからまだ 1 か月しか経っていませんが、Github スターの数は 2.4,000 に達しており、オープンソース コミュニティで最も人気のある DiT モデルの 1 つとなっています。
Hunyuan DiT Github プロジェクト ページ
トレーニング コードはオープンソースですが、LoRA 小規模データセット トレーニング ソリューションと制御可能なプラグイン ControlNet のリリースにより、Hunyuan DiT モデルのオープンソース エコロジーがより想像力豊かなものになります。 。
LoRA モデル (正式名: Low-Rank Adaptation of Large Language Models) は、大規模言語モデルを微調整するために使用されるテクノロジーです。ヴィンセント グラフ モデルでは、LoRA がプラグインとして使用され、ユーザーは元のモデルを変更したりモデル サイズを大きくしたりすることなく、少量のデータを使用して特定の絵画スタイル、IP、またはキャラクター特性を備えたモデルをトレーニングできます。
LoRA テクノロジーは文生図のオープンソース分野で非常に人気があり、多くのクリエイターがこのテクノロジーを使用してさまざまなモデルを作成しています。たとえば、複数の個人写真を使用して特定の人物専用の高精度の写真スタジオを生成しています。ブラインドボックス、クレイ、その他のスタイルのモデルを制作します。
AI画像コミュニティLiblibAIのLoRAモデル
今回Hunyuan DiTがリリースした専用LoRAプラグインを使用すると、開発者は少なくとも1つの画像を使用して専用モデルを作成できます。たとえば、4 つの青と白の磁器の写真と対応するプロンプト ワードをインポートすると、モデルのトレーニングが完了し、「青と白の磁器」生成モデルが作成されます。ユーザーは簡単なプロンプト ワードを入力して、目的の青と白の磁器を生成します。画像。
トレーニングデータの一部:
トレーニングされたモデルの推論結果の例:
Hunyuan DiT LoRAによってトレーニングされた青と白の磁器生成モデルを使用
別のプラグインControlNetが起動されました今回は、ヴィンセント画像の分野で使用される制御可能な生成アルゴリズムです。これにより、ユーザーは条件を追加することで画像生成をより適切に制御できます。
現在、Tencent Hunyuan は、画像のエッジ (キャニー)、奥行き (デプス)、人間の姿勢 (ポーズ) などの条件を抽出して適用できる 3 つの最初のリリースの ControlNet モデルを提供しており、開発者はそれらを推論に直接使用できます。 3 つの ControlNet プラグインは、線画によるフルカラー画像の生成、同じ奥行き構造の画像の生成、同じ姿勢の人物の生成を実現できます。同時に、Hunyuan DiT は ControlNet トレーニング ソリューションもオープンソース化したので、開発者や作成者はカスタマイズされた ControlNet モデルをトレーニングできます。
Tencent Hunyuan DiT によって発売された 3 つの ControlNet プラグインの効果のデモンストレーション
Hunyuan DiT モデルはオープンソース化されて以来、多くの開発者からサポートとフィードバックを受けており、Tencent Hunyuan チームも継続的に開発を行っています。 Hunyuan DiT モデルに基づいてモデルを改善および最適化する Yuan DiT のオープンソース コンポーネントは、業界と連携して次世代のビジュアル世代のオープンソース エコシステムを構築します。今月初め、Hunyuan DiT は推論効率をさらに向上させ、グラフ生成時間を 75% 短縮できる独自の高速化ライブラリをリリースしました。同時に、モデルの使いやすさが大幅に向上しました。ユーザーは、ComfyUI のグラフィカル インターフェイスに基づいて Hunyuan DiT を使用したり、Hugging Face Diffusers の汎用モデル ライブラリを使用して、わずか 3 行で Hunyuan DiT モデルを呼び出すことができます。元のコード ライブラリをダウンロードすることなく、コードをダウンロードできます。
Tencent の Hunyuanwenshengtu の機能は、マテリアルの作成、製品の合成、ゲームのグラフィックスなど、多くのビジネスやシナリオで広く使用されていることがわかります。今年の初めに、Tencent Advertising は、Tencent の Hunyuan モデルに基づくワンストップ AI 広告クリエイティブ プラットフォームである Tencent Advertising Miaosi をリリースしました。 「CCTVニュース」や「新華日報」など20以上のメディアもニュースコンテンツ制作にテンセント・フンユアン・ウェンシェントゥを利用している。
Tencent Hunyuan オープンソース Wensheng Diagram Large Model
公式ウェブサイト: https://dit.hunyuan.tencent.com/
コード: https://github.com/Tencent/HunyuanDiT
モデル: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文: https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
データ作成プロセス: https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md
以上がTencent、Hunyuan Wensheng グラフ大規模モデルのソース トレーニング コードを公開し、LoRA および ControlNet プラグインをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。