Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。-AI-php.cn

2023 年には、大型モデルの発売に向けてアクセルボタンが押され、Vincentian グラフィックスは最もホットなアプリケーションの方向性の 1 つになるでしょう。

Stable Diffusionの誕生以来、文聖図の大型モデルが国内外で続々と登場し、一時は「神の戦い」のような雰囲気が漂っていました。テクノロジーを反復するたびに、モデル生成の効果と速度が急速に向上します。

本日、Tencent Hunyuan Model も最新の進歩を発表しました。Vincentian グラフ機能が正式に開始されました。

#試食してすぐに、Hunyuan Model が広く深い中国の食文化を理解していることがわかりました。ここでは、多くの大きなモデルを困難にする「木に登るアリ」を選択しましたが、Hunyuan は簡単に生成できます。

質問は、現在の文勝図の大型モデルは非常に大きいですが、渾源の大型モデルには他に特別な利点があるのでしょうか?

#公式の紹介によると、アルゴリズムとモデルの点で、現在の Vincentian の大規模モデルには、不十分な意味理解、不合理な画像構造などのいくつかの課題がまだあります。画像の詳細が不十分であり、品質が低いためです。

#Tencent は、長い間、広告シナリオにおける AI 生成画像の研究を開始しており、関連する蓄積は非常に深いものです。この Hunyuan の大規模モデルアップグレードの Wenshengtu 機能は、まさに「セマンティクス、コンテンツ、テクスチャ」の 3 つの問題を解決することを目指しています。

レポートによると、他の大型モデルと比較して、Tencent Hunyuan の Wen Sheng Tu はポートレートやシーンのリアリズムにおいて明らかな利点を持っています。アニメやゲームなどのシーン生成に優れたパフォーマンスを発揮します。

実地テスト: Hunyuan Wensheng Tu、違いは何ですか?

# 「Wen Sheng Tu」で良い仕事をするには、「Wen」を完全に理解することが重要です。

意味理解の観点から、Hunyuan Wenshengグラフモデルは中国語と英語のバイリンガルのきめ細かいモデルを採用し、同時にバイリンガルを実現します。中国語と英語のバイリンガルモデリングに基づいて、詳細を認識し、最適化アルゴリズムを通じて効果を生成するモデルの能力を理解し、改善します。

これ以前は、Stable Diffusion などの人気モデルは中国語をある程度サポートしていましたが、そのコアデータセット LAION-5B は依然として主に西洋化されたコンテンツでした。中国語、食べ物、文化、習慣について十分に理解していない。

渾源文生図モデルはネイティブ中国の文生図モデルであり、ユーザーが入力した漢詩や熟語に関係なく、ユーザーに直接絵画の作成を依頼できます。

コンテンツの合理性の観点から、Hunyuanwenshengtuはアルゴリズムモデルの画像二次元空間位置認識能力を強化し、人間の骨格と人間の手を統合します。構造などの事前情報を生成プロセスに導入することで、生成される画像構造をより合理的にし、AI によって生成される人間の構造や手の不合理な問題を改善します。

画像テクスチャに関しては、Hunyuanwenshengtu は、生成されたテクスチャを改善するためのマルチモデル融合手法に基づいています。最適化後、Hunyuan Wenshengtu のポートレートモデル (髪、シワなど) の効果は 30% 向上し、シーンモデル (植生、波紋など) の効果は 25% 向上しました。

#これら 3 つの側面における技術的利点により、Hunyuan 大型モデル Wenshengtu の製品エクスペリエンスが明らかに向上しました。

#上記の機能を検証するために、この Web サイトではいくつかの質問を設定し、Hunyuan 大型モデルで徹底的なテストを初めて実施しました。

Hunyuan は中国語ネイティブのモデルなので、他の類似製品に比べて当然「古代中国語」を理解しており、まず古代の詩に基づいて描画させます。

私たちは非常に芸術的な古代の詩を選択しました。「酔っているときは、空が水の中にあることを知りません、そして船は澄んだ夢と海の中に満ちています」星は圧倒的です」をテストして、Hunyuan の大型モデルが極端な絵画のような写真を生成できるかどうかを確認します。

Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。

詩「果州の船」の中に、「川の南岸に春風が再び緑に変わり、明るい月はいつ私を照らしてくれるだろうか」という一節があります。 ?」は、数え切れないほどの放浪者のホームシックを書いています。フンユアンの生成により、「春の光」、「水辺」、「明るい月」などのイメージが抽出され、有機的に結合され、見た後は詩的なシーンにいるような気分になります。

次に、興味深い「中華料理の絵画」セッションが始まります。「魚風味の細切り豚肉」に関する古典的なテスト問題を解いてみましょう:

人を夢中にさせる中華料理の絵から、絵を見るだけで食べられる現在のレベルまで、ヴィンセント絵画技術の絶え間ない進化。

業界で認識されている「リアルなポートレート」の問題に対して、Hunyuan がどのように取り組んでいるかを見てみましょう:

そもそもミッドジャーニーが人気になったのは、AI が生成したものではないとは分からない以下のカップルの写真のせいだということはわかっています。

## では、Hunyuan の大規模モデルが「不正行為」を生成する能力を調べてみましょう。使用されるプロンプトは次のとおりです:

#リアリズムについてどう思いますか?私たちの意見では、プロンプトに記載されている詳細で十分です。

これが Tencent が強調していることです。Hunyuan の大規模モデルは、最適化アルゴリズムを通じて細部の認識と生成効果を向上させます。この能力は多くの特定のシーンでのみ反映されます。

たとえば、アニメーションのシーンでは、鹿が森を走って落ち葉が舞い上がり、月がとても明るくて大きく、鳥が飛んでいます。空の雰囲気を醸し出すCG風、サイドビュー」。

子供の頃に見たアニメのシーンに似ていませんか?

さらに、アニメーション作成において、ヴィンセント図の応用可能性は非常に大きくなります。

Hunyuan の大きなモデルに与えたプロンプトは、「3D、アニメスタイル、女の子 1 人、ブロンドの髪、笑顔、ショートヘア、都市の背景を生成」です:

発電効果についてどう思いますか?そのまま壁紙として使用できますか？

#Wenshengtu を支える自社開発テクノロジーとは何ですか? Tencent の Hunyuan 大型モデルが再びアップグレードされ、Vincentian グラフ機能と包括的な実際の測定と分析が衝撃的にリリースされました。

作業者が自分の仕事をうまくやり遂げたい場合は、まず工具を研ぐ必要があります。これは大きなモデルにも当てはまります。

革新的なモデルアルゴリズムに加えて、Tencent Hunyuan の大型モデルは、中国の地元の雰囲気に合わせたこのような文生写真効果を実現できることがわかりました。テキストマッチングデータ、自社開発の機械学習フレームワーク、強力なコンピューティングインフラストラクチャも、高品質の画像と切り離すことができません。

Tencent Hunyuan Large Model は、モデルアルゴリズムから機械学習フレームワーク、AI インフラストラクチャに至るフルリンクの自社開発テクノロジーパスを形成しました。マルチレベルの技術の蓄積とは、大規模なモデルの進化には、実践から始めて実践で改善するという、一度に 1 つのステップが必要であることを意味します。

まず、モデルのトレーニングをサポートするデータエンジニアリングを見てみましょう。

# AI、特に大規模モデルにとって、データは不可欠な 3 つの要素の 1 つです。ラージモデルテキスト生成機能も同様で、画像データとテキストデータ、特に画像とテキストのマッチングデータが生成効果に決定的な影響を与えます。

ただし、インターネット上のすべての既存データがすぐに使用できるわけではありません。大きな問題は、画像のテキスト説明が正確でない可能性があることです。問題の数ほとんどの画像とテキストのマッチングデータの品質は比較的悪いです。これを使用すると、たとえトレーニング時間が非常に長くても、モデル生成の効果は依然として期待に応えられず、生成品質の安定性とその後の反復効率にも影響します。

# したがって、画像とテキストデータの品質を向上させることが、ヴィンセント画像の効果を確実にするための「最初のハードル」になります。現時点では、多くの場合、エンジニアリング手法を通じてデータ品質を向上させ、モデルのトレーニング、最適化、アップグレードをサポートし、アルゴリズムモデル用の堀を構築する必要があります。

画像とテキストのデータ一致の問題に直面した、Tencent Hunyuanwenshengtu チームの対応戦略は次のとおりです。まず、中国語のプロンプトをきめ細かい方法で調整して、画像とテキストの相関性を改善し、データ品質を最大化し、トレーニングデータを階層化してグレーディングする戦略を採用して、徐々にモデルを最適化し、データ効果を最大化し、最後に大規模モデルを迅速に反復するための鍵となるデータフライホイールを構築します。大規模なモデルを使用するオンラインユーザーからのフィードバックに基づいて、チームはトレーニングデータを自動的に構築して、モデルの反復を高速化し、データ効率を最大化します。

#データの品質、効果、効率が向上し、優れた Vincent チャート効果の基礎が築かれました。次に説明する機械学習フレームワークも同様に重要です。

強力な機械学習フレームワークまたはプラットフォームは、開発者のモデルの構築、トレーニング、デプロイの速度と効率を大幅に向上させます。 Tencent は、大規模モデルのトレーニングと推論シナリオ用に独自の Angel 機械学習プラットフォームを開発しました。これには、主にトレーニング用の AngelPTM と推論用の AngelHCF が含まれています。

AngelPTM は、ZeRO-Cache 最適化戦略を採用し、超大規模モデルのトレーニングのための強力なツールになります。ストレージ管理を通じて単一マシンモデルの容量を拡張し、リソースを向上させます。マルチストリームを非同期で使用し、ビデオメモリを使用して管理することでメモリ効率が向上します。さらに、4D 並列処理を使用して、利用可能なビデオメモリの上限を増やし、キロカードの通信負荷を軽減し、コンピューティングの可能性を解放します。自動トレーニング更新メカニズムは、キロカード障害に対する自動フォールトトレランスをサポートし、中断時間を短縮します。モデルのトレーニング状況もリアルタイムで監視され、協調アルゴリズムによってモデルのトレーニングの方向性が最適化されます。

現在、AngelPTM は業界初の ZeRO-Cache 機構 4D に基づき、数千億個の混合要素ベースモデルの並列高速学習を実現しています。主流のオープンソースフレームワーク (DeepSpeed -Chat) に比べて 1 倍に増加しました。

^{ZeRO-Cache の概要。}

AngelHCF は主に、多様なサービス戦略、並列戦略、フレームワークアクセラレーション (一般的な GPU アクセラレーション方法をカバー)、およびモデル圧縮 (一般的に使用される圧縮をサポート) をカスタマイズします。業界のメソッド) と、大規模なモデルの推論パフォーマンスを向上させるための 5 つのレベルの効率的なモデルデバッグ機能。推論速度は業界主流のフレームワーク(FasterTransformer)と比べて1.3倍高速です。

Tencent は、同社の Angel 機械学習プラットフォームは優れたパフォーマンスを備えており、より優れたインフラストラクチャシステムの提供と大規模モデルの高速実行に貢献できると述べています。これにより、Hunyuan 大型モデルは高品質の画像を生成すると同時に、生成速度も大幅に向上します。

高品質のデータと効率的な機械学習フレームワークを備えた大規模モデルの継続的な運用には、依然としてコンピューティング能力の試練が伴います。結局のところ、大規模モデルの時代では、コンピューティング能力が最も重要です。

Tencent Hunyuan Wenshengtu の機能は、Tencent Cloud が提供する強力なコンピューティングインフラストラクチャと切り離すことができません。 2023 年 4 月、Tencent Cloud は、最新世代の Xinghai 自社開発サーバーを使用し、自社開発のネットワークおよびストレージアーキテクチャに基づいた新世代の HCC 高性能コンピューティングクラスターをリリースし、3.2T の超高相互接続帯域幅 (TB) を達成しました。 - レベルのスループット容量と 1,000 万レベルの IOPS。新世代クラスターのコンピューティング能力パフォーマンスは、前世代と比較して 3 倍、従来のコンピューティングクラスターソリューションと比較して 12 倍以上向上しています。

# 基盤となるハードウェアを強化する一方で、上位層のソフトウェア機能も連携して強化する必要があります。新世代の HCC クラスターには、Tencent Cloud が自社開発した TACO トレーニング加速エンジンが統合されており、ネットワークプロトコル、通信戦略、AI フレームワーク、モデルのコンパイルレベルからシステムレベルの最適化が数多く行われています。この包括的な一連の環境に優しいトレーニング高速化ソリューションは、お客様が AI 最適化のしきい値を下げ、AI トレーニングのパフォーマンスを向上させるだけでなく、トレーニングの調整とコンピューティングの電力コストを大幅に削減することもできます。

大規模モデルを制限する 3 つの主要な要素、アルゴリズム、データ、計算能力は、Tencent Hunyuan の大規模モデルではもはや問題ではないようです。当然、ヴィンセントの絵の品質と効果も保証されています。

その効果は「虚実」、

文生図の能力はテンセントの広告シーンに埋め込まれています

今日私たちが目にした渾源の大型モデルの文生図の能力は、一夜にして達成されたものではなく、真の進化の過程でした。

先月開催された2023 Tencent Global Digital Ecosystem Conferenceで、TencentのHunyuan大型モデルが正式に発表されました。 Tencent Groupの副社長Jiang Jie氏は当時、Hunyuanは常に外出中であると語った。 Tencent は今後も Hunyuan の機能を進化させ、毎月誰もが驚きを感じられるようにしたいと考えています。

現在、テンセントには、テンセントカンファレンス、テンセントドキュメント、エンタープライズ WeChat、テンセント広告、WeChat 検索など、180 の社内ビジネスが Hunyuan の大規模モデルに接続されています。同時に、小売、教育、金融、医療、メディア、運輸、官公庁などの複数の業界の顧客も Tencent Cloud を通じて Tencent Hunyuan API を呼び出し、アプリケーション分野にはインテリジェントな質疑応答、コンテンツ作成、データ分析、コードアシスタント、その他のシナリオ。

新しくオープンしたヴィンセントグラフ機能は、テンセントの渾源モデルがもたらす最大の驚きであり、自動画像生成の分野でその優れた機能を実証しています。もちろん、Tencent Hunyuan Wenshengtu も徐々に進化しており、将来的にはさらに多くの Wenshengtu 関連機能と Wenshengtu 機能が開発される予定です。その波が楽しみです。

現在、Hunyuanwen の画像生成機能は、製品広告や広告画像の生成など、Tencent の広告シナリオに組み込まれています。広告事業における複数回の評価において、Tencent Hunyuan Wenshengtu のケース優秀率と広告主採用率はそれぞれ 86% と 26% に達し、どちらも同様のモデルよりも高くなっています。

# まず、ホテルの部屋を生成するために Hunyuan の大規模モデルが必要な次の例を見てみましょう。効果から判断すると、Hunyuan Wenshengの写真効果はアップグレード後の方が明らかに優れており、デザインと品質が大幅に向上し、細部がより豊かになっています。 Midjourneyと比較しても、結果は同等です。