En 2023, le bouton accélérateur sera appuyé pour la mise en œuvre de grands modèles, et le graphisme vincentien sera l'une des directions d'application les plus en vogue. Depuis la naissance de Stable Diffusion, des modèles à grande échelle de Wenshengtu ont émergé dans le pays et à l'étranger, et cela ressemblait à un « combat entre dieux » pendant un moment. Chaque itération technologique apporte des améliorations rapides dans les effets et la vitesse de génération de modèles. Aujourd'hui encore, Tencent Hunyuan Model a également annoncé les derniers progrès : la capacité de graphe vincentien est officiellement lancée. Dès que nous l'avons essayé, nous avons constaté la compréhension du modèle Hunyuan de la culture culinaire chinoise large et profonde. Ici j'ai choisi la "fourmi grimpant à l'arbre" qui rend difficile de nombreux grands modèles, mais le Hunyuan se génère facilement :
La question est : le grand modèle vincentien actuel est si grand, le grand modèle Hunyuan a-t-il d'autres avantages particuliers ? Selon l'introduction officielle, en termes d'algorithmes et de modèles, le grand modèle vincentien actuel présente encore certains défis, tels qu'une compréhension sémantique insuffisante, une structure déraisonnable des images générées, des détails d'image insuffisants et une texture faible. Tencent a depuis longtemps commencé à explorer les images générées par l'IA dans des scénarios publicitaires, et l'accumulation associée est assez profonde. La capacité Wenshengtu de cette mise à niveau du grand modèle Hunyuan vise précisément à résoudre les trois problèmes de « sémantique, contenu et texture ». Selon les rapports, par rapport à d'autres grands modèles, le Wenshengtu de Tencent Hunyuan présente des avantages évidents dans le réalisme des portraits et des scènes. En même temps, il présente de plus grands avantages dans la génération de paysages chinois, de jeux d'animation et d'autres scènes. .Bonne prestation. Test pratique : Hunyuan Wensheng Tu, quelle est la différence ? Pour faire du bon travail dans "Wen Sheng Tu", une compréhension complète de "Wen" est cruciale. En termes de compréhension sémantique, le modèle graphique Hunyuan Wensheng adopte un modèle bilingue chinois et anglais à grain fin. En même temps, la compréhension bilingue est obtenue sur la base de la modélisation bilingue chinois et anglais et de la capacité du modèle. la perception des détails est améliorée grâce à des algorithmes d'optimisation et génère des effets. Avant cela, bien que des modèles populaires comme Stable Diffusion prenaient en charge un certain degré de chinois, leur ensemble de données de base LAION-5B était encore principalement un contenu occidentalisé et n'avait aucune compréhension de la langue, de la nourriture, de la culture et des coutumes chinoises. assez de compréhension. Le modèle Hunyuan Wenshengtu est un modèle Wenshengtu chinois natif. Quels que soient les poèmes ou les idiomes chinois saisis par l'utilisateur, les utilisateurs peuvent directement leur demander de créer des peintures. En termes de rationalité du contenu, Hunyuanwenshengtu améliore la capacité de perception de la position spatiale bidimensionnelle de l'image du modèle d'algorithme et introduit des informations préalables telles que le squelette humain et la structure de la main humaine dans le processus de génération, de sorte que le généré Le la structure de l'image est plus raisonnable, ce qui améliore le problème des structures du corps humain et des mains générées par l'IA qui sont déraisonnables. En termes de
texture d'image, Hunyuan Wenshengtu est basé sur une méthode de fusion multi-modèles pour améliorer la texture générée. Après optimisation, l'effet du modèle de portrait (cheveux, rides, etc.) de Hunyuan Wenshengtu a été amélioré de 30 % et l'effet du modèle de scène (végétation, ondulations, etc.) a été amélioré de 25 %. Les avantages techniques dans ces trois aspects ont évidemment amélioré l'expérience du produit Wenshengtu grand modèle Hunyuan.
Afin de vérifier les capacités ci-dessus, ce site Web a posé quelques questions et effectué un test approfondi sur le grand modèle Hunyuan dans un premier temps.
Étant donné que Hunyuan est un modèle chinois d'origine, il comprend naturellement mieux la « langue de la Chine ancienne » que d'autres produits similaires. Nous le laissons d'abord dessiner selon des poèmes anciens.
Nous avons choisi un poème ancien très artistique "Quand tu es ivre, tu ne sais pas que le ciel est sur l'eau, et le bateau est plein de rêves clairs et les étoiles sont écrasantes" pour tester pour voir si le Le grand modèle Hunyuan peut générer des images avec un fort sens de l'imagerie.
Dans le poème « Amarré à Guazhou », le vers « La brise printanière redevient verte sur la rive sud de la rivière, quand la lune brillante me reviendra-t-elle écrit le mal du pays d'innombrables vagabonds ? Grâce à la génération de Hunyuan, des images telles que « lumière du printemps », « banque d'eau » et « lune brillante » sont extraites et combinées de manière organique, donnant aux gens l'impression d'être dans une scène poétique après l'avoir vue :
Alors c'est intéressant Dans la rubrique « Peinture culinaire chinoise », faisons un test classique sur le « Porc râpé au goût de poisson » :
De la peinture culinaire chinoise qui rend les gens fous, à le niveau de nourriture après avoir regardé l'image, on peut aussi le ressentir À l'évolution continue de la technologie des diagrammes de Vincent.
Jetons un coup d'œil à la façon dont Hunyuan s'attaque au problème reconnu par l'industrie des « portraits réalistes » :
Nous savons que le succès initial de Midjourney était dû à la photo du couple ci-dessous, qui est irrésistible Il s’avère que cela n’a pas été généré par l’IA.U La carte de couple générée par Midjourney V5
Examinons maintenant la capacité de l'elend mixte à générer de la "fraude". L'invite utilisée est : Que pensez-vous du réalisme ? À notre avis, les détails mentionnés dans Prompt sont suffisants. C'est ce que souligne Tencent : le grand modèle Hunyuan améliore la perception des détails et l'effet de génération grâce à des algorithmes d'optimisation. Cette capacité ne peut se refléter que dans de nombreuses scènes spécifiques. Par exemple, dans la scène d'animation, cela génère "un cerf courant dans la forêt, faisant voler les feuilles mortes, la lune est très brillante et grande, les oiseaux volent dans le ciel, l'atmosphère, le style CG, le côté perspective". Ça ne ressemble pas à la scène de l'animation que vous regardiez quand vous étiez enfant ? De plus, dans la création d'animations, le potentiel d'application de Wenshengtu est énorme. L'invite que nous avons donnée au grand modèle Hunyuan est "Générer 3D, style anime, 1 fille, cheveux blonds, sourire, cheveux courts, fond de ville": Que pensez-vous de l'effet de génération ? Peut-il être utilisé directement comme papier peint ? Quelles sont les technologies auto-développées derrière Wenshengtu ? Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils, et il en est de même pour les grands modèles. Nous avons appris qu'en plus des algorithmes de modèle innovants, le grand modèle Hunyuan de Tencent obtient un tel effet d'image culturelle qui est conforme à la culture chinoise, et il est également indissociable de données de correspondance image-texte de haute qualité et d'auto-évaluation. cadre d’apprentissage automatique développé et infrastructure informatique puissante. Tencent Hunyuan Large Model a formé un chemin technologique auto-développé à lien complet, allant de l'algorithme de modèle au cadre d'apprentissage automatique en passant par l'infrastructure d'IA. L'accumulation technologique à plusieurs niveaux signifie que l'évolution des grands modèles nécessite une étape à la fois, en commençant par la pratique et en s'améliorant dans la pratique. Tout d'abord, examinons l'ingénierie des données qui prend en charge la formation des modèles. Pour toute IA, notamment les grands modèles, les données sont l'un des trois éléments indispensables. Il en va de même pour la fonction de génération de texte grand modèle. Les données d'image et de texte, en particulier les données de correspondance entre images et textes, ont un impact décisif sur l'effet de génération. Cependant, toutes les données existantes sur Internet ne sont pas facilement disponibles. Le gros problème est que les descriptions textuelles des images peuvent ne pas être exactes, ce qui entraîne une mauvaise qualité de la plupart des données de correspondance image-texte. S'il est utilisé, même si le temps de formation est très long, l'effet de génération du modèle ne répondra toujours pas aux attentes, ce qui affectera également la stabilité de la qualité de la génération et l'efficacité des itérations ultérieures. Par conséquent, l'amélioration de la qualité des données d'images et de textes est devenue le « premier obstacle » pour garantir l'effet des images vincentiennes. À l’heure actuelle, il est souvent nécessaire d’améliorer la qualité des données grâce à des méthodes d’ingénierie, de prendre en charge la formation, l’optimisation et la mise à niveau du modèle, et de créer un fossé pour le modèle d’algorithme. Face au problème des données de correspondance d'images et de textes, la stratégie de réponse de l'équipe Tencent Hunyuanwenshengtu est la suivante : premièrement, améliorer les invites chinoises de manière fine, améliorer la corrélation entre les images et les textes et maximiser la qualité des données ; puis adopter l'analyse des données de formation. Des stratégies de couches et hiérarchiques sont utilisées pour optimiser progressivement le modèle et maximiser les effets des données. Enfin, un volant de données est construit, ce qui est la clé d'une itération rapide de grands modèles ; Sur la base des commentaires des utilisateurs en ligne utilisant de grands modèles, l'équipe crée automatiquement des données de formation pour accélérer l'itération du modèle et maximiser l'efficacité des données. La qualité, l'effet et l'efficacité des données ont été améliorés, ce qui jette les bases de bons effets de graphique Vincent. Le cadre d’apprentissage automatique dont nous parlerons ensuite est tout aussi important.Un cadre ou une plate-forme d'apprentissage automatique puissant améliorera considérablement la vitesse et l'efficacité des développeurs dans la création, la formation et le déploiement de modèles. Tencent a développé sa propre plateforme d'apprentissage automatique Angel pour les scénarios de formation et d'inférence de grands modèles, qui se compose principalement de deux parties : AngelPTM, qui est responsable de la formation, et AngelHCF, qui est responsable de l'inférence. Parmi eux, AngelPTM adopte la stratégie d'optimisation ZeRO-Cache et devient un outil puissant pour la formation de très grands modèles. Il étend la capacité des modèles mono-machine grâce à la gestion du stockage, améliore l'utilisation des ressources grâce au multi-flux de manière asynchrone, et améliore l'efficacité de la mémoire vidéo grâce à la gestion de la mémoire vidéo. De plus, le parallélisme 4D est utilisé pour augmenter la limite supérieure de la mémoire vidéo disponible, réduire la pression de communication sur les kilocards et libérer le potentiel informatique. Le mécanisme de renouvellement automatique de la formation prend en charge la tolérance automatique aux pannes des pannes de kilocard et réduit le temps d'interruption. La situation de formation du modèle est également surveillée en temps réel et l'algorithme collaboratif optimise la direction de formation du modèle. Actuellement, AngelPTM réalise une formation à grande vitesse de centaines de milliards de modèles de base hybrides basés sur le premier mécanisme ZeRO-Cache + parallélisme 4D de l'industrie. La vitesse de formation est doublée par rapport au framework open source grand public (DeepSpeed-Chat). ). Présentation de ZeRO-Cache. AngelHCF améliore principalement les performances des grands modèles sous cinq aspects : stratégies de services diversifiées personnalisées, stratégies parallèles, accélération du framework (couvrant les méthodes d'accélération GPU courantes), compression de modèle (prenant en charge les méthodes de compression courantes dans l'industrie) et efficacité capacités de débogage du modèle. La vitesse d'inférence est 1,3 fois plus rapide que celle du framework traditionnel du secteur (FasterTransformer).
Tencent a déclaré que sa plate-forme d'apprentissage automatique Angel présente des performances de pointe et peut contribuer à fournir un meilleur système d'infrastructure et à aider les grands modèles à fonctionner à grande vitesse. Cela permet au grand modèle Hunyuan de générer des images de haute qualité tout en améliorant considérablement la vitesse de génération.
Avec des données de haute qualité et un cadre d'apprentissage automatique efficace, le fonctionnement continu de grands modèles est encore confronté à l'épreuve de la puissance de calcul. Après tout, à l’ère des grands modèles, la puissance de calcul est reine.
La fonction Hunyuanwenshengtu de Tencent est indissociable de la puissante infrastructure informatique fournie par Tencent Cloud. En avril 2023, Tencent Cloud a lancé une nouvelle génération de cluster de calcul haute performance HCC, utilisant la dernière génération de serveurs développés par Xinghai et basée sur une architecture de réseau et de stockage auto-développée, atteignant une bande passante d'interconnexion ultra-élevée de 3,2 T, To. -capacité de débit de niveau et 10 millions d'IOPS de niveau. Les performances de puissance de calcul du cluster de nouvelle génération sont améliorées de 3 fois par rapport à la génération précédente et de plus de 12 fois par rapport à la solution de cluster informatique traditionnelle.
Tout en renforçant le matériel sous-jacent, les capacités logicielles de niveau supérieur doivent également aller de pair. Le cluster HCC de nouvelle génération intègre le moteur d'accélération de formation TACO auto-développé par Tencent Cloud et a réalisé de nombreuses optimisations au niveau du système au niveau du protocole réseau, de la stratégie de communication, du cadre d'IA et des niveaux de compilation de modèles. Cet ensemble complet de solutions écologiques d’accélération de la formation peut non seulement aider les clients à abaisser le seuil d’optimisation de l’IA et à améliorer les performances de formation de l’IA, mais également à réduire considérablement les coûts de réglage de la formation et de puissance de calcul. Il semble que les trois principaux facteurs qui limitent les grands modèles, l'algorithme, les données et la puissance de calcul, ne soient plus un problème dans le grand modèle Tencent Hunyuan. Bien entendu, la qualité et l’effet des dessins vincentiens sont également garantis. L'effet est "faux comme réel",
Des capacités graphiques vénographiques ont été intégrées dans les scènes publicitaires de TencentLes capacités graphiques de texte grand modèle Hunyuan que nous avons vues aujourd'hui ne sont pas obtenues du jour au lendemain, mais une réalité réelle dans le processus d'évolution.
Lors de la conférence Tencent Global Digital Ecology 2023 qui s'est tenue le mois dernier, le grand modèle Tencent Hunyuan a été officiellement dévoilé. Jiang Jie, vice-président du groupe Tencent, avait déclaré à l'époque que Hunyuan était toujours sur la route. Tencent continuera de développer les capacités de Hunyuan et espère apporter des surprises à tout le monde chaque mois.
Actuellement, Tencent compte 180 entreprises internes connectées au grand modèle Hunyuan, dont Tencent Conference, Tencent Documents, Enterprise WeChat, Tencent Advertising et WeChat Search. Dans le même temps, des clients de plusieurs secteurs tels que la vente au détail, l'éducation, la finance, les soins médicaux, les médias, les transports, les affaires gouvernementales, etc. font également appel à l'API Tencent Hunyuan via Tencent Cloud. Les domaines d'application incluent les questions et réponses intelligentes, la création de contenu, analyse de données, assistant de code et autres scénarios.
La nouvelle capacité d'image vincentienne est la plus grande surprise que le modèle Hunyuan de Tencent nous apporte, démontrant ses capacités de pointe dans le domaine de la génération automatique d'images. Bien sûr, Tencent Hunyuan Wenshengtu évolue également progressivement, et davantage de fonctions liées à Wenshengtu et Wenshengtu seront développées à l'avenir. Nous pouvons nous attendre à une vague de ce phénomène.Actuellement, les capacités de génération d'images de Hunyuanwen ont été intégrées dans les scénarios publicitaires de Tencent, tels que la génération de publicités pour des produits ou d'images publicitaires. Lors de plusieurs séries d'évaluations dans le secteur de la publicité, le taux d'excellence des dossiers et le taux d'adoption par les annonceurs de Tencent Hunyuan Wenshengtu ont atteint respectivement 86 % et 26 %, tous deux supérieurs à ceux de modèles similaires. Regardons d'abord l'exemple suivant, qui nécessite le grand modèle Hunyuan pour générer une chambre d'hôtel. À en juger par les effets, l'effet d'image Hunyuan Wensheng est évidemment meilleur après la mise à niveau, la conception et la qualité sont grandement améliorées et les détails sont plus riches. Même en le comparant à Midjourney, les résultats sont comparables. Les scènes de génération de personnages ont également des effets similaires. Après la mise à niveau, les portraits générés par Hunyuan sont plus réalistes, comme la couleur de la peau du visage, les rides et d'autres détails. En plus des scénarios publicitaires, Tencent explore également constamment d'autres scénarios de demande pour Wenshengtu, tels que la génération d'éléments de jeu et de personnages de jeu dans des scénarios de jeu, la génération de nouvelles illustrations et illustrations dans des scénarios de contenu et leur mélange dans des scénarios commerciaux cloud. Les méta-capacités sont ouvertes aux clients de différents secteurs. Peu importe la puissance du modèle, il doit être utilisé par davantage de personnes et continuer à recevoir des retours, afin qu'il puisse progresser davantage. On peut prévoir que les produits Tencent inaugureront une explosion des capacités de Hunyuanwentutu à l'avenir, et les utilisateurs découvriront également davantage le charme apporté par l'AIGC. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!