Les dernières nouvelles! Baidu Wenxin Big Model 4.0 : Le plus grand modèle paramétrique de l'histoire de la formation Wanka, rendez-vous dès la semaine prochaine-IA-php.cn

Les dernières nouvelles! Baidu Wenxin Big Model 4.0 : Le plus grand modèle paramétrique de l'histoire de la formation Wanka, rendez-vous dès la semaine prochaine

PHPz

Libérer： 2024-07-19 12:04:49

original

1102 Les gens l'ont consulté

Les dernières nouvelles! Baidu Wenxin Big Model 4.0 : Le plus grand modèle paramétrique de lhistoire de la formation Wanka, rendez-vous dès la semaine prochaine

Hier, Cailian News a révélé en exclusivité que le modèle Wenxin 4.0 de Baidu intensifie sa formation et est sur le point d'être prêt à être publié. Tout le monde a toujours été curieux de connaître les informations de Wen Xinyiyan. Aujourd'hui, nous avons également reçu plus de nouvelles sur Wenxin 4.0, qui implique des informations clés telles que l'architecture sous-jacente, l'infrastructure, les ensembles de données de formation, les coûts, etc. Il a un très haut degré de crédibilité !
Parlons d’abord des principales conclusions :
1 Les révélations d’hier sont fondamentalement vraies. Il est actuellement entendu que Wenxin Large Model 4.0 a en fait été testé avec un faible trafic.
2. Le nombre de paramètres de Wenxin 4.0 est supérieur à celui de tous les LLM dont les paramètres sont rendus publics. Il s'agit également du premier grand modèle en Chine à être formé à l'aide du cluster Wanka.
3. Le coût de raisonnement est bien supérieur à celui de Wenxin 3.5, on dit qu'il est d'environ 8 à 10 fois ! (Les grands modèles sont vraiment chers !)
Si ces révélations sont vraies, alors ce sera un nœud majeur pour Baidu et même les grands modèles nationaux pour rattraper GPT-4.
Ensuite, jetons un œil aux détails des révélations.
Le plus grand modèle paramétrique de l'histoire de la formation du cluster Wanka ?
Selon les informations que nous avons reçues, l'échelle des paramètres de Wenxin Large Model 4.0 est plus grande que tous les LLM publiant actuellement les paramètres, ce qui signifie que l'échelle des paramètres de Wenxin Large Model 4.0 devrait dépasser le niveau du billion.
En regardant uniquement le montant de ce paramètre, beaucoup de gens penseront que tout va bien. Après tout, selon les informations actuellement révélées, le montant du paramètre GPT-4 est déjà d'environ 1,8 billion. Cependant, la personne qui a annoncé la nouvelle a en outre déclaré que Wenxin Large Model 4.0 est toujours un modèle unique et n'adopte pas le modèle expert mixte (MoE) utilisé par GPT et de nombreux autres grands modèles linguistiques.
Précédemment, le « hacker de génie » George Hotez a annoncé la nouvelle que la raison pour laquelle GPT-4 utilise un modèle hybride est que la taille des paramètres du modèle ne peut pas dépasser 220 milliards. OpenAI souhaite que le modèle s'améliore, mais si la formation prend simplement plus de temps, l'effet diminue déjà.
Donc, si Baidu peut réaliser une percée dans un seul modèle, si les capacités du modèle seront également considérablement améliorées, nous ne pouvons qu'attendre et voir après la sortie réelle.
Un modèle avec un si grand nombre de paramètres aura forcément des besoins en puissance de calcul élevés. L'actualité actuelle est que Wenxin 4.0 a été formé sur le cluster Wanka AI. Il doit être considéré comme le premier grand modèle de langage en Chine à être formé à l'aide d'un cluster à l'échelle de Wanka.
Quel est le concept du cluster Wanka ? En Chine, seuls Huawei et Alibaba ont révélé avoir construit le cluster Wanka AI, mais nous n'avons pas vu de modèle spécifique basé sur celui-ci.
Cela montre que le cluster Wanka n'est pas facile à construire, et qu'il est encore plus difficile de l'utiliser pour maximiser son effet. Selon l'analyse, c'est précisément grâce à l'intégration profonde de Fei Paddle qu'un modèle à si grande échelle peut être efficacement formé sur la base du cluster Wanka.
Le coût a augmenté et des tests à faible trafic ont été effectués pour le public de manière discrète.
Non seulement le coût de la formation augmente, mais le coût d'inférence de Wenxin 4.0 s'est également révélé beaucoup plus élevé que celui de 3.5. Nous n'avons pas encore obtenu le coût d'inférence spécifique pour mille jetons, mais la rumeur dit qu'il était probablement avant 8 à 10 fois, c'est toujours dans le cas d'une utilisation élevée (MFU). Si l’utilisation est encore plus faible, les coûts devraient continuer à augmenter.
Je dois dire que les grands modèles coûtent vraiment cher. Créer un modèle de fondation sous-jacent de premier plan est un jeu de géants !
Enfin, selon les employés internes, Baidu a en fait commencé à tester secrètement Wenxin Big Model 4.0 avec un faible trafic, et un petit nombre d'utilisateurs de Wenxin Yiyan utilisent déjà la dernière version du modèle.
Beaucoup de gens pensent que cette affirmation est plus fiable, et nous pouvons également tirer quelques indices de certaines révélations récentes dans la communauté technologique.
Peut-être que lorsque vous posez des questions sur Wenxin Yiyan maintenant, vous utilisez Wenxin Big Model 4.0. Je ne sais pas si les résultats générés peuvent rivaliser avec GPT-4.
J'insiste encore une fois sur le fait que ce qui précède n'est pas une information officiellement confirmée et que chacun peut juger par lui-même de son exactitude.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!