Lors de la Hangzhou Computing Conference 2023, Zhou Jingren, directeur de la technologie d'Alibaba Cloud, a publié Tongyi Qianwen 2.0, un grand modèle avec des centaines de milliards de paramètres. Dans 10 évaluations faisant autorité, les performances globales de Tongyi Qianwen 2.0 ont dépassé GPT-3.5 et s'accélèrent pour rattraper GPT-4.
Il est rapporté que Tongyi Qianwen 2.0 a fait d'énormes progrès au cours des six derniers mois. Par rapport à la version 1.0 publiée en avril, Tongyi Qianwen 2.0 a considérablement amélioré ses capacités en matière de compréhension des commandes complexes, de création littéraire, de mathématiques générales, de mémoire des connaissances et de résistance aux hallucinations. À l'heure actuelle, les performances globales de Tongyi Qianwen ont dépassé GPT-3.5 et accélèrent le rythme de rattrapage de GPT-4
Tongyi Qianwen 2.0 a été évalué sur 10 benchmarks traditionnels, dont MMLU, C-Eval, GSM8K, HumanEval, et MATH Le score global sur l'ensemble dépasse celui de Meta's Llama-2-70B, le taux de victoire est 91 % supérieur à celui de Chat-3.5 d'OpenAI, 46 % supérieur à celui de GPT-4, et l'écart avec GPT-4 est encore réduit
Chinois et la capacité de compréhension de l'anglais est la compétence de base des grands modèles linguistiques. En termes de tâches en anglais, Tongyi Qianwen 2.0 a obtenu un score de 82,5 au benchmark MMLU, juste derrière GPT-4. En augmentant considérablement le nombre de paramètres, Tongyi Qianwen 2.0 peut mieux comprendre et traiter les structures et concepts linguistiques complexes du chinois. , Tongyi Qianwen 2.0 a obtenu le score le plus élevé au benchmark C-Eval avec un net avantage, car le modèle a appris davantage de corpus chinois pendant la formation, renforçant ainsi ses capacités de compréhension et d'expression du chinois.
Dans des domaines tels que le raisonnement mathématique et la compréhension du code, Tongyi Qianwen 2.0 a fait des progrès significatifs. Dans le test de référence de raisonnement GSM8K, Tongyi Qianwen s'est classé deuxième, démontrant de solides capacités de calcul et de raisonnement logique ; dans le test HumanEval, Tongyi Qianwen a obtenu un score proche de GPT-4 et GPT-3.5, qui mesurent principalement la capacité du modèle à grande échelle à Comprendre et exécuter des fragments de code constitue la base des grands modèles à utiliser dans des scénarios tels que l'assistance à la programmation et la réparation automatique du code.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!