En mars 2024, dans le « Rapport d'évaluation complète des capacités des grands modèles SuperBench » récemment publié par le Centre de recherche sur les modèles de base de l'Université Tsinghua, le rapport a évalué de manière exhaustive 14 modèles influents dans le pays et à l'étranger.
Dans ce rapport, les performances exceptionnelles de Wenian 4.0 ont attiré une large attention. Ses performances globales sont proches de celles des meilleurs modèles internationaux et il réduit progressivement l'écart avec les principaux modèles mondiaux, montrant qu'il est devenu le premier modèle national.
Dans l'évaluation de la capacité d'alignement humain, Text 4.0 a fait preuve d'une force exceptionnelle et s'est classé sans aucun doute premier dans le pays. Dans le même temps, dans l'évaluation du raisonnement chinois et de la maîtrise de la langue chinoise, Text 4.0 est également le meilleur. Par rapport à d'autres modèles, ses avantages sont très évidents. En particulier dans l'évaluation de la compréhension du chinois, le score du Texte 4.0 est supérieur de 0,41 point à celui du GLM-4, deuxième place, démontrant ses profondes compétences dans le traitement du chinois.
Dans l'évaluation des capacités mathématiques de compréhension sémantique, les modèles Text 4.0 et Claude-3 sont à égalité à la première place mondiale, tandis que les modèles bien connus de la série GPT-4 suivent de près, se classant quatrième et cinquième. Les scores des autres modèles se concentrent pour la plupart autour de 55 points, et il existe un écart important entre les modèles leaders.
Dans l'évaluation de la capacité de compréhension en lecture, Wenxin 4.0 brille également. Il a non seulement dépassé GPT-4 Turbo et Claude-3, mais a également dépassé GLM-4 et a obtenu le score le plus élevé.
Dans l'évaluation de sécurité qui préoccupe le plus les entreprises, Text GPT 4.0 a également montré d'excellentes performances. Il a atteint un score élevé de 89,1 points, surpassant les modèles de classe mondiale de la série GPT-4 et Claude-3. classé premier, tandis que Claude-3 n'est classé que quatrième dans cette revue.
Le rapport mentionne également que depuis que Wenxinyiyan a fait ses débuts publics le 16 mars de l'année dernière, il a réalisé une percée dans le nombre d'utilisateurs en peu de temps et compte actuellement plus de 200 millions d'utilisateurs. Dans le même temps, le nombre d’appels API quotidiens est également extrêmement actif, dépassant les 200 millions de fois.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!