2024年3月、清華大学基礎モデル研究センターが最近発表した「SuperBench大型モデル総合能力評価報告書」では、国内外の影響力のある14モデルを総合的に評価した。
このレポートでは、Wenian 4.0 の優れたパフォーマンスが広く注目を集めています。総合性能は海外トップモデルに肉薄しており、徐々に世界トップモデルとの差を縮め、国内トップモデルとしての地位を確立している。
人間のアライメント能力の評価では、Text 4.0が突出した強さを示し、間違いなく国内1位となりました。同時に、中国語の推論と中国語能力の評価においても、Text 4.0 は他のモデルと比較して最高であり、その利点は非常に明白です。特に中国語理解力の評価では、Text 4.0のスコアが2位のGLM-4を0.41ポイント上回り、中国語処理のスキルの高さを示しています。
意味理解のための数学的能力の評価では、Text 4.0 モデルと Claude-3 モデルが同率で世界 1 位となり、有名な GPT-4 シリーズ モデルがそれに僅差で続き、4 位と 5 位にランクされました。他機種のスコアは55点前後に集中しており、上位グループとの間には大きな差が開いている。
読解力の評価では、Wenxin 4.0も輝いています。 GPT-4 TurboやClaude-3を上回るだけでなく、GLM-4をも上回る最高スコアを達成しました。
企業が最も懸念するセキュリティ評価でも、Text GPT 4.0は優れたパフォーマンスを示しました。世界トップクラスのGPT-4シリーズやClaude-3を上回る89.1点という高得点を記録した。このレビューでは、Claude-3 は 4 位にランクされましたが、1 位にランクされました。
レポートでは、Wenxinyiyan が昨年 3 月 16 日に一般公開されて以来、短期間でユーザー数の飛躍的な進歩を遂げ、現在 2 億人を超えるユーザーがいると述べています。同時に、1 日あたりの API 呼び出し数も非常に活発で、2 億回を超えています。
以上がWenxin 4.0 は SuperBench の評価で優れたパフォーマンスを示し、多くの指標でリードしましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。