2023 Hangzhou Computing Conference で、Alibaba Cloud 最高技術責任者の Zhou Jingren 氏は、数千億のパラメーターを備えた大規模モデルである Tongyi Qianwen 2.0 をリリースしました。 10 件の権威ある評価において、Tongyi Qianwen 2.0 の総合的なパフォーマンスは GPT-3.5 を上回り、GPT-4 に追いつくべく加速しています。
レポートによると、Tongyi Qianwen 2.0 は過去 6 か月で大きな進歩を遂げました。 4月にリリースされたバージョン1.0と比較して、Tongyi Qianwen 2.0は、複雑なコマンドの理解、文学創作、一般数学、知識記憶、幻覚耐性の能力が大幅に向上しました。現在、Tongyi Qianwen の総合的なパフォーマンスは GPT-3.5 を超え、GPT-4 に追いつくペースを加速しています。
Tongyi Qianwen 2.0 には、MMLU、C-Eval、GSM8K、HumanEval において 10 の大きな利点があります。 、MATH など。主流のベンチマーク評価セット全体のスコアは Meta の Llama-2-70B を上回り、勝率は OpenAI の Chat-3.5 より 91%、GPT-4 より 46% 高く、GPT-4 との差
中国語と英語を理解する能力は、大規模な言語モデルの基本的なスキルです。英語のタスクに関しては、Tongyi Qianwen 2.0 は MMLU ベンチマークで 82.5 のスコアを獲得し、GPT-4 に次いで 2 番目でした。パラメータの数を大幅に増やすことにより、Tongyi Qianwen 2.0 は複雑な言語構造と概念をよりよく理解し、処理できるようになります。タスクに関しては、Tongyi Qianwen 2.0 が優れています。 , Tongyi Qianwen 2.0 は、C-Eval ベンチマークで明らかな優位性を持って最高スコアを達成しました。これは、モデルがトレーニング中により多くの中国語コーパスを学習し、中国語の理解と表現能力がさらに強化されたためです。
数学的推論やコード理解などの分野で、Tongyi Qianwen 2.0 は大きな進歩を遂げました。推論ベンチマーク テスト GSM8K では、Tongyi Qianwen が 2 位となり、強力なコンピューティング能力と論理的推論能力を実証しました。HumanEval テストでは、Tongyi Qianwen のスコアは、主に大規模なモデルの能力を測定する GPT-4 および GPT-3.5 にほぼ続きました。コード フラグメントを理解して実行することは、プログラミング支援や自動コード修復などのシナリオで使用される大規模モデルの基礎となります。
以上がAlibaba Cloud が GPT-4 に追いつくためにパフォーマンスを加速した Tongyi Qianwen 2.0 をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。