Xi Xiaoyao Technology Talk 原文
著者 | PythonChatGPT は、インテリジェントな人間とマシンの会話アプリケーションとして、発売後すぐに世界中で人気になりました。わずか1か月でユーザー数は1億人を超えました。 ChatGPT を使用して、SAT、AP、GRE などの多くの試験項目をテストすることもできます。しかし、ChatGPT が中国の大学入学試験に参加できるようになったらどうなるでしょうか?彼は偏見を持つだろうか?私たちのような一般人でもChatGPTに合格できるのでしょうか?復旦大学と華東師範大学の学生から寄せられたコメントを紹介します。
論文タイトル:
GAOKAO ベンチマークでの大規模言語モデルのパフォーマンスの評価
論文リンク:https://www.php.cn/link/de66dbc30377a1f7908db45298324aa3
この論文では、次の図に示すように、ゼロ教師ありプロンプト方式を使用してテスト質問を ChatGPT 入力に変換します。主題や質問の種類に応じて、さまざまな調査方法が設計されています。数学の質問の場合は、数式をラテックス入力に変換します。
この記事のテストでは、2010 年から 2022 年までの全国 A 論文と全国 B 論文の計 13 問を使用しています。試験問題は1セットにつき10科目収録 科目は中国語、数学、英語、物理、化学、生活、歴史、地理 数学は理系数学と文系数学に分かれます。
データセットには、合計 2811 個のテスト問題が含まれています。具体的な問題の種類についてはここでは説明しませんが、読者の皆さんは大学入試問題についてよくご存じだと思います。
評価では、上海の曹陽第二中学校の高校教師が主観的な質問を採点するために雇われました。
過去数年間の大学入学試験においてChatGPTによって得られたスコアを以下の図に示します。各科目の得点は 100 点満点で正規化して計算されるため、この得点をあなたや私の大学入試の得点と直接比較することはできません。しかし、このスコアは理想的ではないこともわかり、復丹も華東師範大学も入学できないと推定されている。どうしてこれなの?
上の図は、さまざまな分野および主観的および客観的なトピックにおける ChatGPT のパフォーマンスを示しています。青は客観的な質問、黄色は主観的な質問です。分析の結果、ChatGPT は客観的な質問、特に英語の読解、多肢選択、およびクローゼでより優れたパフォーマンスを示し、正解率はそれぞれ 88.3%、78.1%、73.8% であることがわかりました。しかし、客観的な問題であっても、理科や数学の正答率は40%にも満たない。数学は本当に難しいです~
ChatGPT の主観的な質問に対するパフォーマンスは悪いです物理学、化学、生物学、数学の科目では、主観的な質問のパフォーマンスは明らかに客観的な質問ほど良くありません。理系科目も客観的な問題の得点が悪く、ChatGPTは文系科目に偏っているのでは?査読者のコメントによると、ChatGPT の主な欠点は次のとおりです。 1. 数学問題の複雑な方程式を正しく解くのが難しく、問題解決のプロセスで間違った公式が使用されます。 2. 長い資料を読むときに理解して要約する能力が不十分です。
ChatGPTは学習過程で中国の大学入試問題データを使用していない可能性があるため、そのパフォーマンスはデータ漏洩の影響を受けず、信頼性が高いです。
観察結果によると、外国の試験と比較して、中国の大学入学試験問題における ChatGPT のパフォーマンスはわずかに劣っています。したがって、国内の学生は当面はChatGPT試験に合格できないことをあまり心配する必要はありません。ただし、記事で言及されている長文要約機能は GPT4-32K で大幅に向上しており、国内の大型モデルも中国のデータに基づいてさらに最適化されています。そのため、将来的には大型モデルの大学入試問題でのさらなる活躍が期待できます。
さらに、大学入学試験問題を解くために ChatGPT を使用するというアイデアは、どの州の試験問題がより難しいかについてのネチズン間の議論に答えることができるかもしれません。
以上がChatGPT が中国の大学入学試験に参加し、全国的な A 論文と B 論文を提供したところ、深刻な偏りがあることが判明しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。