Xi Xiaoyao Technology Talk 原文
著者 | 孟江の販売 ここ数日、私たちのパブリック アカウント コミュニティが SuperClue レビューと呼ばれるスクリーンショットを転送しています。 iFlytek は公式アカウントでもこの製品を宣伝しています:
# iFlytek Spark モデルはリリースされたばかりなので、あまりプレイしていません。本当に最強ですか?中国製? 著者はあえて結論を出さない。
しかし、この評価のスクリーンショットでは、現時点で最も人気のある国内モデルである Baidu Wenxinyiyan は、小規模な学術オープンソース モデル ChatGLM-6B にも勝てません。これは著者自身の経験と大きく矛盾しているだけでなく、私たちのプロの NLP 技術コミュニティでも誰もが混乱を表明しました。好奇心から、著者はこの超手がかりリストの github にアクセスして、この評価結論にどのように到達したかを確認しました:
https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2まず第一に、作者は、このリポジトリの下にすでにいくつかの問題があることに気づきました:このとんでもない感情は、作者だけが抱えているわけではないようです。それは確かに、大衆の目は依然として鋭いです。 。 。
著者は、このリストの評価方法をさらに検討しました:
いいですね、いわゆる生成大規模モデルのテストが判明しました。モデルに多肢選択式の質問を実行させることがすべてです。 。 。 明らかに、この多肢選択評価手法は BERT 時代の判別型 AI モデルを対象としていますが、当時の AI モデルは一般に生成する能力はなく、生成する能力しかありませんでした。識別 (テキストの一部がどのカテゴリに属するかを判断できること、質問に対する選択肢のどれが正しい答えであるか、2 つのテキストの意味論が一貫しているかどうかの判断など)。 生成モデルの評価は、判別モデルの評価とはまったく異なります。たとえば、機械翻訳などの特殊な生成タスクの場合、モデルによって生成された応答と参照応答の間の「語彙とフレーズのカバレッジ」を検出するために、BLEU などの評価指標が一般的に使用されます。ただし、機械翻訳などの参照応答を伴う生成タスクはほとんどなく、生成評価の大部分は手動評価を必要とします。
たとえば、チャット スタイルのダイアログの生成、テキスト スタイルの転送、章の生成、タイトルの生成、テキストの要約などの生成タスクでは、各モデルを評価して応答を自由に生成し、手動で比較する必要があります。これらのさまざまなモデルによって生成される応答、品質、またはタスクの要件が満たされているかどうかに関する人間の判断。
現在の AI コンテストはモデル生成能力のコンテストであり、モデル識別能力のコンテストではありません。評価すべき最も強力なものは、もはや冷淡な学術リストではなく、実際のユーザーの評判です。さらに、これはモデル生成機能をまったくテストしていないリストです。
過去数年を振り返る-
2019 年に OpenAI が GPT-2 をリリースしたとき、私たちはランキングをブラッシュアップするためのコツを積み上げていました;
2020 年には、 OpenAI がリリース GPT-3 中に、私たちはリストを更新するためのトリックを積み上げていました;
2021 年から 2022 年に、FLAN、T0、InstructGPT などの命令チューニングと RLHF 作業が発生したとき、私たちはまだ多くのトリックを持っていましたリスト...
この生成モデル軍備競争の波で同じ過ちを繰り返さないことを願っています。
では、生成 AI モデルはどのようにテストすればよいのでしょうか?
申し訳ありませんが、前にも述べたように、公平なテストを達成することは非常に困難であり、自分で生成モデルを開発するよりもさらに困難です。何が難しいのでしょうか?いくつかの具体的な質問:
これらは解決すべき基本的な問題のほんの一部ですが、実際のベンチマーク設計の過程では、上記の問題よりもさらに難しい問題が数多く発生します。
したがって、AI 実践者として、著者はさまざまな AI モデルのランキングを合理的に見るよう皆さんに呼びかけます。公平なテストベンチマークさえ存在しないのに、このランキングは何の役に立つのでしょうか?
繰り返しになりますが、生成モデルが良いかどうかは実際のユーザーに依存します。
モデルがリストでどれほど上位にランクされていても、関心のある問題を解決できない場合、それはあなたにとっては単なる平均的なモデルになります。つまり、最下位の機種が気になるシナリオに非常に強い機種であれば、それはあなたにとってお宝機種ということになります。
ここでは、著者が私たちのチームによって強化され書かれたハードケース (難しい例) のテスト セットを公開します。このテスト セットは、難しい問題や命令を解決するモデルの能力に焦点を当てています。
この難しいテスト セットは、モデルの言語理解、複雑な命令の理解とそれに従うこと、テキスト生成、複雑なコンテンツ生成、複数回の対話、矛盾検出、常識的推論、数学的推論、反事実的推論、および危険に焦点を当てています。情報 身分証明、法的および倫理的意識、中国文学の知識、異言語能力およびコーディング能力など。
繰り返しになりますが、これは、困難な例を解決する生成モデルの能力をテストするために、著者のチームが作成したケースセットです。評価結果は、「著者のチームにとってどのモデルがより良いと感じられるか」を表すだけであり、とは程遠いです。公平なテストの結論を表す 公平なテストの結論が必要な場合は、まず上記の評価質問に答えてから、信頼できるテスト ベンチマークを定義してください。
自分で評価して検証したい友人は、この公開アカウント「Xi Xiaoyao Technology」のバックグラウンドで [AI 評価] のパスワードに返信して、テスト ファイルをダウンロードできます
以下は、超手がかりリストで最も物議を醸している 3 つのモデル、iFlytek Spark、Wenxin Yiyan、ChatGPT の評価結果です。
#困難なケースの解決率:素朴な疑問ですが、実は国内モデルとChatGPTには大きな違いはありません。難しい問題に対しては、各モデルに独自の強みがあります。著者のチームの包括的な経験から判断すると、Wen Xinyiyan は、学術テストでは ChatGLM-6B などのオープン ソース モデルを上回るのに十分ですが、ChatGPT よりも劣る機能もあれば、ChatGPT を上回る機能もあります。
Alibaba Tongyi Qianwen や iFlytek Spark など、他の大手メーカーが製造する国内モデルも同様です。
そうは言っても、現在では公平なテスト ベンチマークさえ存在しないのに、モデルをランク付けすることに何の意味があるのでしょうか?
さまざまな偏ったランキングについて議論するよりも、著者のチームが行ったように、関心のあるテスト セットを作成する方が良いでしょう。
問題を解決できるモデルは、優れたモデルです。
以上がBaidu Wenxinyiyanは国内モデルの中で最下位にランクされますか?私は混乱していたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。