大規模モデルの開発は急速であると言え、命令の微調整方法が春の雨後の筍のように芽生え、いわゆる ChatGPT の「代替」大規模モデルが多数リリースされました。続々。大規模モデルのトレーニングとアプリケーション開発において、オープンソース、クローズドソース、自己研究などのさまざまな大規模モデルの実際の機能を評価することは、研究開発の効率と品質を向上させる上で重要なリンクとなっています。
# 具体的には、大規模なモデルのトレーニングと適用において、次の問題が発生する可能性があります。
#1. 大規模モデルの微調整や強化された事前トレーニングでは、さまざまなベースとパラメーターが使用されます。観察されたサンプル効果によると、モデルのパフォーマンスには、さまざまなシナリオで独自の長所と短所があります。実際のアプリケーションでどのモデルを使用するかをどのように決定しますか?2. ChatGPT を使用してモデル出力を評価しますが、ChatGPT は同じ入力に対して異なる時点で異なる評価結果を取得します。どの評価結果を使用する必要がありますか?
3. 手動アノテーションを使用してモデルが生成した結果を評価するのは、時間も労力もかかります。予算が限られており、時間が限られている場合に、評価プロセスを高速化してコストを削減する方法きつい?
4. 機密データを扱う場合、ChatGPT/GPT4 を使用する場合でも、モデル評価に会社にラベルを付ける場合でも、データ漏洩の問題に直面することになります。
これらの問題に基づいて、北京大学、西湖大学、その他の機関の研究者が共同で、新しい大規模モデル評価パラダイムである PandaLM を提案しました。 PandaLM は、評価専用に大規模なモデルをトレーニングすることにより、大規模なモデルの機能の自動化された再現可能なテストと検証を実行します。 PandaLM は、4 月 30 日に GitHub で公開された、世界初の大規模評価モデルです。関連論文は近日中に出版される予定です。
GitHub アドレス: https://github.com/WeOpenML/PandaLM
PandaLM は、大規模なモデルがトレーニングを通じてさまざまな大規模なモデルによって生成されたテキストに対する人間の全体的な好みを学習し、好みに基づいて相対評価を行うことで、手動または API ベースの評価方法を置き換えてコストを削減できるようにすることを目的としています。効率。 PandaLM の重みは完全に公開されており、ハードウェアしきい値が低い消費者向けハードウェアで実行できます。 PandaLM の評価結果は信頼性が高く、完全に再現可能で、データのセキュリティを保護できます。評価プロセスはローカルで完了できるため、機密データを必要とする学術機関や部門での使用に非常に適しています。 PandaLM の使用は非常に簡単で、呼び出すのに必要なコードは 3 行だけです。 PandaLM の評価機能を検証するために、PandaLM チームは 3 人のプロのアノテーターを招き、さまざまな大規模モデルの出力を独立して判断してもらい、50 分野の 1,000 サンプルを含む多様なテスト セットを構築しました。このテスト セットでは、PandaLM の精度は ChatGPT の 94% のレベルに達し、PandaLM はモデルの長所と短所について手動アノテーションと同じ結論を出しました。
PandaLM の概要
(1) を呼び出すことによってサードパーティ企業の API インターフェイス;
(2) 手動アノテーションのために専門家を雇います。
ただし、データをサードパーティ企業に転送すると、Samsung 従業員がコードを漏洩した場合と同様のデータ侵害が発生する可能性があります [1]。大量のデータにラベルを付けるために専門家を雇う時期が来ています。 -消費量が多く高価です。解決すべき緊急の問題は、プライバシーを保護し、信頼性があり、再現可能で、安価な大規模モデルの評価をどのように達成するかということです。
これら 2 つの評価方法の限界を克服するために、この研究では、特に大規模モデルのパフォーマンスを評価するために使用される審判モデルである PandaLM を開発しました。 to PandaLM は、たった 1 行のコードで呼び出すことができ、プライバシーを保護し、信頼性が高く、再現性があり、経済的な大規模モデル評価を実現できます。 PandaLM のトレーニングの詳細については、オープンソース プロジェクトを参照してください。
PandaLM の大規模モデルを評価する能力を検証するために、研究チームは、人間が生成したコンテキストとラベルを備えた、人間が注釈を付けた約 1,000 個のサンプルからなる多様なテスト セットを構築しました。テスト データ セットでは、PandaLM-7B は ChatGPT (gpt-3.5-turbo) の 94% の精度を達成しました。
PandaLM の使用方法?
2 つの異なる大規模モデルが同じ命令とコンテキストに対して異なる応答を生成する場合、PandaLM の目標は、2 つのモデルの応答の品質を比較し、その比較結果を出力することです。結果、比較の根拠、および参考のための回答。比較結果は 3 つあります: 応答 1 の方が優れている、応答 2 の方が優れている、応答 1 と応答 2 は同等の品質です。複数の大規模モデルのパフォーマンスを比較する場合、PandaLM を使用してペアごとの比較を実行し、これらの比較を集計してモデルのパフォーマンスをランク付けしたり、モデルの半次数をプロットしたりするだけです。これにより、異なるモデル間のパフォーマンスの違いを視覚的に分析できます。 PandaLM はローカルに展開するだけで済み、人間の関与を必要としないため、プライバシーを保護し、低コストの方法で評価できます。より良い解釈を提供するために、PandaLM はその選択を自然言語で説明し、追加の参照応答セットを生成することもできます。
PandaLM は、ケース分析のための Web UI の使用をサポートするだけでなく、PandaLM を呼び出すための 3 行のコードもサポートします。任意のモデルとデータ生成テキストの評価。既存のモデルやフレームワークの多くがオープンソースではないか、ローカルでの推論が難しいことを考慮すると、PandaLM では、モデルの重みを指定するか、評価対象のテキストを含む .json ファイルを直接渡すことによって、評価対象のテキストを生成できます。ユーザーは、モデル名、HuggingFace モデル ID、または .json ファイル パスのリストを指定するだけで、PandaLM を利用してユーザー定義モデルを評価し、データを入力できます。以下は最小限の使用例です:
また、誰もが柔軟に PandaLM を使用できるようにするために、無料評価を行っています。 , 研究チームはHuggingFaceのWebサイトでPandaLMのモデル重量を公開しています。次のコマンドを使用して、PandaLM-7B モデルを簡単にロードできます。
PandaLM-7B モデルの機能
PandaLMの特徴としては、再現性、自動化、プライバシー保護、低コスト、高い評価レベルが挙げられます。
1. 再現性: PandaLM の重みは公開されているため、言語モデルの出力にランダム性がある場合でも、ランダム シードを修正した後の PandaLM の評価結果は一貫したままになります。オンライン API に依存する評価方法では、更新が不透明であるため、その時々で一貫性のない更新が行われる可能性があり、モデルが反復されると API 内の古いモデルにアクセスできなくなる可能性があるため、オンライン API に基づく評価は再現できないことがよくあります。
2. 自動化、プライバシー保護、低コスト: ユーザーは、PandaLM モデルをローカルにデプロイし、既成のコマンドを呼び出すだけで、さまざまな大規模なモデルを評価できます。専門家を雇うのと同じ時間でコミュニケーションを取り、データ侵害について心配することができます。同時に、PandaLM の評価プロセス全体には API 料金や人件費がかからず、非常に安価です。
3. 評価レベル: PandaLM の信頼性を検証するために、この研究では 3 人の専門家を雇い、繰り返しのアノテーションを独立して完了させ、手動のアノテーション テスト セットを作成しました。テスト セットには 50 の異なるシナリオが含まれており、それぞれに複数のタスクが含まれます。このテスト セットは多様性があり、信頼性が高く、テキストに対する人間の好みと一致しています。テスト セット内の各サンプルは、命令とコンテキスト、および異なる大規模モデルによって生成された 2 つの応答で構成され、2 つの応答の品質は人間によって比較されます。
この調査では、アノテーター間で大きな差があるサンプルを排除して、最終的なテストセットにおける各アノテーターの IAA (アノテーター間合意) が 0.85 に近くなるようにしています。 PandaLM トレーニング セットと、この研究で作成された手動で注釈が付けられたテスト セットの間にはまったく重複がないことに注意してください。
#これらのフィルタリングされたサンプルには、判断を支援するために追加の知識や入手困難な情報が必要であり、人間にとっては困難です正確にラベルを付けます。フィルタリングされたテスト セットには 1000 個のサンプルが含まれていますが、フィルタリングされていない元のテスト セットには 2500 個のサンプルが含まれています。テスト セットの分布は {0:105, 1:422, 2:472} で、0 は 2 つの応答が同様の品質であることを示し、1 は応答 1 の方が優れていることを示し、2 は応答 2 の方が優れていることを示します。
人間のテスト セットに基づく、PandaLM と gpt-3.5-turbo のパフォーマンスの比較は次のとおりです。
PandaLM-7B は精度において gpt-3.5-turbo のレベル 94% に達しており、適合率、再現率、F1 スコアの点で PandaLM-7B が達成されていることがわかります。 7B は gpt -3.5-turbo を上回りました。それほど遠くありません。 PandaLM-7B はすでに gpt-3.5-turbo と同等の大規模モデル評価能力を備えていると言えます。
この調査では、テスト セットの精度、適合率、再現率、F1 スコアに加えて、同様のサイズの 5 つの大規模なオープンソース モデル間の比較も提供されています。この研究では、まず同じトレーニング データを使用して 5 つのモデルを微調整し、次に人間、gpt-3.5-turbo、および PandaLM を使用して 5 つのモデルのペアごとの比較を実施しました。以下の表の最初の行の最初のタプル (72、28、11) は、Bloom-7B よりも優れた LLaMA-7B 応答が 72 個あり、Bloom-7B よりも悪い LLaMA-7B 応答が 28 個あることを示しています。モデルには同様の品質の 11 件の応答がありました。したがって、この例では、人間は LLaMA-7B が Bloom-7B よりも優れていると考えています。以下の 3 つの表の結果は、人間、gpt-3.5-turbo、PandaLM-7B の各モデルの優劣に関する判断が完全に一致していることを示しています。
上記の 3 つの表に基づいて、この研究ではモデルの長所と短所の部分順序図を生成しました。この部分順序図は、LLaMA-7B > Bloom-7B > Pythia-6.9B > OPT-7B > Cerebras-GPT-6.7B として表現できる全順序関係が得られます。
概要要約すると、PandaLM は手動評価に加えて、サードパーティ API A を提供します。大規模モデルを評価するための 3 番目のオプション。 PandaLM の評価レベルは高いだけでなく、その結果は再現可能であり、評価プロセスは高度に自動化されており、プライバシーは保護され、コストは低くなっています。研究チームは、PandaLM が学術界や産業界における大規模モデルの研究を促進し、より多くの人々がこの研究分野の進歩の恩恵を受けることができるようになると信じています。どなたでも PandaLM プロジェクトにご注目ください。トレーニング、テストの詳細、関連記事、フォローアップ作業の詳細は、プロジェクト Web サイト (https://github.com/WeOpenML/PandaLM#) で発表されます。
# #著者チームの紹介
著者チームの中で、Wang Yidong* は北京大学国立ソフトウェア工学センターの出身です (博士) .D.) および西湖大学 (研究助手)、Yu Zhuohao*、Zeng Zhengran 、Jiang Chaoya、Xie Rui、Ye Wei†、および Zhang Shikun† は、北京大学国立ソフトウェア工学センター出身、Yang Linyi、Wang Cunxiang と Zhang Yue† は西湖大学の出身で、Heng Qiang はノースカロライナ州立大学の出身で、Chen Hao はカーネギーメロン大学の出身で、Jindong Wang と Xie Xing は Microsoft Research Asia の出身です。 * は共同第一著者を示し、† は共同責任著者を示します。以上が再現可能、自動化、低コスト、高レベルの評価を実現する、大規模モデルを自動評価する初の大規模モデル PandaLM が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。