Google T5 モデルから OpenAI GPT シリーズの大規模モデルに至るまで、大規模言語モデル (LLM) がコンテキスト学習や思考連鎖推論などの優れた一般化機能を実証していることはわかっています。同時に、LLM が自然言語の命令に従い、現実世界のタスクを完了できるようにするために、研究者は LLM の命令を微調整する方法を模索してきました。これは 2 つの方法で行われます。人間による注釈が付けられたプロンプトとフィードバックを使用して、幅広いタスクでモデルを微調整する方法と、手動または自動で生成された指示で強化された公開ベンチマークとデータセットを使用して微調整を監視する方法です。
これらの方法のうち、Self-Instruct 微調整は、SOTA 命令微調整の教師 LLM によって生成されたデータに続く命令から学習し、LLM を同等にするシンプルで効果的な方法です。人間にとって意図的な調整。命令の微調整が、LLM のゼロサンプルおよび小サンプル汎化機能を向上させる効果的な手段となっていることが事実によって証明されています。
ChatGPT と GPT-4 の最近の成功は、命令の微調整を使用してオープンソース LLM を改善する大きな機会を提供します。 Meta LLaMA は、GPT-3 などの独自の LLM に匹敵するパフォーマンスを備えたオープンソース LLM ファミリです。 LLaMA に指示に従うように教えるために、Self-Instruct は優れたパフォーマンスと低コストによりすぐに採用されました。たとえば、スタンフォードの Alpaca モデルは GPT-3.5 によって生成された 52k のコマンド コンプライアンス サンプルを使用し、Vicuna モデルは ShareGPT からの約 70k のコマンド コンプライアンス サンプルを使用します。
SOTA レベルの LLM 命令微調整を進めるために、Microsoft Research は、自己命令微調整のための教師モデルとして GPT-4 を初めて使用しました。論文「GPT-4による命令チューニング」。
一方、GPT-4 によって生成されたデータに基づいて、命令微調整 LLaMA モデルと報酬モデルが開発されました。命令微調整 LLM の品質を評価するために、研究者らは 3 つの指標を使用してテストサンプルを評価しました。3 つの調整基準の手動評価、GPT-4 フィードバックに基づく自動評価、不自然な命令の ROUGE-L (自動要約評価法) です。 1つ)。
実験結果は、GPT-4 によって生成されたデータを使用した LLM 命令の微調整の有効性を検証します。 GPT-4 によって生成された 52k の中国語と英語の命令準拠データは、新しいタスクで以前の SOTA モデルよりも優れたゼロサンプル パフォーマンスを実現します。現在、研究者らは GPT-4 と関連コードを使用して生成されたデータを公開しています。
データセット
この調査では、GPT-4 を使用して次の 4 つのデータセットを生成します。図 1 は、GPT-4 と GPT-3.5 の英語の出力応答セットを比較しています。図 1 (a) と (b) は、頻度が 10 を超える動詞と名詞のペアの 2 つの出力セットを示しています。図 1 (c) は、2 つのセット内で最も頻繁に使用される 25 個の単語のペアを比較しています。図 1 (d) は、配列長の頻度分布を調べたところ、GPT-4 は GPT-3.5 よりも長い配列を生成する傾向があることがわかりました。
この研究は LLaMA 7B チェックポイントに基づいており、教師あり微調整を使用してトレーニングします2 つのモデル: ( i) LLaMA-GPT4、GPT-4 によって生成された 52K の英語指示準拠データでトレーニングされました。 (ii) LLaMA-GPT4-CN は、GPT-4 から生成された 52K の中国語命令に従ってトレーニングされています。
報酬モデル
ヒューマン フィードバックによる強化学習 (RLHF) は、LLM の行動を人間の好みに合わせて調整することを目的としています。モデリングはその重要な部分の 1 つであり、問題は多くの場合、特定のキューと応答の間の報酬を予測する回帰タスクとして定式化されます。ただし、この方法には通常、大規模な比較データが必要であり、Alpaca、Vicuna、Dolly などの既存のオープンソース モデルには、比較データの注釈付けにコストがかかるため、RLHF は含まれていません。同時に、最近の研究では、GPT-4 が自身のエラーを特定して修復し、応答の品質を正確に判断できることが示されています。そこで、本研究ではRLHFの研究を促進するために、前述のようにGPT-4を用いた比較データを作成した。
データ品質を評価するために、この調査では、このデータセットの評価用に OPT 1.3B に基づく報酬モデルもトレーニングしました。比較データの分布を図 2 に示します。
この研究では、次の 3 種類の評価を使用しました。人間評価、GPT-4、不自然な指導評価。この結果は、他の機械生成データと比較して、GPT-4 によって生成されたデータを使用することが、LLM 命令を微調整するための効率的かつ効果的な方法であることを裏付けています。次に、具体的な実験プロセスを見ていきます。
人間による評価
図 3 (a) は、LLaMA-GPT4 と Alpaca の比較結果です。実験によると、「有用性」指標では、GPT-4 が 54.12% のスコアで勝利します。図 3(b) は、LLaMA-GPT4 と GPT-4 の比較結果を示しています。これは、GPT-4 命令によって微調整された LLaMA のパフォーマンスが元の GPT-4 と同様であることを示しています。
自動評価を使用した SOTA との比較
この研究では GPT-4 を使用して、80 の目に見えない質問に対するさまざまなモデルの応答を自動的に評価します。まず、LLaMA-GPT-4 (7B) と GPT-4 の 2 つのチャットボットから回答を収集し、LLaMA (13B)、Alpaca (13B)、Vicuna (13B)、Bard (Google、2023) などの他のチャットボットを使用して回答を公開します。そしてChatGPT。研究では、各評価について GPT-4 に 2 つのモデル間の応答の質を 1 から 10 のスケールで評価するよう依頼しました。結果を図 4 に示します。
図 4 (c、d) は、すべてのチャットボットを比較しています。 LLaMA_GPT4 のパフォーマンスが優れています: 7B LLaMA GPT4 のパフォーマンスは 13B Alpaca および LLaMA よりも優れています。ただし、LLaMA_GPT4 は、GPT-4 などの大手商用チャットボットと比較すると、まだギャップがあります。
研究者らは、以下の図 5 にあるすべてのチャットボットのパフォーマンスをさらに調査しました。まず GPT-4 を使用してチャットボットの英語の応答を中国語に翻訳し、次に GPT-4 を使用して英語の質問を中国語に翻訳して回答を取得します。 GPT-4 翻訳と生成された中国語応答との比較を 5 (a) および 5 (b) に示し、中国語で回答するよう求められたすべてのモデル結果を 5 (c) に示します。
以下の図 6 では、研究者らは LLaMA-GPT4 を GPT-4 および Alpaca の不自然な命令と比較しています。結果は、グラウンド トゥルース応答の長さが増加するにつれて、LLaMA-GPT4 と GPT-4 のパフォーマンスが向上することを示しています。これは、シーンがより創造的であれば、指示にうまく従うことができることを意味します。 LLaMA-GPT4 と GPT-4 はどちらも、シーケンスの長さが短い場合に単純なグラウンド トゥルースの回答を含む応答を生成でき、余分な単語を追加すると応答をよりチャットらしくすることができます。
技術的および実験的な詳細については、元の論文を参照してください。
以上が初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。