LLM はインコンテキスト学習で優れたパフォーマンスを達成しましたが、別の例を選択すると、まったく異なるパフォーマンスが得られます。最近の研究成果では、予測バイアスの観点から迅速な検索戦略を提案し、例の最適な組み合わせを近似的に見つけます。
大規模な言語モデルは、コンテキスト学習において驚くべき機能を示しています。これらのモデルは、微調整を必要とせずに、いくつかの入出力例から構築されたコンテキストから学習できます。最適化は、多くの下流タスクに直接適用されます。ただし、これまでの研究では、トレーニング例、例の順序、プロンプト形式の変更により、コンテキスト学習が高度な不安定性を示す可能性があることが示されています。したがって、状況に応じた学習のパフォーマンスを向上させるには、適切なプロンプトを構築することが重要です。
従来の研究では、通常、この問題を 2 つの方向から研究しています: (1) 符号化空間でのプロンプト チューニング (プロンプト チューニング)、(2) 元の空間での検索 (プロンプト検索)。
プロンプト調整の重要なアイデアは、タスク固有の埋め込みを隠れ層に挿入し、勾配ベースの最適化を使用してこれらの埋め込みを調整することです。ただし、これらの方法では、モデルの元の推論プロセスを変更し、モデルの勾配を取得する必要がありますが、GPT-3 や ChatGPT のようなブラックボックス LLM サービスでは現実的ではありません。さらに、ヒント チューニングにより追加の計算コストとストレージ コストが発生し、LLM にとっては一般的に高価になります。
より実現可能で効率的なアプローチは、元のテキスト空間でおおよそのデモンストレーション サンプルとシーケンスを検索してプロンプトを最適化することです。一部の作業では、「グローバル ビュー」または「ローカル ビュー」からプロンプトが作成されます。グローバル ビュー ベースの方法では、通常、プロンプトのさまざまな要素が全体として最適化され、パフォーマンスが向上します。たとえば、多様性に基づくアプローチ [1] では、検索用のデモンストレーションの全体的な多様性を利用したり、サンプルの組み合わせ順序 [2] 全体を最適化してパフォーマンスを向上させたりします。グローバル ビューとは対照的に、ローカル ビューベースの方法は、KATE [3] などのさまざまなヒューリスティック選択基準を設計することによって機能します。
しかし、これらの方法には独自の制限があります: (1) 現在の研究のほとんどは、例の選択や順序などの単一の要素に沿って手がかりを検索することに主に焦点を当てています。ただし、各要因がパフォーマンスに与える全体的な影響は不明です。 (2) これらの方法は通常ヒューリスティック基準に基づいており、これらの方法がどのように機能するかを説明するには統一された視点が必要です。 (3) さらに重要なのは、既存の方法ではヒントをグローバルまたはローカルに最適化するため、パフォーマンスが不十分になる可能性があります。
この記事では、NLP 分野におけるプロンプト最適化問題を「予測バイアス」の観点から再検討し、重要な現象を発見します。それは、特定のプロンプトの品質は、そのプロンプトに固有のバイアスに依存するということです。この現象に基づいて、この記事では、予測バイアスに基づいてプロンプトの品質を評価するための代替基準を提案しています。このメトリクスは、追加の開発セットを必要とせずに、単一のフォワード プロセスを通じてプロンプトを評価できます。
具体的には、特定のプロンプトで「コンテンツなし」テストを入力すると、モデルは均一な予測分布を出力することが期待されます (「コンテンツなし」入力には有用な情報が含まれません)。したがって、この論文では、特定のプロンプトの予測偏差を表すために、予測分布の均一性が使用されます。これは、以前のポストキャリブレーション方法 [4] で使用されるメトリクスに似ていますが、固定プロンプトの下で確率的なポストキャリブレーションにこのメトリクスを使用するポストキャリブレーションとは異なり、この論文では、近似プロンプトを自動的に検索する際のそのアプリケーションをさらに検討します。そして、広範な実験を通じて、特定のプロンプトに固有のバイアスと、特定のテストセットでの平均タスクパフォーマンスとの相関関係を確認しました。
さらに、このバイアスベースのメトリックにより、このメソッドは「ローカルからグローバルへ」の方法で適切なプロンプトを検索できます。しかし、現実的な問題として、その複雑さは O (N!) を超えるため、すべての組み合わせを走査して最適解を探索することは不可能です。
この研究では、高品質のプロンプトを効率的に検索するための 2 つの新しい戦略を提案しています: (1) T-フェア プロンプティング (2) G-フェア プロンプティング。 T-fair-Prompting は直感的なアプローチを使用し、最初に各サンプルの偏差を個別に計算してプロンプトを形成し、次に上位 k 個の最も公平なサンプルを選択して最終プロンプトに結合します。この戦略は非常に効率的で、複雑さは O (N) です。ただし、T-fair-Prompting は、最適なプロンプトは通常、最も偏りのない例から構築されるという前提に基づいていることに注意してください。ただし、これは実際の状況では当てはまらない可能性があり、多くの場合、局所的な最適解が得られます。したがって、検索品質を向上させるために、記事では G-fair-Prompting がさらに導入されています。 G-fair-Prompting は、貪欲な検索の通常のプロセスに従い、各ステップで局所的な最適な選択を行うことで最適なソリューションを見つけます。アルゴリズムの各ステップで、更新されたプロンプトが最悪の場合の時間計算量 O (N^2) で最適な公平性を達成するようにサンプルが選択され、検索品質が大幅に向上します。 G-fair-Prompting は、ローカルからグローバルへの観点から機能します。初期段階では個々のサンプルのバイアスが考慮され、後の段階ではグローバルな予測バイアスの削減に焦点が当てられます。
この研究は、さまざまな下流タスクに適用できる、言語モデルのコンテキスト学習パフォーマンスを向上させるための効果的で解釈可能な方法を提案します。この記事では、さまざまな LLM (GPT シリーズのモデルや最近リリースされた LMaMA シリーズを含む) でのこれら 2 つの戦略の有効性を検証しています。SOTA 手法と比較して、G-fair-Prompting はさまざまなダウンストリーム タスクで 10% 以上を達成しました。 。
この研究に最も近いのは、使用前キャリブレーション [4] 手法です。どちらも、モデルのパフォーマンスを向上させるために「コンテンツのない」入力を使用します。ただし、使用前キャリブレーション方法は、この標準を使用して出力をキャリブレーションするように設計されており、使用されるサンプルの品質の影響を受けやすくなります。対照的に、この論文は、モデル出力の後処理を行わずに、元の空間を検索してモデルのパフォーマンスを向上させる最適に近いプロンプトを見つけることを目的としています。さらに、この論文は、使用前キャリブレーション方法ではまだ研究されていない、予測バイアスと最終的なタスクのパフォーマンスとの関連性を広範な実験を通じて初めて実証しました。
実験を通じて、キャリブレーションを行わなくても、この記事で提案した方法によって選択されたプロンプトは、キャリブレーションされたランダムに選択されたプロンプトよりも優れている可能性があることもわかります。これは、この方法が実際のアプリケーションで実用的かつ効果的であり、将来の自然言語処理研究にインスピレーションを与える可能性があることを示しています。
以上がプロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。