BERT の後、研究者は大規模な事前トレーニング モデルの可能性に気づき、さまざまな事前トレーニング タスク、モデル アーキテクチャ、トレーニング戦略などが提案されています。ただし、BERT タイプのモデルには通常 2 つの大きな欠点があります: 1 つはラベル付きデータへの過度の依存、もう 1 つは過剰適合です。
具体的には、現在の言語モデルは 2 段階のフレームワーク、つまり、事前トレーニングと下流タスクの微調整を使用する傾向がありますが、微調整中に大量のサンプルが必要になります。 -下流タスクのプロセスを調整する そうしないと、効果は低くなりますが、データのラベル付けのコストが高くなります。ラベル付きデータも限られており、モデルはトレーニング データの分布にのみ適合できますが、データが少ないと過剰適合につながりやすく、モデルの汎化能力が低下します。
大規模モデルのパイオニアとして、大規模な事前トレーニング済み言語モデル、特に GPT-3 は、驚くべき ICL (In-Context Learning) 機能を示しています。追加のパラメーター更新が必要な微調整とは異なり、ICL ではデモンストレーション用の「入力ラベル」ペアが数個だけ必要であり、モデルは目に見えない入力ラベルであってもラベルを予測できます。多くの下流タスクでは、大規模な GPT モデルは非常に優れたパフォーマンスを達成でき、教師あり微調整を使用すると一部の小規模モデルを上回ることさえあります。
なぜ ICL は非常に優れたパフォーマンスを発揮するのでしょうか? OpenAI の 70 ページを超える論文「言語モデルは少数回の学習者である」で、ICL について詳しく説明されています。使用するドメイン データが少なくなり、微調整せずに問題を解決できます。
次の図に示すように、ICL には 3 つのカテゴリがあります: いくつかの例とタスクの説明を入力できる少数ショット学習、タスクの説明のみを入力できるワンショット学習1 つの例と 1 つのタスクの説明の入力 タスクの説明; ゼロショット学習では例の入力は許可されず、タスクの説明のみが許可されます。結果は、ICL はバックプロパゲーションを必要とせず、入力テキストのコンテキストに少数のラベル付きサンプルを配置するだけで、GPT-3 に回答を出力させることができることを示しています。
##GPT-3 コンテキスト学習# 実験により、GPT-3 がフューショット下で非常に優れたパフォーマンスを発揮することが証明されました:
GPT を研究できる理由インコンテキストで? ICL はパフォーマンスの面で大きな成功を収めていますが、その動作メカニズムはまだ研究すべき未解決の問題です。 ICL の仕組みをより深く理解するために、次に北京大学、清華大学、その他の機関による研究で ICL がどのように説明されているかを紹介します。
論文アドレス: https://arxiv.org/pdf/2212.10559v2.pdf
これに基づいて、この研究は ICL を説明するための新しい視点を提案します。GPT は最初に実証例に基づいてメタ勾配を生成し、次にこれらのメタ勾配を元の GPT に適用して構築します。 ICLモデル。
図 1 に示すように、ICL と明示的微調整は、勾配降下法に基づく二重最適化形式を共有します。唯一の違いは、ICL は順方向計算によってメタ勾配を生成するのに対し、微調整は逆伝播によって勾配を計算することです。したがって、ICL をある種の暗黙的な微調整として理解するのが合理的です。 ICR は暗黙的な微調整を実行します 調査では、最初に定性分析 勾配降下法ベースの最適化との二重性を見つけるための、リラックスした線形注意の形でのトランスフォーマーの注意。次にこの研究では、ICL と明示的な微調整を比較し、これら 2 つの最適化形式間の関連性を確立します。これらの理論的発見に基づいて、彼らは ICL を暗黙的な微調整として理解することを提案しています。 まず第一に、この研究では、Transforme の注意をメタ最適化と見なし、ICL をメタ最適化プロセスとして解釈します。 (1) Transformer に基づく事前トレーニング済み言語モデルは、メタオプティマイザー; ( 2) 順計算を通じてインスタンスに基づいてメタグラデーションを生成; (3) ICL を構築するための注意を通じて元の言語モデルにメタグラデーションを適用します。 次はICLとファインチューニングの比較です。研究では、さまざまな設定において、ICL は微調整により多くの特性を共有していることがわかりました。彼らは、これらの共通点を次の 4 つの側面から整理しました: どちらも勾配降下法を実行すること、同じトレーニング情報、トレーニング例の同じ因果関係の順序、そして両方とも注意を中心に展開することです。 ICL と微調整の間のこれらすべての共通特性を考慮すると、この研究では、ICL を暗黙的な微調整として理解するのが合理的であると主張しています。このペーパーの残りの部分では、この研究では、この理解を裏付ける定量的な結果を提供するために、ICL と微調整を複数の側面から経験的に比較します。 実験結果 さらに、この研究は、メタ最適化の理解に触発されて、運動量ベースの勾配降下法アルゴリズムと類似して、運動量ベースの注意を設計しました。これは、バニラのアテンションのパフォーマンスを常に上回っています。 表 2 は、6 つの分類データセットに対する ZSL (ゼロショット学習)、ICL、および微調整 (FT) 設定における検証精度を示しています。 ICL と微調整はどちらも ZSL と比較して大幅な改善を達成しています。これは、行われた最適化がこれらの下流タスクに役立つことを意味します。さらに、この研究では、ショット数が少ないシナリオでは、微調整よりも ICL の方が優れたパフォーマンスを発揮することがわかりました。
6 つのデータセットに対する 2 つの GPT モデルの Rec2FTP スコアを表 3 に示します。平均して、ICL は微調整で修正できる ZSL の例の 87.64% を正確に予測できます。これらの結果は、予測レベルでは、ICL が正しい微調整動作のほとんどをカバーできることを示しています。 表 3 には、6 つのデータセット上の 2 つの GPT モデルの例と層の平均 SimAOU スコアも示しています。比較のために、この研究では、ICL アップデートとランダムに生成されたアップデートの間の類似性を計算するベースライン メトリック (Random SimAOU) も提供しています。表からわかるように、ICL の更新はランダムな更新よりも微調整された更新に似ています。つまり、表現レベルでは、ICL は微調整された変更の方向に注意の結果を変更する傾向があります。 最後に、表 3 には、6 つのデータセット上の 2 つの GPT モデルの例と層の平均 SimAM スコアも示されています。 SimAM のベースライン メトリックとして、ZSL SimAM は ICL アテンション ウェイトと ZSL アテンション ウェイト間の類似性を計算します。この研究では、2 つの指標を比較することにより、ICL は ZSL と比較して、微調整と同様の注意の重みを生成する傾向が高いことがわかりました。注意行動のレベルでも、この研究は ICL がナッジのように動作することを示しています。 ICL と微調整の類似点をより徹底的に調査するために、この調査では、さまざまなレイヤーの SimAOU スコアと SimAM スコアを比較しました。各データセットから 50 個の検証例をランダムにサンプリングすることにより、以下の図 2 と図 3 に示すように、SimAOU および SimAM 箱ひげ図がそれぞれ描画されました。 この図から、SimAOU と SimAM は下位層では変動し、上位層ではより安定する傾向があることがわかります。この現象は、ICL によって実行されるメタ最適化には順方向累積効果があり、累積が増加するにつれて、ICL はより高レベルの微調整のように動作することを示しています。 結論として、この記事は ICL ベースの動作を説明することを目的としています。 GPTメカニズムについて。理論的には、この研究は ICL の二重形式を発見し、ICL をメタ最適化プロセスとして理解することを提案します。さらに、この研究では ICL と特定の微調整設定との関連性が確立され、ICL を暗黙的な微調整と考えるのが合理的であることがわかりました。 ICL によって実行される暗黙的な微調整の理解をサポートするために、この研究では、ICL の動作と実際のタスクベースの微調整を包括的に比較します。 ICL は明示的な微調整に似ていることがわかりました。 さらに、この研究は、メタ最適化に触発されて、一貫したパフォーマンスの向上を達成するために、勢いに基づいた注意を設計しました。著者らは、この研究がより多くの人々にICLアプリケーションとモデル設計についての洞察を得るのに役立つことを願っています。
以上がGPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。