コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > テクノロジー周辺機器 > AI > コンテキスト学習の背後にある数学

コンテキスト学習の背後にある数学

王林

リリース： 2025-02-26 00:03:10

オリジナル

643 人が閲覧しました

最新の大手言語モデル（LLMS）の重要な機能である

コンテキスト学習（ICL）は、入力プロンプト内の例に基づいてトランスを適応させることができます。いくつかのショットプロンプトは、いくつかのタスクの例を使用して、望ましい動作を効果的に実証します。しかし、トランスフォーマーはこの適応をどのように達成しますか？この記事では、ICLの背後にある潜在的なメカニズムについて説明します

The Math Behind In-Context Learning

ICLのコアは次のとおりです。例のペア（（x、y））の場合、注意メカニズムはアルゴリズムを学習して、新しいクエリ（x）の出力（y）？

に新しいクエリ（x）をマッピングできます。

SoftMaxの注意と最近隣の検索

SoftMaxの注意式は

です

The Math Behind In-Context Learning

逆温度パラメーターの導入

c は、注意割り当てを変更します：

The Math Behind In-Context Learning

cが無限に近づくにつれて、注意は1ホットのベクトルになり、最も類似したトークンのみに焦点を当てます。有限cでは、注意はガウスカーネルの平滑化に似ています。これは、ICLが入出力ペアに最も近い隣接アルゴリズムを実装する可能性があることを示唆しています。意味とさらなる研究

トランスがどのように学習するかを理解する（最近隣人のように）Automlのドアを開く。 Hollmann et al。合成データセットで変圧器をトレーニングして、Automlパイプライン全体を学習し、1回のパスで新しいデータから最適なモデルとハイパーパラメータを予測しました。

Anthropicの2022年の研究は、メカニズムとして「誘導ヘッド」を示唆しています。これらの注意ヘッドのペアコピーと完全なパターン。たとえば、「... a、b ... a」を与えられた場合、彼らは以前のコンテキストに基づいて「b」を予測します。

最近の研究（Garg etal。2022、Oswald etal。2023）は、変圧器のICLを勾配降下にリンクします。 SoftMax操作を省略する線形注意：

は、前処理された勾配降下（PGD）に似ています：

The Math Behind In-Context Learning

線形注意の1つの層が1つのPGDステップを実行します。

The Math Behind In-Context Learning 結論

注意メカニズムは、学習アルゴリズムを実装し、デモンストレーションペアから学習することでICLを有効にすることができます。複数の注意層とMLPの相互作用は複雑ですが、研究はICLのメカニズムに光を当てています。この記事では、これらの洞察の高レベルの概要を説明しています

さらなる読み取り：

コンテキスト内学習および誘導ヘッド

変圧器はコンテキスト内を何を学ぶことができますか？単純な関数クラスのケーススタディ

トランスは、勾配降下によってコンテキスト内を学習します

トランスフォーマーは、コンテキスト内学習のために前処理された勾配降下を実装することを学びます

謝辞

この記事は、ミシガン大学での2024年秋の卒業生授業に触発されています。エラーは著者のみです

以上がコンテキスト学習の背後にある数学の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

前の記事：履歴書からAIとLLMを使用したカバーレターまで、PythonとRimelit 次の記事：2024年のコーディングのためのLLMS：価格、パフォーマンス、そして最高の戦い

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

オープンソースLLMSをホストする経済学

2025-02-26 03:15:10
マシンが先を考えるとき：戦略的AIの台頭

2025-02-26 03:06:12
ChatGptの進化を理解する：パート3- Codexとinstantgptからの洞察

2025-02-26 02:58:10
LLMにスパース自動エンコーダーを備えた特徴回路の定式化

2025-02-26 01:46:08
コンテキスト学習の背後にある数学

2025-02-26 00:03:10
履歴書からAIとLLMを使用したカバーレターまで、PythonとRimelit

2025-02-25 23:59:12
reftは必要なすべてですか？

2025-02-25 19:49:12
AI搭載の情報抽出とマッチメイキング

2025-02-25 19:27:13
事業計画と起業家精神のためのAI駆動のスマートガイドの開発

2025-02-25 18:36:11
llama3.2および同様の大手言語モデルを剪定する方法

2025-02-25 18:26:08

最新の問題

function_exists() はカスタム関数を決定できません Function test () {return true;} if (function_exists ('test')) {echo "テストは関数です";

から 2024-04-29 11:01:01

0

3

2836

Google Chromeのモバイル版を表示する方法こんにちは、先生、Google Chrome をモバイル版に変更するにはどうすればよいですか?

から 2024-04-23 00:22:19

0

11

2960

子ウィンドウは親ウィンドウを操作しますが、出力は応答しません。最初の 2 つの文は実行可能ですが、最後の文は実装できません。

から 2024-04-19 15:37:47

0

1

2481

親ウィンドウには出力がありません document.onclick = function(){ window.opener.document.write('私は子ウィンドウの出力です');

から 2024-04-18 23:52:34

0

1

2407

CSS マインドマッピングに関するコースウェアはどこにありますか? コースウェア

から 2024-04-16 10:10:18

0

0

2453

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート