ホームページ テクノロジー周辺機器 AI GPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行します

GPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行します

Apr 25, 2023 pm 10:16 PM
gpt モデル

BERT の後、研究者は大規模な事前トレーニング モデルの可能性に気づき、さまざまな事前トレーニング タスク、モデル アーキテクチャ、トレーニング戦略などが提案されています。ただし、BERT タイプのモデルには通常 2 つの大きな欠点があります: 1 つはラベル付きデータへの過度の依存、もう 1 つは過剰適合です。

具体的には、現在の言語モデルは 2 段階のフレームワーク、つまり、事前トレーニングと下流タスクの微調整を使用する傾向がありますが、微調整中に大量のサンプルが必要になります。 -下流タスクのプロセスを調整する そうしないと、効果は低くなりますが、データのラベル付けのコストが高くなります。ラベル付きデータも限られており、モデルはトレーニング データの分布にのみ適合できますが、データが少ないと過剰適合につながりやすく、モデルの汎化能力が低下します。

大規模モデルのパイオニアとして、大規模な事前トレーニング済み言語モデル、特に GPT-3 は、驚くべき ICL (In-Context Learning) 機能を示しています。追加のパラメーター更新が必要な微調整とは異なり、ICL ではデモンストレーション用の「入力ラベル」ペアが数個だけ必要であり、モデルは目に見えない入力ラベルであってもラベルを予測できます。多くの下流タスクでは、大規模な GPT モデルは非常に優れたパフォーマンスを達成でき、教師あり微調整を使用すると一部の小規模モデルを上回ることさえあります。

なぜ ICL は非常に優れたパフォーマンスを発揮するのでしょうか? OpenAI の 70 ページを超える論文「言語モデルは少数回の学習者である」で、ICL について詳しく説明されています。使用するドメイン データが少なくなり、微調整せずに問題を解決できます。

次の図に示すように、ICL には 3 つのカテゴリがあります: いくつかの例とタスクの説明を入力できる少数ショット学習、タスクの説明のみを入力できるワンショット学習1 つの例と 1 つのタスクの説明の入力 タスクの説明; ゼロショット学習では例の入力は許可されず、タスクの説明のみが許可されます。結果は、ICL はバックプロパゲーションを必要とせず、入力テキストのコンテキストに少数のラベル付きサンプルを配置するだけで、GPT-3 に回答を出力させることができることを示しています。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

##GPT-3 コンテキスト学習# 実験により、GPT-3 がフューショット下で非常に優れたパフォーマンスを発揮することが証明されました:

GPT を研究できる理由インコンテキストで?

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

ICL はパフォーマンスの面で大きな成功を収めていますが、その動作メカニズムはまだ研究すべき未解決の問題です。 ICL の仕組みをより深く理解するために、次に北京大学、清華大学、その他の機関による研究で ICL がどのように説明されているかを紹介します。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降論文アドレス: https://arxiv.org/pdf/2212.10559v2.pdf

  • プロジェクトアドレス: https://github.com/microsoft/LMOps
  • #ネチズンの言葉で要約すると、すなわち、「この研究は、GPT が特定の実行を実行するために内部最適化を使用することを自然に学習することを示しています。この研究はまた、コンテキスト内学習と明示的な微調整が複数のレベルで同様に実行されるという経験的証拠も提供します。」
ICL の仕組みをより深く理解するために、この研究では、言語モデルをメタ オプティマイザーとして、ICL をメタ最適化プロセスとして、ICL を暗黙的な微調整として解釈し、GPT ベース間のリンクを確立することを試みます。 ICLと微調整。理論的には、この研究では、Transformer の注意には勾配降下法に基づく二重最適化の形式があることがわかりました。

これに基づいて、この研究は ICL を説明するための新しい視点を提案します。GPT は最初に実証例に基づいてメタ勾配を生成し、次にこれらのメタ勾配を元の GPT に適用して構築します。 ICLモデル。

図 1 に示すように、ICL と明示的微調整は、勾配降下法に基づく二重最適化形式を共有します。唯一の違いは、ICL は順方向計算によってメタ勾配を生成するのに対し、微調整は逆伝播によって勾配を計算することです。したがって、ICL をある種の暗黙的な微調整として理解するのが合理的です。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降ICR は暗黙的な微調整を実行します

調査では、最初に定性分析 勾配降下法ベースの最適化との二重性を見つけるための、リラックスした線形注意の形でのトランスフォーマーの注意。次にこの研究では、ICL と明示的な微調整を比較し、これら 2 つの最適化形式間の関連性を確立します。これらの理論的発見に基づいて、彼らは ICL を暗黙的な微調整として理解することを提案しています。

まず第一に、この研究では、Transforme の注意をメタ最適化と見なし、ICL をメタ最適化プロセスとして解釈します。 (1) Transformer に基づく事前トレーニング済み言語モデルは、メタオプティマイザー; ( 2) 順計算を通じてインスタンスに基づいてメタグラデーションを生成; (3) ICL を構築するための注意を通じて元の言語モデルにメタグラデーションを適用します。

次はICLとファインチューニングの比較です。研究では、さまざまな設定において、ICL は微調整により多くの特性を共有していることがわかりました。彼らは、これらの共通点を次の 4 つの側面から整理しました: どちらも勾配降下法を実行すること、同じトレーニング情報、トレーニング例の同じ因果関係の順序、そして両方とも注意を中心に展開することです。

ICL と微調整の間のこれらすべての共通特性を考慮すると、この研究では、ICL を暗黙的な微調整として理解するのが合理的であると主張しています。このペーパーの残りの部分では、この研究では、この理解を裏付ける定量的な結果を提供するために、ICL と微調整を複数の側面から経験的に比較します。

実験結果

この研究では、ICL の動作と実際のタスクに基づく明示的な微調整を包括的に比較する一連の実験を実施しました。事前トレーニングされた GPT は ICL で比較され、予測、注意出力、注意スコアに関して微調整された設定が行われます。予想通り、ICL は、予測、表現、注意レベルの点で明示的な微調整と非常によく似ています。これらの結果は、この妥当性を強く裏付けています。ICL は暗黙的な微調整を実行します。

さらに、この研究は、メタ最適化の理解に触発されて、運動量ベースの勾配降下法アルゴリズムと類似して、運動量ベースの注意を設計しました。これは、バニラのアテンションのパフォーマンスを常に上回っています。

表 2 は、6 つの分類データセットに対する ZSL (ゼロショット学習)、ICL、および微調整 (FT) 設定における検証精度を示しています。 ICL と微調整はどちらも ZSL と比較して大幅な改善を達成しています。これは、行われた最適化がこれらの下流タスクに役立つことを意味します。さらに、この研究では、ショット数が少ないシナリオでは、微調整よりも ICL の方が優れたパフォーマンスを発揮することがわかりました。

6 つのデータセットに対する 2 つの GPT モデルの Rec2FTP スコアを表 3 に示します。平均して、ICL は微調整で修正できる ZSL の例の 87.64% を正確に予測できます。これらの結果は、予測レベルでは、ICL が正しい微調整動作のほとんどをカバーできることを示しています。 被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

表 3 には、6 つのデータセット上の 2 つの GPT モデルの例と層の平均 SimAOU スコアも示しています。比較のために、この研究では、ICL アップデートとランダムに生成されたアップデートの間の類似性を計算するベースライン メトリック (Random SimAOU) も提供しています。表からわかるように、ICL の更新はランダムな更新よりも微調整された更新に似ています。つまり、表現レベルでは、ICL は微調整された変更の方向に注意の結果を変更する傾向があります。

最後に、表 3 には、6 つのデータセット上の 2 つの GPT モデルの例と層の平均 SimAM スコアも示されています。 SimAM のベースライン メトリックとして、ZSL SimAM は ICL アテンション ウェイトと ZSL アテンション ウェイト間の類似性を計算します。この研究では、2 つの指標を比較することにより、ICL は ZSL と比較して、微調整と同様の注意の重みを生成する傾向が高いことがわかりました。注意行動のレベルでも、この研究は ICL がナッジのように動作することを示しています。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

ICL と微調整の類似点をより徹底的に調査するために、この調査では、さまざまなレイヤーの SimAOU スコアと SimAM スコアを比較しました。各データセットから 50 個の検証例をランダムにサンプリングすることにより、以下の図 2 と図 3 に示すように、SimAOU および SimAM 箱ひげ図がそれぞれ描画されました。

この図から、SimAOU と SimAM は下位層では変動し、上位層ではより安定する傾向があることがわかります。この現象は、ICL によって実行されるメタ最適化には順方向累積効果があり、累積が増加するにつれて、ICL はより高レベルの微調整のように動作することを示しています。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

#概要

結論として、この記事は ICL ベースの動作を説明することを目的としています。 GPTメカニズムについて。理論的には、この研究は ICL の二重形式を発見し、ICL をメタ最適化プロセスとして理解することを提案します。さらに、この研究では ICL と特定の微調整設定との関連性が確立され、ICL を暗黙的な微調整と考えるのが合理的であることがわかりました。 ICL によって実行される暗黙的な微調整の理解をサポートするために、この研究では、ICL の動作と実際のタスクベースの微調整を包括的に比較します。 ICL は明示的な微調整に似ていることがわかりました。

さらに、この研究は、メタ最適化に触発されて、一貫したパフォーマンスの向上を達成するために、勢いに基づいた注意を設計しました。著者らは、この研究がより多くの人々にICLアプリケーションとモデル設計についての洞察を得るのに役立つことを願っています。

以上がGPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

See all articles