言語モデルは将来のトークンを計画しますか?この文書ではその答えが得られます。
「ヤン・ルカンには見せないでください。」
ヤン・ルカンはもう手遅れだ、もう見てしまったと言った。それ。今日紹介する「LeCun 必読」論文で議論されている問題は、「Transformer は思慮深い言語モデルですか?」です。特定の場所で推論を実行するとき、その後の場所を予測しますか?
この研究の結論は次のとおりです。Transformer にはこれを実行する機能がありますが、実際には実行されません。
人間は話す前に考えるということは誰もが知っています。 10 年にわたる言語研究の結果、人間が言語を使用するとき、次に入力される言語、つまり単語や文章を頭の中で予測していることがわかりました。
人間とは異なり、現在の言語モデルは、「話す」ときに各トークンに固定量の計算を割り当てます。したがって、言語モデルは人間のように事前に考えるのでしょうか?と尋ねずにはいられません。
最近の研究によると、言語モデルの隠れた状態を調べることで次のトークンを予測できることが示されています。興味深いことに、モデルの隠れ状態に線形プローブを使用することで、将来のトークンに対するモデルの出力をある程度予測でき、将来の出力を予測どおりに変更できます。 最近の研究では、言語モデルの隠れた状態を調査することで次のトークンを予測できることが示されています。興味深いことに、モデルの隠れ状態に線形プローブを使用することで、将来のトークンに対するモデルの出力をある程度予測でき、将来の出力を予測どおりに変更できます。
これらの発見は、特定のタイム ステップでのモデルのアクティブ化が将来の出力を少なくとも部分的に予測できることを示唆しています。
しかし、その理由はまだわかりません。これは単にデータの偶然の性質なのか、それともモデルが将来のタイムステップに向けて情報を意図的に準備しているためでしょうか (ただし、これは現在の位置でのモデルのパフォーマンスに影響します) )?
この質問に答えるために、コロラド大学ボルダー大学とコーネル大学の 3 人の研究者が最近、「言語モデルは将来のトークンを計画するのか?」というタイトルの記事を発表しました。 "論文。
論文のタイトル: Do Language Models Plan for Future Tokens?
論文のアドレス: https://arxiv.org/pdf/2404.00859.pdf
研究概要
研究者らは、トレーニング中の勾配によって、現在のトークン位置での損失とシーケンスの後半のトークンの両方の重みが最適化されることを観察しました。彼らはさらに、現在のトランスフォーマーの重みが現在のトークンと将来のトークンにどのような割合でリソースを割り当てるのかを尋ねました。
彼らは、事前キャッシュ仮説とブレッドクラム仮説という 2 つの可能性を検討しました。
事前キャッシュ仮説は、変換器が現在のタイム ステップの推論タスクには無関係であるが、将来的に役立つ可能性のある特徴をタイム ステップ t で計算することを意味します。ステップ t τ 、ブレッドクラム 仮定は、タイム ステップ t で最も関連性の高い特徴が、タイム ステップ t τ で最も有用となる特徴とすでに同等であるということです。
どの仮説が正しいかを評価するために、チームは、現在の位置での損失の勾配を前の位置での隠れた状態に伝播させない近視訓練スキームを提案しました。
上記の仮定とスキームの数学的定義と理論的説明については、元の論文を参照してください。
実験結果
言語モデルがプリキャッシュを直接実装できるかどうかを理解するために、明示的なプリキャッシュを通じてのみタスクを実行できる合成シナリオを設計しました。 。彼らは、モデルが次のトークンの情報を事前計算する必要があるタスクを構成しました。そうしないと、単一パスで正しい答えを正確に計算できなくなります。
# チームによって構築された合成データ セットの定義。
この合成シーンで、チームはトランスフォーマーが事前キャッシュを学習できるという明確な証拠を発見しました。トランスフォーマーベースのシーケンス モデルは、損失を最小限に抑えるために情報を事前計算する必要がある場合にこれを実行します。 彼らは次に、自然言語モデル (事前トレーニング済み GPT-2 バリアント) がパンくず仮説とプリキャッシュ仮説を示すかどうかを調査しました。近視トレーニング スキームを用いた実験では、この設定ではプリキャッシュが発生する頻度がはるかに低いため、結果はブレッドクラム仮説に偏っていることがわかりました。 #####が作られました。トークン位置と近視のGPT-2モデルに基づいた元のGPT-2モデルの違い。
###したがって、チームは次のように主張しています。実際の言語データでは、言語モデルは将来の情報を大幅に準備しません。代わりに、これらは次のトークンを予測するのに役立つコンピューティング機能であり、将来のステップでも役立つことがわかります。
チームは次のように述べています。「言語データでは、次のトークン損失に備えて貪欲に最適化することと、将来の予測パフォーマンスを確保することの間に大きな違いがないことがわかりました。 ."
したがって、Transformer が先見性を発揮できるかどうかという問題は、本質的にはデータの問題であることがおそらくわかります。#将来的には、適切なデータ編成方法を使用して、言語モデルに人間のように事前に考える能力を与えることができるかもしれないと考えられます。
以上がトランスフォーマーは先のことを考えているかもしれないが、それを実行しないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。