Transformer はサポート ベクター マシン (SVM) であり、学術コミュニティでの議論を引き起こした新しい理論です。
先週末、ペンシルベニア大学とカリフォルニア大学リバーサイド校の論文では、大規模モデルに基づいてトランスフォーマー構造の原理を研究することが試みられました。は最適に関連しています。 形式的等価性は、入力トークンが最適でないトークンから分離されているハードバウンド SVM 問題間で確立されます。
著者は、この理論が各入力シーケンスで「良い」トークンと「悪い」トークンを分離する SVM の問題を解決するとハッカーニュースで述べました。優れたパフォーマンスを備えたトークン セレクターであるこの SVM は、入力に 0 ~ 1 のラベルを割り当てる従来の SVM とは本質的に異なります。
この理論は、注意がソフトマックスを通じてどのようにスパース性を引き起こすのかも説明しています。SVM 決定境界の間違った側にある「悪い」トークンはソフトマックス関数によって抑制されますが、「良い」トークンはソフトマックス関数によって抑制されます。 SVM 決定境界の間違った側にあるトークンは、最終的にゼロ以外のソフトマックス確率を持つトークンです。この SVM はソフトマックスの指数特性から派生していることにも言及する価値があります。
論文が arXiv にアップロードされると、次から次へと意見が寄せられました。
ぐるぐる回っても、サポート ベクター マシンはまだ時代遅れではありません。
古典的な論文「Attending is All You Need」の出版以来、Transformer アーキテクチャは自然言語処理 (NLP) の分野に革命的な進歩をもたらしてきました。 Transformer のアテンション層は、一連の入力トークン X を受け入れ、 を計算することでトークン間の相関関係を評価します。ここで、(K, Q) はトレーニング可能なキークエリ パラメーターであり、最終的に効果的なキャプチャ リモートです。依存関係。
今回、「サポート ベクター マシンとしてのトランスフォーマー」と呼ばれる新しい論文は、外積線形制約を使用して、自己注意最適化ジオメトリとハード マージン SVM 問題の間の形式的等価性を確立します。最適な入力トークンを最適でないトークンから分離するためのトークン ペアの調整。
論文リンク: https://arxiv.org/pdf/2308.16898.pdf
これこの形式的な等価性は、Davoud Ataee Tarzanagh らによる論文「Max-Margin Token Selection in Attendant Mechanism」に基づいており、勾配降下法によって最適化された 1 層トランスフォーマーの暗黙的なバイアスを説明できます。 ## (1) (K, Q) でパラメータ化されたアテンション層を最適化し、消失正則化によって SVM 解に収束します。これにより、結合パラメータが最小化されます
## の核ノルム。対照的に、W を介して直接パラメータ化すると、フロベニウスのノルム SVM 目標が最小化されます。この論文では、この収束について説明し、それが全体的な最適化ではなく局所的な最適化の方向で発生する可能性があることを強調しています。 (2) この論文では、適切な幾何学的条件下での W パラメータ化勾配降下法のローカル/グローバル方向収束も実証しています。重要なことは、過剰パラメータ化は、SVM 問題の実現可能性を確保し、静止点のない良好な最適化環境を確保することにより、グローバルな収束を促進することです。
(3) この研究の理論は主に線形予測ヘッドに適用されますが、研究チームは非線形ヘッド/MLP 暗黙的バイアスで 1 を予測できる、より一般的な SVM 相当物を提案しました。層トランスのこと。
全体として、この研究の結果は一般的なデータセットに適用でき、交差注意層に拡張することができ、研究の結論の実際的な妥当性は徹底的な数値実験を通じて得られています。確認する。この研究は、多層トランスフォーマーを最適なトークンを分離して選択する SVM 階層として見るという新しい研究の視点を確立します。
具体的には、長さ T と埋め込み次元 d
の入力シーケンスが与えられた場合、この研究ではコアのクロスアテンションとセルフアテンションのモデルを分析します。
このうち、K、Q、V はそれぞれトレーニング可能なキー、クエリ、値行列です。 ; S (・) はソフトマックス非線形性を表し、行ごとに適用されます。この研究では、Z の最初のトークン (z で示される) が予測に使用されると想定しています。具体的には、トレーニング データセット 、、 が与えられた場合、この研究では損失減少関数 が使用されます。 Minimize:
ここで、h (・):
は含まれる値の重み予測ヘッダーです。 V.この定式化では、モデル f (・) は、注目層の後に MLP が続く単層トランスフォーマーを正確に表します。著者は、 を設定することによって (2) の自己注意を復元します。ここで、x_i はシーケンス X_i の最初のトークンを表します。ソフトマックス演算の非線形性により、最適化には大きな課題が生じます。たとえ予測ヘッドが固定で線形であっても、問題は非凸で非線形です。この研究では、著者らは注意の重み (K、Q、または W) を最適化し、SVM の基本的な同等性を確立するためにこれらの課題を克服することに焦点を当てています。 論文の構成は次のとおりです: 第 2 章では、自己注意と最適化に関する予備知識を紹介します。第 3 章では、自己注意の最適化幾何学を分析し、注意パラメータが次のとおりであることを示します。 RP は最大周辺解に収束します。第 4 章と第 5 章では、それぞれグローバルおよびローカル勾配降下解析を紹介し、キー クエリ変数 W が (Att-SVM) の解に収束することを示します。第 6 章では、非線形予測の解を提供します。等価性に関する頭部および一般化 SVM の結果、第 7 章では理論を逐次的および因果的予測に拡張し、第 8 章では関連文献について説明します。最後に、第 9 章は、未解決の質問と今後の研究の方向性を提案して終わります。
論文の主な内容は次のとおりです:
注意層の暗黙的なバイアス (第 2 章-3)
正則化がなくなったときにアテンションパラメータ (K, Q) を最適化すると、
の最大周辺解の方向に収束します。そのカーネルノルムターゲットは、結合パラメータ です。クロスアテンションが結合パラメーター W で直接パラメーター化される場合、正則化パス (RP) は、フロベニウス ノルムをターゲットとする (Att-SVM) 解に方向的に収束します。 これは、W と (K, Q) のパラメトリック最適化ダイナミクスを正式に区別した最初の結果であり、後者における低次のバイアスが明らかになりました。この研究の理論は、選択されたトークンの最適性を明確に説明しており、当然、シーケンス間または因果関係の分類設定にも拡張されます。
勾配降下法の収束 (第 4 章から第 5 章)
適切な初期化と線形ヘッド h (・) を使用した場合、結合されたキークエリ変数 W の勾配降下 (GD) 反復は、(Att-SVM) の局所最適解への方向に収束します (セクション 5)。局所的な最適値を達成するには、選択したトークンのスコアが隣接するトークンよりも高くなければなりません。
局所的な最適方向は必ずしも一意ではなく、問題の幾何学的特性に基づいて決定できます [TLZO23]。重要な貢献として、著者らは大域最適への収束を保証する幾何学的条件を特定しています (第 4 章)。これらの条件には次のものが含まれます:
さらに、この論文では、(1) (Att- SVM)、(2) グローバルな収束を促進するための良性の最適化ランドスケープ (つまり、静止点や誤った局所的な最適方向が存在しない) (セクション 5.2 を参照)。
#図 1 と 2 はこれを示しています。
##SVM 等価性の一般性 (第 6 章)
線形 h (・) を使用して最適化する場合、アテンション層は本質的にバイアスがかかります。各シーケンス内のトークンを選択します (これも既知です)。厳重な注意として)。これは (Att-SVM) に反映されており、出力トークンは入力トークンの凸結合です。対照的に、著者らは非線形ヘッドが複数のトークンで構成されなければならないことを示し、したがって変圧器ダイナミクスにおける非線形ヘッドの重要性を強調しています(セクション 6.1)。著者らは、理論から得た洞察を利用して、より一般的な SVM と同等のアプローチを提案しています。
理論でカバーされていない一般的なケース (たとえば、h (・) は MLP) では、この論文の方法が正確に予測できることを証明していることは注目に値します。勾配降下トレーニング 注意における暗黙のバイアス。具体的には、私たちの一般式は、注意の重みを 2 つの部分に分離します: SVM によって制御される方向部分 (0 ~ 1 マスクを適用してマーカーを選択します)、および有限部分 (ソフトマックスを調整する部分) 選択されたトークンの正確な構成を決定するソフトマックス確率。
これらの発見の重要な特徴は、これらの発見が (SVM が実行可能な限り) 任意のデータセットに適用され、数値的に検証できることです。著者らは、変圧器の最大限界等価性と暗黙的バイアスを広範囲に実験的に検証しました。著者らは、これらの発見が階層型最大マージントークン選択メカニズムとしてのトランスフォーマーの理解に貢献し、トランスフォーマーの最適化と一般化のダイナミクスに関する今後の研究の基礎を築くことができると信じています。
以上が聞いてください、Transformer はサポート ベクター マシンですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。