聞いてください、Transformer はサポート ベクター マシンです
Transformer はサポート ベクター マシン (SVM) であり、学術コミュニティでの議論を引き起こした新しい理論です。
先週末、ペンシルベニア大学とカリフォルニア大学リバーサイド校の論文では、大規模モデルに基づいてトランスフォーマー構造の原理を研究することが試みられました。は最適に関連しています。 形式的等価性は、入力トークンが最適でないトークンから分離されているハードバウンド SVM 問題間で確立されます。
著者は、この理論が各入力シーケンスで「良い」トークンと「悪い」トークンを分離する SVM の問題を解決するとハッカーニュースで述べました。優れたパフォーマンスを備えたトークン セレクターであるこの SVM は、入力に 0 ~ 1 のラベルを割り当てる従来の SVM とは本質的に異なります。
この理論は、注意がソフトマックスを通じてどのようにスパース性を引き起こすのかも説明しています。SVM 決定境界の間違った側にある「悪い」トークンはソフトマックス関数によって抑制されますが、「良い」トークンはソフトマックス関数によって抑制されます。 SVM 決定境界の間違った側にあるトークンは、最終的にゼロ以外のソフトマックス確率を持つトークンです。この SVM はソフトマックスの指数特性から派生していることにも言及する価値があります。
論文が arXiv にアップロードされると、次から次へと意見が寄せられました。
ぐるぐる回っても、サポート ベクター マシンはまだ時代遅れではありません。
古典的な論文「Attending is All You Need」の出版以来、Transformer アーキテクチャは自然言語処理 (NLP) の分野に革命的な進歩をもたらしてきました。 Transformer のアテンション層は、一連の入力トークン X を受け入れ、 を計算することでトークン間の相関関係を評価します。ここで、(K, Q) はトレーニング可能なキークエリ パラメーターであり、最終的に効果的なキャプチャ リモートです。依存関係。
今回、「サポート ベクター マシンとしてのトランスフォーマー」と呼ばれる新しい論文は、外積線形制約を使用して、自己注意最適化ジオメトリとハード マージン SVM 問題の間の形式的等価性を確立します。最適な入力トークンを最適でないトークンから分離するためのトークン ペアの調整。
論文リンク: https://arxiv.org/pdf/2308.16898.pdf
これこの形式的な等価性は、Davoud Ataee Tarzanagh らによる論文「Max-Margin Token Selection in Attendant Mechanism」に基づいており、勾配降下法によって最適化された 1 層トランスフォーマーの暗黙的なバイアスを説明できます。 ## (1) (K, Q) でパラメータ化されたアテンション層を最適化し、消失正則化によって SVM 解に収束します。これにより、結合パラメータが最小化されます
## の核ノルム。対照的に、W を介して直接パラメータ化すると、フロベニウスのノルム SVM 目標が最小化されます。この論文では、この収束について説明し、それが全体的な最適化ではなく局所的な最適化の方向で発生する可能性があることを強調しています。 (2) この論文では、適切な幾何学的条件下での W パラメータ化勾配降下法のローカル/グローバル方向収束も実証しています。重要なことは、過剰パラメータ化は、SVM 問題の実現可能性を確保し、静止点のない良好な最適化環境を確保することにより、グローバルな収束を促進することです。
(3) この研究の理論は主に線形予測ヘッドに適用されますが、研究チームは非線形ヘッド/MLP 暗黙的バイアスで 1 を予測できる、より一般的な SVM 相当物を提案しました。層トランスのこと。
全体として、この研究の結果は一般的なデータセットに適用でき、交差注意層に拡張することができ、研究の結論の実際的な妥当性は徹底的な数値実験を通じて得られています。確認する。この研究は、多層トランスフォーマーを最適なトークンを分離して選択する SVM 階層として見るという新しい研究の視点を確立します。
具体的には、長さ T と埋め込み次元 d
の入力シーケンスが与えられた場合、この研究ではコアのクロスアテンションとセルフアテンションのモデルを分析します。
このうち、K、Q、V はそれぞれトレーニング可能なキー、クエリ、値行列です。 ; S (・) はソフトマックス非線形性を表し、行ごとに適用されます。この研究では、Z の最初のトークン (z で示される) が予測に使用されると想定しています。具体的には、トレーニング データセット
、
、
が与えられた場合、この研究では損失減少関数
が使用されます。 Minimize:
ここで、h (・):
は含まれる値の重み予測ヘッダーです。 V.この定式化では、モデル f (・) は、注目層の後に MLP が続く単層トランスフォーマーを正確に表します。著者は、 を設定することによって (2) の自己注意を復元します。ここで、x_i はシーケンス X_i の最初のトークンを表します。ソフトマックス演算の非線形性により、最適化には大きな課題が生じます。たとえ予測ヘッドが固定で線形であっても、問題は非凸で非線形です。この研究では、著者らは注意の重み (K、Q、または W) を最適化し、SVM の基本的な同等性を確立するためにこれらの課題を克服することに焦点を当てています。
論文の構成は次のとおりです: 第 2 章では、自己注意と最適化に関する予備知識を紹介します。第 3 章では、自己注意の最適化幾何学を分析し、注意パラメータが次のとおりであることを示します。 RP は最大周辺解に収束します。第 4 章と第 5 章では、それぞれグローバルおよびローカル勾配降下解析を紹介し、キー クエリ変数 W が (Att-SVM) の解に収束することを示します。第 6 章では、非線形予測の解を提供します。等価性に関する頭部および一般化 SVM の結果、第 7 章では理論を逐次的および因果的予測に拡張し、第 8 章では関連文献について説明します。最後に、第 9 章は、未解決の質問と今後の研究の方向性を提案して終わります。
論文の主な内容は次のとおりです:
注意層の暗黙的なバイアス (第 2 章-3)
正則化がなくなったときにアテンションパラメータ (K, Q) を最適化すると、
の最大周辺解の方向に収束します。そのカーネルノルムターゲットは、結合パラメータ です。クロスアテンションが結合パラメーター W で直接パラメーター化される場合、正則化パス (RP) は、フロベニウス ノルムをターゲットとする (Att-SVM) 解に方向的に収束します。
これは、W と (K, Q) のパラメトリック最適化ダイナミクスを正式に区別した最初の結果であり、後者における低次のバイアスが明らかになりました。この研究の理論は、選択されたトークンの最適性を明確に説明しており、当然、シーケンス間または因果関係の分類設定にも拡張されます。
勾配降下法の収束 (第 4 章から第 5 章)
適切な初期化と線形ヘッド h (・) を使用した場合、結合されたキークエリ変数 W の勾配降下 (GD) 反復は、(Att-SVM) の局所最適解への方向に収束します (セクション 5)。局所的な最適値を達成するには、選択したトークンのスコアが隣接するトークンよりも高くなければなりません。
局所的な最適方向は必ずしも一意ではなく、問題の幾何学的特性に基づいて決定できます [TLZO23]。重要な貢献として、著者らは大域最適への収束を保証する幾何学的条件を特定しています (第 4 章)。これらの条件には次のものが含まれます:
- 最良のトークンにはスコアに大きな差があります。
- 初期勾配の方向は最良のトークンと一致しています。
さらに、この論文では、(1) (Att- SVM)、(2) グローバルな収束を促進するための良性の最適化ランドスケープ (つまり、静止点や誤った局所的な最適方向が存在しない) (セクション 5.2 を参照)。
#図 1 と 2 はこれを示しています。
線形 h (・) を使用して最適化する場合、アテンション層は本質的にバイアスがかかります。各シーケンス内のトークンを選択します (これも既知です)。厳重な注意として)。これは (Att-SVM) に反映されており、出力トークンは入力トークンの凸結合です。対照的に、著者らは非線形ヘッドが複数のトークンで構成されなければならないことを示し、したがって変圧器ダイナミクスにおける非線形ヘッドの重要性を強調しています(セクション 6.1)。著者らは、理論から得た洞察を利用して、より一般的な SVM と同等のアプローチを提案しています。
理論でカバーされていない一般的なケース (たとえば、h (・) は MLP) では、この論文の方法が正確に予測できることを証明していることは注目に値します。勾配降下トレーニング 注意における暗黙のバイアス。具体的には、私たちの一般式は、注意の重みを 2 つの部分に分離します: SVM によって制御される方向部分 (0 ~ 1 マスクを適用してマーカーを選択します)、および有限部分 (ソフトマックスを調整する部分) 選択されたトークンの正確な構成を決定するソフトマックス確率。
これらの発見の重要な特徴は、これらの発見が (SVM が実行可能な限り) 任意のデータセットに適用され、数値的に検証できることです。著者らは、変圧器の最大限界等価性と暗黙的バイアスを広範囲に実験的に検証しました。著者らは、これらの発見が階層型最大マージントークン選択メカニズムとしてのトランスフォーマーの理解に貢献し、トランスフォーマーの最適化と一般化のダイナミクスに関する今後の研究の基礎を築くことができると信じています。
以上が聞いてください、Transformer はサポート ベクター マシンですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
