聞いてください、Transformer はサポートベクターマシンです-AI-php.cn

ホームページ

テクノロジー周辺機器

聞いてください、Transformer はサポートベクターマシンです

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 17, 2023 pm 06:09 PM

データモデル

Transformer はサポートベクターマシン (SVM) であり、学術コミュニティでの議論を引き起こした新しい理論です。

先週末、ペンシルベニア大学とカリフォルニア大学リバーサイド校の論文では、大規模モデルに基づいてトランスフォーマー構造の原理を研究することが試みられました。は最適に関連しています。形式的等価性は、入力トークンが最適でないトークンから分離されているハードバウンド SVM 問題間で確立されます。

著者は、この理論が各入力シーケンスで「良い」トークンと「悪い」トークンを分離する SVM の問題を解決するとハッカーニュースで述べました。優れたパフォーマンスを備えたトークンセレクターであるこの SVM は、入力に 0 ～ 1 のラベルを割り当てる従来の SVM とは本質的に異なります。

この理論は、注意がソフトマックスを通じてどのようにスパース性を引き起こすのかも説明しています。SVM 決定境界の間違った側にある「悪い」トークンはソフトマックス関数によって抑制されますが、「良い」トークンはソフトマックス関数によって抑制されます。 SVM 決定境界の間違った側にあるトークンは、最終的にゼロ以外のソフトマックス確率を持つトークンです。この SVM はソフトマックスの指数特性から派生していることにも言及する価値があります。

論文が arXiv にアップロードされると、次から次へと意見が寄せられました。

聞いてください、Transformer はサポートベクターマシンです

ぐるぐる回っても、サポートベクターマシンはまだ時代遅れではありません。

古典的な論文「Attending is All You Need」の出版以来、Transformer アーキテクチャは自然言語処理 (NLP) の分野に革命的な進歩をもたらしてきました。 Transformer のアテンション層は、一連の入力トークン X を受け入れ、聞いてください、Transformer はサポートベクターマシンですを計算することでトークン間の相関関係を評価します。ここで、(K, Q) はトレーニング可能なキークエリパラメーターであり、最終的に効果的なキャプチャリモートです。依存関係。

今回、「サポートベクターマシンとしてのトランスフォーマー」と呼ばれる新しい論文は、外積線形制約を使用して、自己注意最適化ジオメトリとハードマージン SVM 問題の間の形式的等価性を確立します。最適な入力トークンを最適でないトークンから分離するためのトークンペアの調整。

聞いてください、Transformer はサポートベクターマシンです

論文リンク: https://arxiv.org/pdf/2308.16898.pdf

これこの形式的な等価性は、Davoud Ataee Tarzanagh らによる論文「Max-Margin Token Selection in Attendant Mechanism」に基づいており、勾配降下法によって最適化された 1 層トランスフォーマーの暗黙的なバイアスを説明できます。 ## (1) (K, Q) でパラメータ化されたアテンション層を最適化し、消失正則化によって SVM 解に収束します。これにより、結合パラメータが最小化されます

## の核ノルム。対照的に、W を介して直接パラメータ化すると、フロベニウスのノルム SVM 目標が最小化されます。この論文では、この収束について説明し、それが全体的な最適化ではなく局所的な最適化の方向で発生する可能性があることを強調しています。聞いてください、Transformer はサポートベクターマシンです (2) この論文では、適切な幾何学的条件下での W パラメータ化勾配降下法のローカル/グローバル方向収束も実証しています。重要なことは、過剰パラメータ化は、SVM 問題の実現可能性を確保し、静止点のない良好な最適化環境を確保することにより、グローバルな収束を促進することです。

(3) この研究の理論は主に線形予測ヘッドに適用されますが、研究チームは非線形ヘッド/MLP 暗黙的バイアスで 1 を予測できる、より一般的な SVM 相当物を提案しました。層トランスのこと。

全体として、この研究の結果は一般的なデータセットに適用でき、交差注意層に拡張することができ、研究の結論の実際的な妥当性は徹底的な数値実験を通じて得られています。確認する。この研究は、多層トランスフォーマーを最適なトークンを分離して選択する SVM 階層として見るという新しい研究の視点を確立します。

具体的には、長さ T と埋め込み次元 d

の入力シーケンスが与えられた場合、この研究ではコアのクロスアテンションとセルフアテンションのモデルを分析します。

聞いてください、Transformer はサポートベクターマシンです

このうち、K、Q、V はそれぞれトレーニング可能なキー、クエリ、値行列です。聞いてください、Transformer はサポートベクターマシンです ; S (・) はソフトマックス非線形性を表し、行ごとに適用されます。この研究では、Z の最初のトークン (z で示される) が予測に使用されると想定しています。具体的には、トレーニングデータセット聞いてください、Transformer はサポートベクターマシンです、、が与えられた場合、この研究では損失減少関数が使用されます。 Minimize:

聞いてください、Transformer はサポートベクターマシンですここで、h (・):

は含まれる値の重み予測ヘッダーです。 V.この定式化では、モデル f (・) は、注目層の後に MLP が続く単層トランスフォーマーを正確に表します。著者は、聞いてください、Transformer はサポートベクターマシンですを設定することによって (2) の自己注意を復元します。ここで、x_i はシーケンス X_i の最初のトークンを表します。ソフトマックス演算の非線形性により、最適化には大きな課題が生じます。たとえ予測ヘッドが固定で線形であっても、問題は非凸で非線形です。この研究では、著者らは注意の重み (K、Q、または W) を最適化し、SVM の基本的な同等性を確立するためにこれらの課題を克服することに焦点を当てています。聞いてください、Transformer はサポートベクターマシンです論文の構成は次のとおりです: 第 2 章では、自己注意と最適化に関する予備知識を紹介します。第 3 章では、自己注意の最適化幾何学を分析し、注意パラメータが次のとおりであることを示します。 RP は最大周辺解に収束します。第 4 章と第 5 章では、それぞれグローバルおよびローカル勾配降下解析を紹介し、キークエリ変数 W が (Att-SVM) の解に収束することを示します。第 6 章では、非線形予測の解を提供します。等価性に関する頭部および一般化 SVM の結果、第 7 章では理論を逐次的および因果的予測に拡張し、第 8 章では関連文献について説明します。最後に、第 9 章は、未解決の質問と今後の研究の方向性を提案して終わります。

論文の主な内容は次のとおりです:

注意層の暗黙的なバイアス (第 2 章-3)

正則化がなくなったときにアテンションパラメータ (K, Q) を最適化すると、

の最大周辺解の方向に収束します。そのカーネルノルムターゲットは、結合パラメータ聞いてください、Transformer はサポートベクターマシンですです。クロスアテンションが結合パラメーター W で直接パラメーター化される場合、正則化パス (RP) は、フロベニウスノルムをターゲットとする (Att-SVM) 解に方向的に収束します。聞いてください、Transformer はサポートベクターマシンですこれは、W と (K, Q) のパラメトリック最適化ダイナミクスを正式に区別した最初の結果であり、後者における低次のバイアスが明らかになりました。この研究の理論は、選択されたトークンの最適性を明確に説明しており、当然、シーケンス間または因果関係の分類設定にも拡張されます。

勾配降下法の収束 (第 4 章から第 5 章)

適切な初期化と線形ヘッド h (・) を使用した場合、結合されたキークエリ変数 W の勾配降下 (GD) 反復は、(Att-SVM) の局所最適解への方向に収束します (セクション 5)。局所的な最適値を達成するには、選択したトークンのスコアが隣接するトークンよりも高くなければなりません。

局所的な最適方向は必ずしも一意ではなく、問題の幾何学的特性に基づいて決定できます [TLZO23]。重要な貢献として、著者らは大域最適への収束を保証する幾何学的条件を特定しています (第 4 章)。これらの条件には次のものが含まれます:

最良のトークンにはスコアに大きな差があります。
初期勾配の方向は最良のトークンと一致しています。

さらに、この論文では、(1) (Att- SVM)、(2) グローバルな収束を促進するための良性の最適化ランドスケープ (つまり、静止点や誤った局所的な最適方向が存在しない) (セクション 5.2 を参照)。

#図 1 と 2 はこれを示しています。

聞いてください、Transformer はサポートベクターマシンです

##SVM 等価性の一般性 (第 6 章)

線形 h (・) を使用して最適化する場合、アテンション層は本質的にバイアスがかかります。各シーケンス内のトークンを選択します (これも既知です)。厳重な注意として）。これは (Att-SVM) に反映されており、出力トークンは入力トークンの凸結合です。対照的に、著者らは非線形ヘッドが複数のトークンで構成されなければならないことを示し、したがって変圧器ダイナミクスにおける非線形ヘッドの重要性を強調しています(セクション 6.1)。著者らは、理論から得た洞察を利用して、より一般的な SVM と同等のアプローチを提案しています。

理論でカバーされていない一般的なケース (たとえば、h (・) は MLP) では、この論文の方法が正確に予測できることを証明していることは注目に値します。勾配降下トレーニング注意における暗黙のバイアス。具体的には、私たちの一般式は、注意の重みを 2 つの部分に分離します: SVM によって制御される方向部分 (0 ～ 1 マスクを適用してマーカーを選択します)、および有限部分 (ソフトマックスを調整する部分) 選択されたトークンの正確な構成を決定するソフトマックス確率。

これらの発見の重要な特徴は、これらの発見が (SVM が実行可能な限り) 任意のデータセットに適用され、数値的に検証できることです。著者らは、変圧器の最大限界等価性と暗黙的バイアスを広範囲に実験的に検証しました。著者らは、これらの発見が階層型最大マージントークン選択メカニズムとしてのトランスフォーマーの理解に貢献し、トランスフォーマーの最適化と一般化のダイナミクスに関する今後の研究の基礎を築くことができると信じています。

以上が聞いてください、Transformer はサポートベクターマシンですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7490

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles

聞いてください、Transformer はサポート ベクター マシンです

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

聞いてください、Transformer はサポートベクターマシンです