ホームページ テクノロジー周辺機器 AI 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

Jan 12, 2024 pm 11:48 PM
理論 arxiv

最近、Transformer の数学的原理の新しい解釈を提供する論文が arxiv に公開されました。内容は非常に長く、知識も豊富です。原文を読むことをお勧めします。 。

2017 年、Vaswani らによって出版された「attention is all you need」は、ニューラル ネットワーク アーキテクチャの開発における重要なマイルストーンとなりました。この論文の中心的な貢献はセルフアテンション メカニズムです。これは、トランスフォーマーを従来のアーキテクチャから区別する革新であり、トランスフォーマーの優れた実用的なパフォーマンスにおいて重要な役割を果たします。

実際、このイノベーションは、コンピューター ビジョンや自然言語処理などの分野における人工知能の進歩の重要な触媒となっており、また、人工知能の出現においても重要な役割を果たしています。大規模な言語モデルの効果。したがって、トランスフォーマー、特に自己注意がデータを処理するメカニズムを理解することは重要ですが、ほとんど研究されていない分野です。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

論文アドレス: https://arxiv.org/pdf/2312.10794.pdf

ディープ ニューラル ネットワーク ( DNN) には、入力データが層ごとに順番に処理され、時間離散動的システムを形成するという共通の特徴があります (具体的な内容については、MIT 発行の「深層学習」を参照してください。中国では「花書」とも呼ばれています)。 )。この観点は、ニューラル常微分方程式 (ニューラル ODE) と呼ばれる時間連続動的システム上に残差ネットワークをモデル化するためにうまく使用されています。神聖な定数微分方程式では、入力画像 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 は、時間間隔 (0, T) で与えられた時間変化する速度場 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 に従って進化します。したがって、DNN は、ある 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 から別の 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 への流れマップ (Flow Map) 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 とみなすことができます。古典的な DNN アーキテクチャの制約下の速度場であっても、フロー マップ間には強い類似性があります。 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

研究者らは、トランスフォーマーが実際には
上のフロー マッピング、つまり d 次元の確率測度空間 (確率測度の空間) 間のマッピングであることを発見しました。メートル空間間で変換するこのフロー マッピングを実装するには、トランスフォーマーは平均場相互作用粒子システムを確立する必要があります。 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

具体的には、各粒子 (深層学習のコンテキストではトークンとして理解できます) はベクトル場の流れに従い、その流れは経験的な測定に依存します。すべての粒子の割合 (経験的測定)。次に、方程式は粒子の経験的測定の発展を決定します。このプロセスは長期間続く可能性があり、継続的な注意が必要です。

研究者らの主な観察は、粒子は最終的には凝集する傾向があるということでした。この現象は、一方向導出 (つまり、シーケンス内の次の単語の予測) などの学習タスクで特に顕著です。出力メトリックは次のトークンの確率分布をエンコードし、クラスタリング結果に基づいて少数の考えられる結果をフィルタリングして除外できます。

この記事の研究結果は、極限分布が実際には多様性やランダム性のない点塊であることを示していますが、これは実際の観測結果と矛盾しています。この明らかな矛盾は、粒子が長期間にわたって可変状態で存在するという事実によって解決されます。図 2 と 4 からわかるように、トランスフォーマーには 2 つの異なる時間スケールがあります。第 1 段階では、すべてのトークンがすぐにいくつかのクラスターを形成しますが、第 2 段階では (第 1 段階よりもはるかに遅い)、トークンのペアごとのマージ プロセス中に、クラスターでは、すべてのトークンが最終的に 1 つの点に崩壊します。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

この記事の目的は 2 つあります。一方で、この記事は、数学的な観点からトランスフォーマーを研究するための一般的でわかりやすい枠組みを提供することを目的としています。特に、これらの相互作用する粒子系の構造により、研究者は、非線形輸送方程式、ワッサーシュタイン勾配流、集団挙動のモデル、球上の点の最適構成など、数学の確立されたトピックと具体的に結び付けることができます。一方、この論文では、長期にわたるクラスタリング現象に特に焦点を当てて、いくつかの有望な研究の方向性について説明しています。研究者らによって提案された主な結果の尺度は新しいものであり、論文全体を通じて興味深いと考えられる未解決の質問も提起されています。

この記事の主な貢献は 3 つの部分に分かれています。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理


#パート 1: モデリング。この記事では、層の数を連続時間変数として扱う Transformer アーキテクチャの理想的なモデルを定義します。この抽象化のアプローチは新しいものではなく、ResNets などの古典的なアーキテクチャで採用されているアプローチに似ています。この記事のモデルは、Transformer アーキテクチャの 2 つの主要なコンポーネント、セルフ アテンション メカニズムとレイヤー正規化のみに焦点を当てています。レイヤー正規化は粒子を単位球の空間に効果的に制限し、セルフアテンション メカニズムは経験的測定を通じて粒子間の非線形結合を実現します。次に、経験的尺度は連続偏微分方程式に従って発展します。この記事では、自己注意のためのよりシンプルで使いやすい代替モデル、エネルギー関数のワッサーシュタイン勾配流も紹介します。また、エネルギー関数の球面上の点の最適な構成については、すでに成熟した研究手法が存在します。
明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理
#パート 2: クラスタリング。この部分では、研究者らは、より長い期間にわたるトークンのクラスタリングに関する新しい数学的結果を提案します。定理 4.1 が示すように、高次元空間では、単位球上でランダムに初期化された n 個の粒子のグループが
の点に集まります。研究者らによる粒子クラスターの収縮率の正確な説明は、この結果を補足するものです。具体的には、研究者らは、すべての粒子間の距離と、すべての粒子がクラスタリングを完了しようとしていた時点のヒストグラムをプロットしました (元の記事のセクション 4 を参照)。研究者らは、大きな次元 d を仮定せずにクラスタリングの結果も得ました (元の記事のセクション 5 を参照)。
明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理#パート 3: 将来を見据えて。この記事では、主に自由形式の質問の形式で質問を提示し、数値的な観察を通じてそれらを実証することにより、将来の研究の潜在的な方向性を提案します。研究者らはまず、次元 d = 2 の場合 (元の記事のセクション 6 を参照) に焦点を当て、倉本発振器との関係を引き出します。次に、モデルに単純かつ自然な変更を加えることで、球面最適化に関連する困難な問題をどのように解決できるかを簡単に示します (元の記事のセクション 7 を参照)。次の章では、Transformer アーキテクチャのパラメータを調整できるようにする相互作用するパーティクル システムについて説明します。これは、後で実用的なアプリケーションにつながる可能性があります。

以上が明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

See all articles