ホームページ テクノロジー周辺機器 AI 理論的基盤があれば、徹底的な最適化を実行できます。

理論的基盤があれば、徹底的な最適化を実行できます。

Sep 20, 2023 pm 03:05 PM
理論 transformer

なぜトランスはこれほど優れた性能を発揮するのでしょうか?多くの大規模な言語モデルにもたらすインコンテキスト学習機能はどこから来るのでしょうか?人工知能の分野では、トランスフォーマーはディープラーニングの主流のモデルとなっていますが、その優れたパフォーマンスの理論的根拠は十分に研究されていません。

最近、Google AI、チューリッヒ工科大学、Google DeepMind の研究者らによる新しい研究で、謎の答えが明らかになりました。新しい研究では、変圧器をリバースエンジニアリングし、いくつかの最適化方法を発見しました。論文「トランスフォーマーにおけるメサ最適化アルゴリズムの解明」: 理論的基盤があれば、徹底的な最適化を実行できます。
論文リンク: https://arxiv.org/abs/2309.05858

著者一般的な自己回帰損失を最小限に抑えると、補助的な勾配ベースの最適化アルゴリズムが Transformer の順方向パスで動作することを示します。この現象は最近「メサ最適化」と呼ばれています。さらに、研究者らは、結果として得られたメサ最適化アルゴリズムが、モデルのサイズに関係なく、状況に応じたスモールショット学習機能を発揮することを発見しました。したがって、新しい結果は、大規模な言語モデルで以前に出現したスモールショット学習の原則を補完します。

研究者らは、Transformers の成功は、フォワード パスでのメサ最適化アルゴリズムの実装におけるアーキテクチャ上のバイアスに基づいていると考えています。(i) 内部学習目標の定義、および ( ii) 最適化されています。

理論的基盤があれば、徹底的な最適化を実行できます。

##図 1: 新しい仮説の図: 自己回帰変換器 fθ の重み θ を最適化すると、次の順伝播で実装されたメサ最適化アルゴリズムが生成されます。モデル。入力シーケンスとして s_1、... 。 、s_t はタイム ステップ t まで処理されます。Transformer は、(i) 入力とターゲットの関連付けペアで構成される内部トレーニング セットを作成します。(ii) 結果データセットを通じて内部目的関数を定義します。これは、内部モデルのパフォーマンスを測定するために使用されます。重み W を使用して、(iii) この目標を最適化し、学習したモデルを使用して将来の予測を生成します理論的基盤があれば、徹底的な最適化を実行できます。

この研究の貢献には以下が含まれます:

  • 概要Oswald et al. は、勾配ベースの方法を使用して内部で構築された目的を最適化することで、Transformers が回帰からシーケンスの次の要素を理論的に予測する方法を示しています。
  • シンプルなシーケンス モデリング タスクでトレーニングされたトランスフォーマーを実験的にリバース エンジニアリングし、フォワード パスが 2 段階のアルゴリズムを実装しているという強力な証拠を発見しました。 (i) 初期の自己注意層が内部トレーニングを構築するラベルをグループ化してコピーすることでデータセットを作成し、内部トレーニング データセットを暗黙的に構築します。内部目的関数を定義し、(ii) これらの目的をより深いレベルで最適化して予測を生成します。
  • LLM と同様に、単純な自己回帰トレーニング モデルもコンテキスト学習者になることが実験で示されており、LLM のコンテキスト学習を改善するにはオンザフライ調整が不可欠であり、特定のパフォーマンスも向上させることができます。環境、パフォーマンス。
  • アテンション層が内部目的関数を暗黙的に最適化しようとするという発見に触発されて、著者は、最小の問題を効果的に解決できる新しいタイプのアテンション層であるメサ層を紹介します。最適化を達成するために単一の勾配ステップを実行するのではなく、二乗最適化問題を実行します。実験では、単一のメサ層が、単純な逐次タスクにおいてディープリニアおよびソフトマックスセルフアテンショントランスフォーマーよりも優れたパフォーマンスを発揮し、より高い解釈可能性を提供することを実証しています。

理論的基盤があれば、徹底的な最適化を実行できます。

  • 予備的な言語モデリング実験の後、標準のセルフアテンション層をメサ層に置き換えることで効果が得られることがわかりました。有望な結果は、この層が強力な文脈学習機能を備えていることを証明しています。

#コンテキスト内のスモールショット タスクを解決するように明示的にトレーニングされたトランスフォーマーが勾配降下 (GD) アルゴリズムを実装できることを示す最近の研究に基づいています。今回、著者らは、これらの結果が、LLM をトレーニングするための典型的なアプローチである自己回帰シーケンス モデリングに一般化されることを示します。

まず、単純な線形ダイナミクスでトレーニングされたトランスフォーマーを分析します。各シーケンスは異なる W* によって生成され、シーケンス間の記憶を防ぎます。この単純なセットアップでは、著者はメサ データセットを作成し、前処理された GD を使用してメサ ターゲットを最適化するトランスフォーマーをデモします。

理論的基盤があれば、徹底的な最適化を実行できます。

この研究では、隣接するシーケンス要素を集約するトークン構造でディープ トランスフォーマーをトレーニングします。興味深いことに、この単純な前処理により、非常にまばらな重み行列 (ゼロ以外の重みが 1% 未満) が生成され、リバース エンジニアリングされたアルゴリズムが生成されます。

理論的基盤があれば、徹底的な最適化を実行できます。

単層線形セルフアテンションの場合、重みは 1 GD ステップに対応します。ディープトランスフォーマーの場合、解釈が難しくなります。この研究は線形プローブに依存しており、潜在的な活性化が自己回帰ターゲットまたは前処理された入力を予測するかどうかを調べます。

興味深いことに、両方の検出方法の予測可能性は、ネットワークの深さが増すにつれて徐々に向上します。この発見は、前処理された GD がモデル内に隠されていることを示唆しています。

理論的基盤があれば、徹底的な最適化を実行できます。


研究では、学習された学習率だけでなく、構築にすべての自由度が使用される場合、トレーニング層を完全に適合させることができることがわかりました。 η、学習された初期重み W_0 のセットも含まれます。重要なのは、図 2 に示すように、学習されたワンステップ アルゴリズムは依然として単一メサ層よりもはるかに優れたパフォーマンスを発揮することです。

単純な重み設定では、基本的な最適化を通じて、この層がここで検討したタスクを最適に解決できることが簡単にわかることがわかります。この結果は、メサ最適化に有利なハードコーディングされた誘導バイアスの利点を示しています。

#多層のケースに対する理論的な洞察をもとに、まず Transformer のみに焦点を当てて深い線形とソフトマックスを分析します。著者らは、W_0 = 0 の選択に対応する 4 チャネル構造 理論的基盤があれば、徹底的な最適化を実行できます。 に従って入力をフォーマットします。

単層モデルの場合と同様に、著者らはトレーニングされたモデルの重みに明確な構造があることを確認しています。最初のリバース エンジニアリング分析として、この研究ではこの構造を利用し、レイヤー ヘッダーごとに (3200 ではなく) 16 個のパラメーターを含むアルゴリズム (RevAlg-d、d はレイヤー数を表します) を構築します。著者らは、この圧縮されているが複雑な式でトレーニング済みモデルを記述できることを発見しました。特に、実際の Transformer と RevAlg-d のウェイト間の補間を、ほぼロスレスな方法で行うことができます。

RevAlg-d 式は、少数の自由パラメーターを使用してトレーニングされた多層 Transformer を説明していますが、これをメサ最適化アルゴリズムとして解釈するのは困難です。したがって、著者らは線形回帰プロービング分析 (Alain & Bengio、2017; Akyürek et al.、2023) を利用して、仮説的なメサ最適化アルゴリズムの特性を見つけました。

図 3 に示すディープ線形セルフアテンション トランスフォーマでは、両方のプローブが線形にデコードでき、デコードのパフォーマンスはシーケンスの長さとネットワークによって異なることがわかります。深さが増すにつれて増加します。したがって、ベース最適化は、メサ最適化問題の条件数を改善しながら、元のメサ目標 Lt (W) を層ごとに下降させるハイブリッド アルゴリズムを発見します。これにより、メサ対物レンズ Lt (W) が急激に減少します。また、深さが増加するとパフォーマンスが大幅に向上することもわかります。

したがって、自己回帰メサ目標 Lt (W) の急速な低下は、より適切な前処理データに対する段階的 (層間) メサ最適化によって達成されると考えられます。

理論的基盤があれば、徹底的な最適化を実行できます。# 図 3: リバース エンジニアリングで構築されたトークン入力のための多層トランスフォーマー トレーニング。

これは、トランスフォーマーが構築されたトークンでトレーニングされた場合、メサ最適化を使用して予測することを示しています。興味深いことに、シーケンス要素が直接与えられると、トランスフォーマーは要素をグループ化することで独自にトークンを構築します。これを研究チームは「メサ データセットの作成」と呼んでいます。 ############結論は######
この研究は、標準的な自己回帰目標の下でシーケンス予測タスクでトレーニングされた場合、Transformer モデルが勾配ベースの推論アルゴリズムを開発できることを示しています。したがって、マルチタスクのメタ学習設定で得られた最先端の結果を、従来の自己教師あり LLM トレーニング設定に転送することもできます。

さらに、この研究では、学習された自己回帰推論アルゴリズムを再トレーニングせずに教師あり文脈学習タスクを解決するために再利用できるため、単一の統一フレームワーク内で結果を解釈できることがわかりました。

理論的基盤があれば、徹底的な最適化を実行できます。

それでは、これはコンテキスト内学習とどのような関係があるのでしょうか?この研究では、自己回帰シーケンス タスクでトランスフォーマーをトレーニングした後、適切なメサ最適化が達成されるため、微調整を行わずに数ショットのコンテキスト学習を実行できると考えられています。

理論的基盤があれば、徹底的な最適化を実行できます。

この調査では、LLM にもメサ最適化が存在し、それによって文脈学習機能が向上すると仮定しています。興味深いことに、この研究では、プロンプトを LLM に効果的に適応させると、状況に応じた学習能力が大幅に向上する可能性があることも観察されました。

理論的基盤があれば、徹底的な最適化を実行できます。

理論的基盤があれば、徹底的な最適化を実行できます。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

参考コンテンツ:
https://www.reddit. com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/
https://twitter.com/oswaldjoh/status/1701873029100241241

以上が理論的基盤があれば、徹底的な最適化を実行できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 Jun 22, 2024 am 06:43 AM

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

See all articles