トランスフォーマーは先のことを考えているかもしれないが、それを実行しない
言語モデルは将来のトークンを計画しますか?この文書ではその答えが得られます。
「ヤン・ルカンには見せないでください。」
ヤン・ルカンはもう手遅れだ、もう見てしまったと言った。それ。今日紹介する「LeCun 必読」論文で議論されている問題は、「Transformer は思慮深い言語モデルですか?」です。特定の場所で推論を実行するとき、その後の場所を予測しますか?
この研究の結論は次のとおりです。Transformer にはこれを実行する機能がありますが、実際には実行されません。
人間は話す前に考えるということは誰もが知っています。 10 年にわたる言語研究の結果、人間が言語を使用するとき、次に入力される言語、つまり単語や文章を頭の中で予測していることがわかりました。
人間とは異なり、現在の言語モデルは、「話す」ときに各トークンに固定量の計算を割り当てます。したがって、言語モデルは人間のように事前に考えるのでしょうか?と尋ねずにはいられません。
最近の研究によると、言語モデルの隠れた状態を調べることで次のトークンを予測できることが示されています。興味深いことに、モデルの隠れ状態に線形プローブを使用することで、将来のトークンに対するモデルの出力をある程度予測でき、将来の出力を予測どおりに変更できます。 最近の研究では、言語モデルの隠れた状態を調査することで次のトークンを予測できることが示されています。興味深いことに、モデルの隠れ状態に線形プローブを使用することで、将来のトークンに対するモデルの出力をある程度予測でき、将来の出力を予測どおりに変更できます。
これらの発見は、特定のタイム ステップでのモデルのアクティブ化が将来の出力を少なくとも部分的に予測できることを示唆しています。
しかし、その理由はまだわかりません。これは単にデータの偶然の性質なのか、それともモデルが将来のタイムステップに向けて情報を意図的に準備しているためでしょうか (ただし、これは現在の位置でのモデルのパフォーマンスに影響します) )?
この質問に答えるために、コロラド大学ボルダー大学とコーネル大学の 3 人の研究者が最近、「言語モデルは将来のトークンを計画するのか?」というタイトルの記事を発表しました。 "論文。
論文のタイトル: Do Language Models Plan for Future Tokens?
論文のアドレス: https://arxiv.org/pdf/2404.00859.pdf
研究概要
研究者らは、トレーニング中の勾配によって、現在のトークン位置での損失とシーケンスの後半のトークンの両方の重みが最適化されることを観察しました。彼らはさらに、現在のトランスフォーマーの重みが現在のトークンと将来のトークンにどのような割合でリソースを割り当てるのかを尋ねました。
彼らは、事前キャッシュ仮説とブレッドクラム仮説という 2 つの可能性を検討しました。
事前キャッシュ仮説は、変換器が現在のタイム ステップの推論タスクには無関係であるが、将来的に役立つ可能性のある特徴をタイム ステップ t で計算することを意味します。ステップ t τ 、ブレッドクラム 仮定は、タイム ステップ t で最も関連性の高い特徴が、タイム ステップ t τ で最も有用となる特徴とすでに同等であるということです。
どの仮説が正しいかを評価するために、チームは、現在の位置での損失の勾配を前の位置での隠れた状態に伝播させない近視訓練スキームを提案しました。
上記の仮定とスキームの数学的定義と理論的説明については、元の論文を参照してください。
実験結果
言語モデルがプリキャッシュを直接実装できるかどうかを理解するために、明示的なプリキャッシュを通じてのみタスクを実行できる合成シナリオを設計しました。 。彼らは、モデルが次のトークンの情報を事前計算する必要があるタスクを構成しました。そうしないと、単一パスで正しい答えを正確に計算できなくなります。
# チームによって構築された合成データ セットの定義。
この合成シーンで、チームはトランスフォーマーが事前キャッシュを学習できるという明確な証拠を発見しました。トランスフォーマーベースのシーケンス モデルは、損失を最小限に抑えるために情報を事前計算する必要がある場合にこれを実行します。 彼らは次に、自然言語モデル (事前トレーニング済み GPT-2 バリアント) がパンくず仮説とプリキャッシュ仮説を示すかどうかを調査しました。近視トレーニング スキームを用いた実験では、この設定ではプリキャッシュが発生する頻度がはるかに低いため、結果はブレッドクラム仮説に偏っていることがわかりました。##が作られました。トークン位置と近視のGPT-2モデルに基づいた元のGPT-2モデルの違い。
したがって、チームは次のように主張しています。実際の言語データでは、言語モデルは将来の情報を大幅に準備しません。代わりに、これらは次のトークンを予測するのに役立つコンピューティング機能であり、将来のステップでも役立つことがわかります。
チームは次のように述べています。「言語データでは、次のトークン損失に備えて貪欲に最適化することと、将来の予測パフォーマンスを確保することの間に大きな違いがないことがわかりました。 ."
#将来的には、適切なデータ編成方法を使用して、言語モデルに人間のように事前に考える能力を与えることができるかもしれないと考えられます。
以上がトランスフォーマーは先のことを考えているかもしれないが、それを実行しないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究
