学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータストレージだけでなく、第 3 の種類のメモリも搭載-AI-php.cn

ホームページ

テクノロジー周辺機器

学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータストレージだけでなく、第 3 の種類のメモリも搭載

PHPz

Jul 16, 2024 am 11:57 AM

プロジェクト鄂维南 Memory3

2.4B のメモリ³ は、より大きな LLM および RAG モデルよりも優れたパフォーマンスを実現します。

近年、大規模言語モデル (LLM) は、その並外れたパフォーマンスにより、前例のない注目を集めています。ただし、LLM のトレーニングと推論にはコストがかかるため、人々はさまざまな最適化方法を通じてコストを削減しようとしています。

この記事では、上海アルゴリズムイノベーション研究所、北京大学、その他の機関の研究者が、人間の脳のメモリ階層に触発され、LLM に明示的メモリ (モデルパラメーターや RAG よりも安価なメモリ形式) を搭載しました。 . ）このコストを削減します。概念的には、LLM は知識のほとんどが明示的メモリに外部化されるため、パラメータサイズ、トレーニングコスト、および推論コストを小さくすることができます。 T 論文アドレス: https://arxiv.org/pdf/2407.01178

学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータストレージだけでなく、第 3 の種類のメモリも搭載

論文タイトル: メモリ

: 明示的メモリを使用した言語モデリング
予備的な概念証明として、研究者は2.4B LLM を最初から作成し、大規模な LLM モデルや RAG モデルよりも優れたパフォーマンスを実現し、RAG よりも高いデコード速度を実現しました。このモデルは、LLM において、明示的メモリが暗黙的メモリ (モデルパラメーター) と作業メモリ (コンテキストキー値) に続く 3 番目のメモリ形式であるため、Memory
3

特に、この論文では、比較的低い書き込みコストと比較的低い読み取りコストを特徴とする新しいメモリ形式である明示的メモリを紹介します。図 1 に示すように、モデルは最初に知識ベース (または任意のテキストデータセット) をスパースアテンションキー値として実装された明示的なメモリに変換し、次に推論中にこれらのメモリを呼び出してセルフアテンション層の中間に統合します。

新しいメモリ形式は、新しいメモリ階層を定義します:

さらに、この記事では、知識の外部化をサポートするメモリ回路理論も紹介し、ストレージを扱いやすくするメモリのスパース性を提案します。記憶形成を促進するための事前トレーニングプロトコル。

要約:

メモリ

推論プロセス中に明示的メモリを利用し、モデルパラメータの特定の知識を記憶する負担を軽減します

明示的メモリはエンコードされたものから構築されます。スパースメモリ形式が実際のストレージサイズを維持するナレッジベース
研究者らは、2.4B の非埋め込みパラメータを使用して Memory
モデルをゼロからトレーニングし、そのパフォーマンスは大規模な SOTA モデルのパフォーマンスを上回りました。また、RAG よりも優れたパフォーマンスと高速な推論を備えています
さらに、記憶
3^{により事実性が向上し、幻覚が軽減され、専門的なタスクへの迅速な適応が可能になります。}
方法の紹介

記憶回路理論は、どのような知識を明示的記憶として保存できるか、またどのモデルアーキテクチャが明示的記憶の読み書きに適しているかを決定するのに役立ちます。

研究者は入出力関係を回路の内部機構として捉え、入出力関係とその回路として知識を定義します。これらの回路を操作することにより、LLM の機能をそのまま維持しながら、LLM から多くの知識を分離できます。

メモリ

: アーキテクチャの観点から見ると、この記事の目標は、書き込みコストと読み取りコストが比較的低くなるように、Transformer LLM の明示的なメモリメカニズムを設計することです。さらに、この記事では、新しいトレーニング可能なパラメーターを追加せずに、Transformer アーキテクチャへの変更を可能な限り最小の範囲に制限し、ほとんどの既存の Transformer LLM をほとんど微調整せずにメモリに変換できるようにしたいと考えています

モデル。簡単な設計プロセスは次のとおりです。

書き込みコスト: 推論の前に、LLM は各参照を明示的メモリに書き込み、ドライブに保存されます。記憶は自己注意層の主要なベクトルから選択されるため、書くプロセスにはトレーニングは必要ありません。各参照は独立して処理されるため、コンテキストへの長時間の注目によるコストが回避されます。

読み取りコスト: 推論中に、明示的メモリがドライブから取得され、通常のコンテキストキー値とともにセルフアテンションによって読み取られます。各メモリは少数のアテンションヘッドからの非常に少数のキー値で構成され、追加の計算、GPU ストレージ、ドライブストレージ、ロード時間を大幅に削減します。これにより、LLM はデコード速度への影響を限定しながら、多くの参照を頻繁に取得できるようになります。

推論プロセスを図 9 に示します。LLM は 64 個のトークンを生成するたびに、現在のメモリを破棄し、これらの 64 個のトークンをクエリテキストとして使用して 5 つの新しいメモリを取得し、これらのメモリをデコードし続けます。同様に、キューを処理するとき、LLM は 64 トークンブロックごとに 5 つのメモリを取得します。各ブロックは独自のメモリに重点を置いており、メモリはブロック間で異なる場合があります。

メモリの書き込みと読み取り: 推論中、LLM は、取得した明示的なメモリをコンテキストキー値と連結することで、セルフアテンションレイヤーを介して直接読み取ることができます (図 9)。具体的には、l 番目の層の各アテンションヘッド h について、それがメモリヘッドとして選択された場合、その出力 Y^(l,h) は次のように変化します。位置エンコーディング。つまり、図 9 に示すように、すべてのキー位置が長さ 128 の同じ間隔に配置されます。

2段階の事前トレーニング：事前トレーニングは、ウォームアップと継続的なトレーニングの2つの段階で構成されます。進行中のトレーニングフェーズのみが明示的な記憶を必要とし、ウォームアップフェーズでは通常の事前トレーニングと同じ形式が使用されます。

図 13 は、ウォームアップ段階でのトレーニング損失と学習率のスケジュールをプロットしています。

図 14 は、継続トレーニング段階でのトレーニング損失と学習率のスケジュールをプロットしています。

実験結果

研究者らは、Memory

モデルの一般的な能力（ベンチマークタスク）、会話能力、専門的能力（法律と医学）、幻覚を評価しました。さらに、研究者らは Memory
3

のデコード速度も測定し、同様のより大きな SOTA LLM および RAG モデルと比較しました。

一般的な能力の評価結果は以下の通りで、明示的記憶により平均点が2.51%増加するという結果が得られました。比較すると、Llama2-7B と 13B のスコア差は 4.91% です。明示的メモリにより、「有効モデルサイズ」が 2.51/4.91 ≈ 51.1% 増加します。

次に、著者らは Memory

の対話スキルを評価しました。結果は表 18 にリストされており、モデルがより少ないパラメーターで Vicuna-7B、Falcon-40B-Instruct、ChatGLM2-6B よりも優れていることが示されています。学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータストレージだけでなく、第 3 の種類のメモリも搭載

現在、LLMは依然として幻覚問題に直面しています。概念的には、記憶

はその明示的な記憶が参照テキストに直接対応しているため、幻覚の影響を受けにくいはずです。幻覚を評価するために、研究者らは評価用に 2 つの英語のデータセットを選択しました。結果を表 19 に示します。メモリ学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータストレージだけでなく、第 3 の種類のメモリも搭載

は、ほとんどのタスクで最高のスコアを達成しました。

明示的メモリを使用する利点の 1 つは、LLM が知識ベースを更新することで新しいドメインやタスクに簡単に適応できることです。タスク関連の参照を Memory

のナレッジベースにインポートし、オプションでウォームスタートの際にそれらを明示的なメモリに変換するだけです。その後、モデルはこの新しい知識を推論に活用し、よりコストがかかり、損失が発生する可能性のある微調整プロセスをスキップし、RAG よりも高速に実行できます。このコスト削減は図 4 に示されており、さまざまな業界での LLM の迅速な導入を促進する可能性があります。

下の表は、Memory³がほとんどのモデルよりもパフォーマンスが優れていることを示しています。

最後に、研究者らは、1秒あたりに生成されるトークンの数によってMemory³のデコード速度またはスループットを評価しました。

詳細については、元の論文を参照してください。

以上が学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータストレージだけでなく、第 3 の種類のメモリも搭載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1673

CakePHP チュートリアル

1429

Laravel チュートリアル

1333

PHP チュートリアル

1278

C# チュートリアル

1257

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles

学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載