学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載

PHPz
リリース: 2024-07-16 11:57:51
オリジナル
569 人が閲覧しました
2.4B のメモリ3 は、より大きな LLM および RAG モデルよりも優れたパフォーマンスを実現します。

近年、大規模言語モデル (LLM) は、その並外れたパフォーマンスにより、前例のない注目を集めています。ただし、LLM のトレーニングと推論にはコストがかかるため、人々はさまざまな最適化方法を通じてコストを削減しようとしています。

この記事では、上海アルゴリズム イノベーション研究所、北京大学、その他の機関の研究者が、人間の脳のメモリ階層に触発され、LLM に明示的メモリ (モデル パラメーターや RAG よりも安価なメモリ形式) を搭載しました。 . )このコストを削減します。概念的には、LLM は知識のほとんどが明示的メモリに外部化されるため、パラメータ サイズ、トレーニング コスト、および推論コストを小さくすることができます。 T 論文アドレス: https://arxiv.org/pdf/2407.01178
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
論文タイトル: メモリ
    3
  • : 明示的メモリを使用した言語モデリング
  • 予備的な概念証明として、研究者は2.4B LLM を最初から作成し、大規模な LLM モデルや RAG モデルよりも優れたパフォーマンスを実現し、RAG よりも高いデコード速度を実現しました。このモデルは、LLM において、明示的メモリが暗黙的メモリ (モデル パラメーター) と作業メモリ (コンテキスト キー値) に続く 3 番目のメモリ形式であるため、Memory
    3
  • と名付けられています。

特に、この論文では、比較的低い書き込みコストと比較的低い読み取りコストを特徴とする新しいメモリ形式である明示的メモリを紹介します。図 1 に示すように、モデルは最初に知識ベース (または任意のテキスト データセット) をスパース アテンション キー値として実装された明示的なメモリに変換し、次に推論中にこれらのメモリを呼び出してセルフ アテンション層の中間に統合します。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載 新しいメモリ形式は、新しいメモリ階層を定義します:
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載 さらに、この記事では、知識の外部化をサポートするメモリ回路理論も紹介し、ストレージを扱いやすくするメモリのスパース性を提案します。記憶形成を促進するための事前トレーニングプロトコル。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載要約:

メモリ
3
推論プロセス中に明示的メモリを利用し、モデルパラメータの特定の知識を記憶する負担を軽減します
  • 明示的メモリはエンコードされたものから構築されます。スパースメモリ形式が実際のストレージサイズを維持するナレッジベース
    研究者らは、2.4B の非埋め込みパラメータを使用して Memory
  • 3
  • モデルをゼロからトレーニングし、そのパフォーマンスは大規模な SOTA モデルのパフォーマンスを上回りました。また、RAG よりも優れたパフォーマンスと高速な推論を備えています
  • さらに、記憶
    3 により事実性が向上し、幻覚が軽減され、専門的なタスクへの迅速な適応が可能になります。
  • 方法の紹介

記憶回路理論は、どのような知識を明示的記憶として保存できるか、またどのモデルアーキテクチャが明示的記憶の読み書きに適しているかを決定するのに役立ちます。

研究者は入出力関係を回路の内部機構として捉え、入出力関係とその回路として知識を定義します。これらの回路を操作することにより、LLM の機能をそのまま維持しながら、LLM から多くの知識を分離できます。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載メモリ
3
: アーキテクチャの観点から見ると、この記事の目標は、書き込みコストと読み取りコストが比較的低くなるように、Transformer LLM の明示的なメモリ メカニズムを設計することです。さらに、この記事では、新しいトレーニング可能なパラメーターを追加せずに、Transformer アーキテクチャへの変更を可能な限り最小の範囲に制限し、ほとんどの既存の Transformer LLM をほとんど微調整せずにメモリに変換できるようにしたいと考えています
3
モデル。簡単な設計プロセスは次のとおりです。
書き込みコスト: 推論の前に、LLM は各参照を明示的メモリに書き込み、ドライブに保存されます。記憶は自己注意層の主要なベクトルから選択されるため、書くプロセスにはトレーニングは必要ありません。各参照は独立して処理されるため、コンテキストへの長時間の注目によるコストが回避されます。

読み取りコスト: 推論中に、明示的メモリがドライブから取得され、通常のコンテキスト キー値とともにセルフ アテンションによって読み取られます。各メモリは少数のアテンション ヘッドからの非常に少数のキー値で構成され、追加の計算、GPU ストレージ、ドライブ ストレージ、ロード時間を大幅に削減します。これにより、LLM はデコード速度への影響を限定しながら、多くの参照を頻繁に取得できるようになります。

推論プロセスを図 9 に示します。LLM は 64 個のトークンを生成するたびに、現在のメモリを破棄し、これらの 64 個のトークンをクエリ テキストとして使用して 5 つの新しいメモリを取得し、これらのメモリをデコードし続けます。同様に、キューを処理するとき、LLM は 64 トークン ブロックごとに 5 つのメモリを取得します。各ブロックは独自のメモリに重点を置いており、メモリはブロック間で異なる場合があります。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
メモリの書き込みと読み取り: 推論中、LLM は、取得した明示的なメモリをコンテキスト キー値と連結することで、セルフ アテンション レイヤーを介して直接読み取ることができます (図 9)。具体的には、l 番目の層の各アテンション ヘッド h について、それがメモリ ヘッドとして選択された場合、その出力 Y^(l,h) は次のように変化します。位置エンコーディング。つまり、図 9 に示すように、すべてのキー位置が長さ 128 の同じ間隔に配置されます。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
2段階の事前トレーニング:事前トレーニングは、ウォームアップと継続的なトレーニングの2つの段階で構成されます。進行中のトレーニング フェーズのみが明示的な記憶を必要とし、ウォームアップ フェーズでは通常の事前トレーニングと同じ形式が使用されます。

図 13 は、ウォームアップ段階でのトレーニング損失と学習率のスケジュールをプロットしています。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
図 14 は、継続トレーニング段階でのトレーニング損失と学習率のスケジュールをプロットしています。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
実験結果
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
研究者らは、Memory
3
モデルの一般的な能力(ベンチマークタスク)、会話能力、専門的能力(法律と医学)、幻覚を評価しました。さらに、研究者らは Memory
3
のデコード速度も測定し、同様のより大きな SOTA LLM および RAG モデルと比較しました。
一般的な能力の評価結果は以下の通りで、明示的記憶により平均点が2.51%増加するという結果が得られました。比較すると、Llama2-7B と 13B のスコア差は 4.91% です。明示的メモリにより、「有効モデル サイズ」が 2.51/4.91 ≈ 51.1% 増加します。

次に、著者らは Memory
3
の対話スキルを評価しました。結果は表 18 にリストされており、モデルがより少ないパラメーターで Vicuna-7B、Falcon-40B-Instruct、ChatGLM2-6B よりも優れていることが示されています。 学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
現在、LLMは依然として幻覚問題に直面しています。概念的には、記憶
3
はその明示的な記憶が参照テキストに直接対応しているため、幻覚の影響を受けにくいはずです。幻覚を評価するために、研究者らは評価用に 2 つの英語のデータセットを選択しました。結果を表 19 に示します。メモリ学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載3
は、ほとんどのタスクで最高のスコアを達成しました。
明示的メモリを使用する利点の 1 つは、LLM が知識ベースを更新することで新しいドメインやタスクに簡単に適応できることです。タスク関連の参照を Memory
3
のナレッジ ベースにインポートし、オプションでウォーム スタートの際にそれらを明示的なメモリに変換するだけです。その後、モデルはこの新しい知識を推論に活用し、よりコストがかかり、損失が発生する可能性のある微調整プロセスをスキップし、RAG よりも高速に実行できます。このコスト削減は図 4 に示されており、さまざまな業界での LLM の迅速な導入を促進する可能性があります。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
下の表は、Memory3がほとんどのモデルよりもパフォーマンスが優れていることを示しています。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
最後に、研究者らは、1秒あたりに生成されるトークンの数によってMemory3のデコード速度またはスループットを評価しました。
学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載
詳細については、元の論文を参照してください。

以上が学者 E Weinan が新しい研究を主導: 大規模モデルには RAG とパラメータ ストレージだけでなく、第 3 の種類のメモリも搭載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート