ウィンドウの長さが 4K しかない大きなモデルでも、テキストの大部分を読み取ることができます。
プリンストン大学の中国人博士学生による最新の成果は、大型モデルのウィンドウ長の制限を「突破」することに成功しました。
さまざまな質問に答えることができるだけでなく、実装プロセス全体 は、追加のトレーニング を必要とせず、プロンプトによって完全に完了できます。
研究チームは、モデル自体のウィンドウ長制限を突破できる MemWalker と呼ばれるツリー メモリ戦略を作成しました。
テスト中、モデルによって読み取られた最長のテキストには 12,000 個のトークンが含まれており、結果は LongChat と比較して大幅に改善されました。
同様の TreeIndex と比較すると、MemWalker は単に一般化するのではなく、あらゆる質問を推論して答えることができます。
MemWalker の研究開発では「分割統治」の考え方が活用されており、一部のネチズンは次のようにコメントしています:
大型モデルの思考プロセスをより人間らしくするたびに
#それでは、ツリー メモリ戦略とは具体的に何で、限られたウィンドウ長で長いテキストをどのように読み取るのでしょうか?
モデルでは、MemWalker は基本モデルとして Stable Beluga 2 を使用します。これは、コマンド チューニングを通じて Llama 2-70B によって取得されます。
このモデルを選択する前に、開発者はオリジナルの Llama 2 とそのパフォーマンスを比較し、最終的に選択を決定しました。
MemWalker という名前のように、その動作プロセスは記憶の流れのようなものです。
具体的には、メモリツリー構築とナビゲーション検索の2段階に大別されます。
メモリ ツリーを構築するとき、長いテキストは複数の小さなセグメント (seg1-6) に分割され、大きなモデルは次のことを行います。各セグメントを個別に処理します。サマリーから、「リーフ ノード 」(リーフ ノード、合計 1-6) を取得します。
セグメント化する場合、各セグメントが長いほどレベルが少なくなり、その後の検索に有利ですが、長すぎると精度の低下につながるため、総合的に考慮してください。各セグメントの長さを決定するために必要です。
著者は、各段落の適切な長さは 500 ~ 2000 トークンであると考えており、実験で使用したものは 1000 トークンです。
次に、モデルはこれらのリーフ ノードの内容を再帰的に要約して、「非リーフ ノード」## を形成します。 #(非リーフノード、合計7-8)。
この 2 つのもう 1 つの違いは、リーフ ノードには元の情報 が含まれるのに対し、非リーフ ノードには 要約された二次情報 しか含まれないことです。
機能的には、非リーフ ノードは、答えがあるリーフ ノードをナビゲートして特定するために使用され、リーフ ノードは、答えについて推論するために使用されます。 非リーフ ノードは複数のレベルを持つことができ、モデルは「ルート ノード」が取得されて完全なツリー構造が形成されるまで徐々に要約されます。 メモリ ツリーが確立されたら、ナビゲーション検索段階に入り、答えを生成できます。 このプロセスでは、モデルはルート ノードから開始し、レベルの子ノードの内容を 1 つずつ読み取り、このノードが次のように推論します。入力するか、戻ります。 このノードに入ることを決定したら、葉ノードが読み取られるまでプロセスを再度繰り返します。葉ノードの内容が適切な場合は回答が生成され、そうでない場合は回答が返されます。
答えの完全性を保証するために、このプロセスの終了条件は、適切なリーフ ノードが見つかることではなく、モデルが完全な答えが得られたと信じること、または最大ステップ数であることです。が達成された。
ナビゲーション プロセス中に、モデルが間違ったパスに入ったことを検出した場合、元に戻ることもできます。
さらに、MemWalker は精度を向上させるために ワーキング メモリ メカニズム も導入しています。
#このメカニズムは、訪問したノードのコンテンツを現在のコンテンツのコンテキストに追加します。
モデルが新しいノードに入ると、現在のノードの内容がメモリに追加されます。
このメカニズムにより、モデルは各ステップで訪問したノードのコンテンツを利用して、重要な情報の損失を回避できます。
実験結果は、作業記憶メカニズムにより MemWalker の精度を約 10% 向上できることを示しています。
さらに、上記のプロセスはプロンプトに頼るだけで完了でき、追加のトレーニングは必要ありません。
理論的には、MemWalker は十分な計算能力がある限り、無限に長いテキストを読み取ることができます。
ただし、テキストの長さが増加するにつれて、メモリ ツリーを構築するときの 時間と空間の複雑さは指数関数的に増加します。
著者についてこの論文の筆頭著者は、プリンストン大学 NLP 研究室の中国人博士課程学生、ハワード チェンです。 清華ヤオクラスの卒業生、チェン・ダンチーはハワードの指導者であり、今年のACLに関する彼女の学術レポートも検索に関連したものでした。 この成果は、ハワードがメタでのインターンシップ中に完成させたもので、メタ AI 研究所の 3 人の学者、ラマカンス パスヌル、ジェイソン ウェストン、アスリ チェリキルマズもこのプロジェクトに参加しました。紙のアドレス: https://arxiv.org/abs/2310.05029
以上が長いテキストは 4k ウィンドウの長さで読むことができます。Chen Danqi と彼の弟子たちは Meta と協力して、大きなモデルのメモリを強化する新しい方法を開始しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。