


LLM をオペレーティング システムと考えてください。LLM には無制限の「仮想」コンテキストがあり、Berkeley の新作は 1.7,000 個の星を獲得しています

近年、大規模言語モデル (LLM) とその基盤となるトランスフォーマー アーキテクチャが会話型 AI の基礎となり、さまざまな消費者向けおよび企業向けアプリケーションを生み出してきました。かなりの進歩にもかかわらず、LLM で使用される固定長のコンテキスト ウィンドウは、長い会話や長い文書の推論への適用性を大幅に制限します。最も広く使用されているオープンソース LLM であっても、その最大入力長では、数十のメッセージ応答または短いドキュメント推論しかサポートできません。
同時に、トランスフォーマー アーキテクチャのセルフ アテンション メカニズムによって制限されるため、トランスフォーマーのコンテキスト長を単純に拡張すると、計算時間とメモリ コストが指数関数的に増加し、新しい長いコンテキストが作成されます。建築緊急の研究テーマ。
ただし、たとえコンテキスト スケーリングの計算上の課題を克服できたとしても、長いコンテキスト モデルでは追加のコンテキストを効果的に利用するのが難しいことが最近の研究で示されています。
これを解決するにはどうすればよいですか? SOTA LLM のトレーニングに必要な膨大なリソースと、コンテキスト スケーリングの利益が明らかに減少していることを考慮すると、長いコンテキストをサポートする代替手法が緊急に必要です。カリフォルニア大学バークレー校の研究者らは、この点で新たな進歩を遂げた。
この記事では、研究者は、固定コンテキスト モデルを使用し続けながら、無限のコンテキストの錯覚を提供する方法を検討します。彼らのアプローチは仮想メモリ ページングからアイデアを取り入れており、アプリケーションが利用可能なメモリをはるかに超えるデータ セットを処理できるようにします。
このアイデアに基づいて、研究者は LLM エージェント関数呼び出し機能の最新の進歩を利用して、仮想コンテキスト管理のための OS からインスピレーションを得た LLM システムである MemGPT を設計しました。

紙のホームページ: https://memgpt.ai/
arXiv アドレス: https://arxiv.org/pdf/2310.08560.pdf
このプロジェクトはオープンソース化されており、GitHub で 1.7,000 個のスターを獲得しています。

GitHub アドレス: https://github.com/cpacker/MemGPT
メソッドの概要
この研究は、コンテキスト ウィンドウ (オペレーティング システムの「メイン メモリ」に似ています) と外部ストレージの間で情報を効率的に「ページング」するために、従来のオペレーティング システムの階層メモリ管理からインスピレーションを得ています。 MemGPT は、メモリ、LLM 処理モジュール、ユーザー間の制御フローの管理を担当します。この設計により、単一タスク中にコンテキストを繰り返し変更できるため、エージェントは限られたコンテキスト ウィンドウをより効率的に利用できるようになります。
MemGPT は、コンテキスト ウィンドウを制限されたメモリ リソースとして扱い、従来のオペレーティング システムの階層メモリと同様の LLM の階層構造を設計します (Patterson et al.、1988)。より長いコンテキスト長を提供するために、この研究により、LLM は「LLM OS」 (MemGPT) を通じてコンテキスト ウィンドウに配置されたコンテンツを管理できるようになります。 MemGPT を使用すると、オペレーティング システムのページ フォールトと同様に、コンテキスト内で失われた関連する履歴データを LLM が取得できるようになります。さらに、プロセスが仮想メモリに繰り返しアクセスできるのと同じように、エージェントは単一のタスク コンテキスト ウィンドウの内容を繰り返し変更できます。
MemGPT を使用すると、コンテキスト ウィンドウが制限されている場合に、LLM が無制限のコンテキストを処理できるようになります。MemGPT のコンポーネントを以下の図 1 に示します。

MemGPT は、関数呼び出しを通じてメイン コンテキスト (コンテキスト ウィンドウ内のコンテンツ) と外部コンテキストの間のデータの移動を調整し、現在のコンテキストに基づいて自律的に更新および取得します。


以下の図 3 に示すように、コンテキスト ウィンドウは制限を識別するために警告トークンを使用する必要があることに注意してください。

実験と結果
実験部分では、研究者らは、会話エージェントと文書処理という 2 つの長いコンテキスト ドメインで MemGPT を評価しました。会話型エージェントについては、既存のマルチセッション チャット データセット (Xu et al. (2021)) を拡張し、長い会話で知識を保持するエージェントの能力を評価する 2 つの新しい会話タスクを導入しました。文書分析については、質問応答や長い文書のキーと値の取得など、Liu et al. (2023a) によって提案されたタスクで MemGPT のベンチマークを行っています。
会話エージェント用の MemGPT
ユーザーと会話するとき、エージェントは次の 2 つの重要な基準を満たしている必要があります。
1 つ目は一貫性です。つまり、エージェントは会話の継続性を維持し、提供される新しい事実、参照、イベントはユーザーの以前の発言と一致している必要があります。そしてエージェント。
2 つ目は参加です。つまり、エージェントはユーザーの長期的な知識を利用して応答をパーソナライズする必要があります。以前の会話を参照すると、会話がより自然で魅力的なものになります。
したがって、研究者らは次の 2 つの基準に基づいて MemGPT を評価しました:
MemGPT はそのメモリを活用して会話の一貫性を向上させることができますか?一貫性を維持するために、過去のやりとりから関連する事実、引用、出来事を思い出すことができますか?
MemGPT メモリを使用して、より魅力的な会話を生成することは可能でしょうか?リモート ユーザー情報を自発的にマージして情報をパーソナライズしますか?
使用したデータセットに関して、研究者らは、MemGPT と、Xu et al. (2021) によって提案されたマルチセッション チャット (MSC) 上の固定コンテキスト ベースライン モデルを評価および比較しました。
まず一貫性の評価について説明します。研究者らは、会話型エージェントの一貫性をテストするために、MSC データセットに基づくディープ メモリ検索 (DMR) タスクを導入しました。 DMR では、ユーザーは会話型エージェントに質問をします。その質問は、回答範囲が非常に狭いことが予想されるため、以前の会話を明示的に参照しています。詳細については、以下の図 5 の例を参照してください。

MemGPT はメモリを利用して一貫性を維持します。以下の表 2 は、GPT-3.5 や GPT-4 などの固定メモリ ベースライン モデルに対する MemGPT のパフォーマンスの比較を示しています。
LLM 判定精度と ROUGE-L スコアの点で、MemGPT は GPT-3.5 や GPT-4 に比べて大幅に優れていることがわかります。 MemGPT は、コンテキストを拡張するために再帰的な要約に依存するのではなく、Recall Memory を使用して過去の会話履歴をクエリし、DMR の質問に答えることができます。

次に、「会話スターター」タスクで、研究者は、以前の会話の蓄積された知識から魅力的なメッセージを抽出してユーザーに配信するエージェントの能力を評価しました。
研究者らは、MemGPT の冒頭発言の CSIM スコアを以下の表 3 に示します。結果は、MemGPT が人間の手書きイントロと同等かそれ以上のパフォーマンスを発揮する魅力的なイントロを生成できることを示しています。また、MemGPT は人間のベースラインよりも長く、より多くの文字情報をカバーする開口部を生成する傾向があることも観察されています。以下の図 6 は一例です。

#文書分析用の MemGPT
MemGPT の文書分析能力を評価するために、ベンチマークを実施しました。 MemGPT と、Liu et al. (2023a) のレトリーバーリーダー文書 QA タスクに関する固定コンテキスト ベースライン モデル。 結果は、MemGPT がアーカイブ ストレージにクエリを実行することで、取得者への複数の呼び出しを効率的に行うことができ、有効なコンテキスト長をより大きくすることができることを示しています。 MemGPT は、アーカイブ ストアからドキュメントをアクティブに取得し、結果を反復的にページングできるため、利用可能なドキュメントの総数は、該当する LLM プロセッサ コンテキスト ウィンドウ内のドキュメント数によって制限されなくなります。 埋め込みベースの類似性検索には制限があるため、ドキュメントの QA タスクはすべての方法に大きな課題をもたらします。研究者は、クローラー データベースが使い果たされる前に、MemGPT がクローラー結果のページ分割を停止することを観察しました。 さらに、以下の図 7 に示すように、MemGPT のより複雑な操作によって作成される検索ドキュメントの容量にはトレードオフがあり、その平均精度は GPT-4 よりも低くなります (GPT-3.5 よりも高くなります)。 ) ですが、簡単に拡張することができます。
結果から、GPT-3.5 と GPT-4 は元のキーと値のタスクでは良好なパフォーマンスを示しましたが、ネストされたキーと値の取得タスクではパフォーマンスが低下しました。 MemGPT はネスト レベルの数の影響を受けず、関数クエリを通じてメイン メモリに格納されているキーと値のペアに繰り返しアクセスすることで、ネストされたルックアップを実行できます。
MemGPT のネストされたキーと値の取得タスクにおけるパフォーマンスは、複数のクエリを組み合わせて複数の検索を実行できることを示しています。

技術的な詳細と実験結果については、元の論文を参照してください。
以上がLLM をオペレーティング システムと考えてください。LLM には無制限の「仮想」コンテキストがあり、Berkeley の新作は 1.7,000 個の星を獲得していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。
