メモリ不足は、現在の主流の大規模言語モデルの主な問題点です。たとえば、ChatGPT は 4096 トークン (約 3000 単語) しか入力できません。チャット中に前に言ったことをよく忘れてしまいます。読むのに十分ではない、短編小説です。
入力ウィンドウが短いため、言語モデルの適用シナリオも制限されます。たとえば、科学論文 (約 10,000 ワード) を要約する場合、記事を手動で分割する必要があります。がモデルに入力されると、異なる章間の関連情報は失われます。
GPT-4 は最大 32,000 トークンをサポートし、アップグレードされた Claude は最大 100,000 トークンをサポートしますが、脳容量不足の問題を 緩和することしかできません。
最近、 起業家チーム Magic は、最大 5 をサポートできる LTM-1 モデル を間もなくリリースすると発表しました。 million token, これは約 500,000 行のコードまたは 5,000 個のファイルであり、クロードの 50 倍です。基本的にほとんどのストレージ ニーズをカバーできます。これはまさに質的変化につながる量的変化です。 LTM-1 の主なアプリケーション シナリオはコード補完です。たとえば、より長く複雑なコードの提案を生成できます。
複数のファイルにわたって情報を再利用したり、合成したりすることもできます。
悪いニュースは、LTM-1 の開発者である Magic が具体的な技術原則を公開せず、長期記憶ネットワークという全く新しい方法を設計したとだけ述べたことです。 (LTMネット)。
しかし、良いニュースもあります。2021 年 9 月に、DeepMind と他の機関の研究者は、かつて、長期記憶 (長期記憶 ( LTM) メカニズムにより、理論的には Transformer モデルに無限のメモリを持たせることができますが、この 2 つが同じテクノロジーなのか、それとも改良版なのかは明らかではありません。
# 論文リンク: https://arxiv.org/pdf/2109.00301.pdf
開発チームは、LTM Nets は GPT よりも多くのコンテキストを確認できるものの、LTM-1 モデルのパラメーターの数は現在の sota モデルよりもはるかに少ないため、よりインテリジェントであると述べました。低いですが、モデル サイズを大きくし続けると、LTM ネットのパフォーマンスが向上するはずです。
現在、LTM-1 はアルファ テスト アプリケーションを公開しています。
アプリケーションリンク:
https://www.php. cn/link/bbfb937a66597d9646ad992009aee405LTM-1 開発者 Magic は 2022 年に設立されました。主に GitHub Copilot に似た製品を開発しており、ソフトウェア エンジニアの作成とレビューに役立ちます。 、コードのデバッグと変更の目標は、モデルが長いコードを読み取れることが主な競争上の利点であるプログラマーのための AI 同僚を作成することです。
Magic は公益に取り組んでおり、その使命は人間の能力を超える AGI システムを構築し、安全に展開することです。現在、従業員はわずか 10 名の新興企業です。
# 今年 2 月、マジックはアルファベットの子会社である CapitalG が主導するシリーズ A 資金調達で 2,300 万米ドルを受け取りました。投資家には GitHub の元 CEO で Copilot の共同プロデューサーである Nat Friedman も含まれており、同社の資金総額は現在 2,800 万米ドルに達しています。
Magic の CEO 兼共同創設者である Eric Steinberger は、ケンブリッジ大学を卒業してコンピューター サイエンスの学士号を取得し、FAIR で機械学習の研究を行ってきました。
スタインバーガーは、マジックを設立する前に、世界中の子供たちが気候変動の影響について学べるよう、クライメートサイエンスも設立しました。
言語モデルのコア コンポーネントであるトランスフォーマーのアテンション メカニズムの設計により、長さが長くなるたびに時間計算量が増加します。入力シーケンスの増加 二次成長。
アルゴリズムの複雑さを軽減するために、スパース アテンションなど、アテンション メカニズムのいくつかの変形がすでに存在していますが、その複雑さは依然として入力長に関連しており、考慮することはできません。無限に広がる。
∞-前 長期記憶 (LTM) の鍵となる入力シーケンスを無限に拡張できる Transformer モデルは、表現の粒度を減らす連続空間注意フレームワークです 数値を増やしますメモリ情報単位(基底関数)の。
#フレームワークでは、入力シーケンスは、N 個の動径基底関数 ( RBF ) を表す「連続信号」として表されます。 )、このようにして、∞-former の注意の複雑さは O(L^2 L × N) に削減されますが、元の Transformer の注意の複雑さは O(Lx(L L_LTM)) です。ここで、L と L_LTM は対応します。それぞれ、Transformer の入力サイズと長期メモリの長さに応じて変化します。
#この表現方法には 2 つの主な利点があります:
#1. コンテキストは、基底関数 N によって表現できます。トークンの数、減少 アテンションの計算コストが削減されます;
2. N を固定できるため、アテンション メカニズムの複雑さを増すことなく、メモリ内で無制限のコンテキストを表すことができます。
もちろん、世界にはフリーランチは存在せず、その代償として解像度が低下します。基底関数の数が少ないと、入力シーケンスを連続信号として表すときに精度が低下する可能性があります。
解像度低下の問題を軽減するために、研究者は「スティッキー メモリ」の概念を導入しました。これは、LTM 信号内のより大きなスペースを、より頻繁にアクセスされるメモリ領域に帰属させるという概念を作成しました。これにより、モデルは関連情報を失うことなく、長期的な背景をより適切に捕捉できるようになります。また、脳の長期的な可能性と可塑性にも影響を受けています。
実験部分
∞-formerが長いコンテキストをモデル化できるかどうかを検証するために、研究者は最初に実験を行います。長いシーケンス内の頻度によってトークンを並べ替える合成タスクが実行され、その後、事前にトレーニングされた言語モデルを微調整することによって、言語モデリングとドキュメントベースの対話生成に関する実験が実行されます。
#Sort
入力は、確率分布に従ってサンプリングされたトークンで構成されます (システムには不明) シーケンスの場合、目標はシーケンス内の頻度の降順でトークンを生成することです順番に長期記憶が効果的に利用されているかどうかを研究するため、Transformer は最新のタグをモデル化するだけでランキングが行われるかどうかを研究し、時間の経過とともに変化するタグの確率分布を設計しました。
語彙には 20 のトークンがあり、それぞれ 4,000、8,000、16,000 の長さのシーケンスで実験が行われました。Transformer-XL と圧縮トランスは比較のためのベースライン モデルとして使用されました。
#
実験結果から、シーケンス長が短い (4,000) 場合、Transformer-XL は他のモデルよりわずかに高い精度を実現しますが、シーケンス長が増加すると精度も急激に低下することがわかります。 ∞ 前者と比較して、この減少は明らかではありません。これは、長いシーケンスをモデル化する際に、より多くの利点があることを示しています。
言語モデリング
長期記憶を拡張に使用できるかどうかを理解する言語モデルについては、研究者らは約 2 億個のトークンを含む Wikitext103 と PG-19 のサブセット上で GPT-2 を微調整しました。
実験結果から、∞-former は Wikitext-103 と PG19 の混乱を軽減できることがわかります。 - 書籍はウィキペディアの記事よりも長期記憶に依存するため、前者によって得られる改善は PG19 データセットでより大きくなります。
#ドキュメントベースのダイアログ
ドキュメントベースのダイアログ生成では、「追加」を除きます。会話履歴に基づいて、モデルは会話のトピックに関するドキュメントを取得することもできます。
CMU Document Grounded Conversation データセット (CMU-DoG) では、会話は映画についてであり、映画の概要は補助ドキュメントとして提供されます。会話には以下の内容が含まれていると考えられます。複数の異なる連続的な会話では、補助文書はいくつかの部分に分割されます。
長期記憶の有用性を評価するために、研究者らは、会話が始まる前にのみモデルにファイルへのアクセスを許可することで、タスクをより困難にしました。
GPT-2 を小さく微調整した後、モデルがドキュメント全体をメモリ内に保持できるようにするために、N=512 基底関数を持つ連続 LTM (∞-former) は次のようになります。 GPT -2 を拡張するために使用されます。
モデルの効果を評価するには、パープレキシティ、F1 スコア、Rouge-1 および Rouge-L、および Meteor インジケーターを使用します。
結果から、∞-former と compressive Transformer の方がより良いコーパスを生成できますが、両者の程度は混同されています。基本的には同じですが、他の指標では ∞-former の方が良いスコアを達成しています。
以上が500万トークンモンスター、『ハリー・ポッター』全巻を一気読み! ChatGPT の 1000 倍以上長いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。