26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します-AI-php.cn

マスクを通じて Gisting を学習する

コンピューティング、メモリ、およびストレージの効率

ホームページ

テクノロジー周辺機器

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

PHPz

May 09, 2023 pm 02:10 PM

モデル紙

テキストを入力する前に、まず ChatGPT などの Transformer 言語モデル (LM) のプロンプトを検討してください:

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

毎日何百万ものユーザーとクエリが生成されるため、ChatGPT はセルフアテンションメカニズムを使用してプロンプトを繰り返しエンコードし、その時間とメモリの複雑さは入力長に応じて二次関数的に増大します。プロンプトのトランスフォーマーのアクティベーションをキャッシュすると、部分的な再計算が防止されますが、この戦略でも、キャッシュされたプロンプトの数が増加するにつれて、かなりのメモリとストレージのコストが発生します。大規模な場合には、プロンプトの長さがわずかに短縮されただけでも、計算量、メモリ、ストレージが節約されると同時に、ユーザーが LM の限られたコンテキストウィンドウにより多くのコンテンツを収めることができるようになります。＃＃＃＃＃＃＃＃＃＃＃＃それで。プロンプトのコストを削減するにはどうすればよいですか?典型的なアプローチは、おそらくパラメーター効率の高い適応手法を使用して、プロンプトなしで元のモデルと同様に動作するようにモデルを微調整または抽出することです。ただし、このアプローチの根本的な欠点は、新しいプロンプトが表示されるたびにモデルを再トレーニングする必要があることです (以下の図 1 の中央に示されています)。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

この記事では、スタンフォード大学の研究者が要点モデルを提案しました (図 1 の下)これは、プレフィックスの微調整と同様に、プロンプトをより小さな仮想「Gist」トークンのセットに圧縮します。ただし、プレフィックスの微調整には勾配降下法による各タスクのプレフィックスの学習が必要ですが、Gisting ではメタ学習手法を使用して、各タスクのプレフィックスを学習せずにプロンプトのみで Gist プレフィックスを予測します。これにより、タスクごとのプレフィックス学習のコストが償却され、追加のトレーニングなしで未知の命令への一般化が可能になります。

さらに、「Gist」トークンは完全なプロンプトよりもはるかに短いため、Gisting を使用するとプロンプトを圧縮、キャッシュし、再利用して計算効率を向上させることができます。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

#論文アドレス: https://arxiv.org/pdf/2304.08467 v1.pdf

研究者は、命令が従う要点モデルを学習するための非常に簡単な方法を提案しました。単に命令を微調整し、プロンプトの後に gish トークンを挿入し、変更後アテンションマスクは、要点トークンの後のトークンが要点トークンの前のトークンを参照するのを防ぎます。これにより、モデルは追加のトレーニングコストをかけずに、即時圧縮と次の命令を同時に学習することができます。

デコーダー専用 (LLaMA-7B) およびエンコーダー/デコーダー (FLAN-T5-XXL) LM では、Gisting は元のモデルと同じパフォーマンスを維持しながら最大 26 倍の即時圧縮を達成します。同様の出力品質。これにより、従来のプロンプトキャッシュ方法と比較して、推論中の FLOP が 40% 削減され、レイテンシが 4.2% 加速され、ストレージコストが大幅に削減されます。

ギスティング

研究者らはまず、指導の微調整という文脈でのギスティングについて説明します。データセット

に続く命令の場合、t は自然言語プロンプトでエンコードされたタスク (例: これをフランス語に翻訳) を表し、x はタスクの (オプションの) 入力 (例: 猫) を表します。 y は、必要な出力 (例: Le chat) を表します。命令微調整の目的は、t と x を連結して分布 pLM(y | t,x) を学習し、通常は事前トレーニングされた言語モデルに y を自己回帰的に予測させることです。推論中、新しいタスク t と入力 x を使用して、予測結果を取得するためのプロンプトとモデルからのデコードを行うことができます。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約しますただし、t と x を接続するこのパターンには欠点があります。Transformer ベースの LM のコンテキストウィンドウは限られており、アーキテクチャまたはコンピューティング能力によって制限されます。後者は、自己注意が入力長に応じて二次関数的に変化するため、解決するのが特に困難です。したがって、非常に長いプロンプト、特に繰り返し再利用されるプロンプトは、計算効率が低くなります。プロンプトのコストを削減するにはどのようなオプションが利用できますか?

簡単なアプローチは、特定のタスク t に対して LM 微調整を実行することです。つまり、タスク t

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

の下でのみ入出力の例を含むデータセットが与えられた場合、具体的には次のことを学ぶことができます。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

、tについて考える必要がないので高速です。

さらに優れた、プレフィックス/プロンプト微調整やアダプターなどのパラメーター効率の高い微調整方法を使用すると、本格的な微調整よりもはるかに低いコストで同じ目標を達成できます。ただし、問題は残ります。各タスクのモデルの重みの少なくとも一部を保存する必要があり、さらに重要なことに、各タスク t について、対応する入出力ペアのデータセット D^t を収集し、モデルを再トレーニングする必要があります。

Gisting は、2 つのコストを償却する別のアプローチです: (1) t で p_LM を条件付けする推論時間コスト、(2) 各 t の学習新しい p^t_LM のトレーニング時間コスト。このアイデアは、微調整中に t G (t) の圧縮バージョンを学習し、p_G (y | G (t),x) からの推論が p_LM (y|t,x) からの推論よりも高速になるようにすることです。

LM の用語では、G (t) は「仮想」Gist トークンのセットになります。これは t のトークンより数が少ないですが、それでも LM で同様の問題を引き起こします。行動。 G (t) 上のトランスフォーマーのアクティベーション (キーと値の行列など) をキャッシュして再利用することで、計算効率を向上させることができます。重要なのは、研究者らは G が目に見えないタスクに一般化できることを期待していることです。つまり、新しいタスク t が与えられると、追加のトレーニングなしで、対応する Gist 活性化 G(t) を予測して使用できるようになります。

マスクを通じて Gisting を学習する

上記では Gisting の一般的なフレームワークについて説明しました。次に、そのようなモデルを学習する非常に簡単な方法を検討します。LM 自体を使用します。要点予測子 G として。これにより、LM の既存の知識を活用するだけでなく、標準的な命令の微調整を実行し、Transformer アテンションマスクを変更してプロンプト圧縮を強化するだけで、要点を学習することもできます。つまり、Gisting には追加のトレーニング費用は発生せず、標準的な指示に基づいて微調整するだけで済みます。

具体的には、このようなモデルで一般的な文の開始/終了トークンと同様に、特別な gist トークンをモデルの語彙と埋め込み行列に追加します。次に、指定された (タスク、入力) タプル (t, x) に対して、(t, g_1, ..., g_k, x) 内の k 個の連続する要点トークンのセットを使用して、t と x を連結します。例:

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

。このシーケンスは、Gist トークンに続く入力トークンが前のプロンプトトークンを参照できない (ただし、Gist トークンは参照できる) という制限付きでモデルに入力されます。これにより、入力 x (出力 y) はプロンプト t を処理できないため、モデルはプロンプト内の情報を gist トークンに強制的に圧縮します。

#下の図 2 は、必要な変更を示しています。 GPT-3 や LLaMA などのデコーダ専用 LM の場合、通常は自己回帰因果的注意マスクを使用するため、図 2a に示す三角形の左下隅をマスクするだけで済みます。双方向エンコーダと自己回帰デコーダを備えたエンコーダ/デコーダ LM の場合、2 つの修正が必要です (図 2b を参照)。

まず、エンコーダー内のプロンプトトークン t を参照して入力トークン x をブロックします。エンコーダーには通常マスクがありません。ただし、プロンプト t と要点トークン g_i が入力トークン x を参照しないようにすることも必要です。そうしないと、エンコーダーは入力に応じて異なる要点表現を学習することになります。最後に、デコーダは、デコーダがプロンプトトークン t を参照するのを防ぐ必要があるクロスアテンション期間を除いて、通常どおり動作します。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

実験結果

Gist トークンの数が異なる場合、LLaMA- 7B と FLAN-T5-XXL の ROUGE-L と ChatGPT の評価結果を以下の図 3 に示します。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

モデルは通常、gist トークンの数 k の影響を受けません。プロンプトを単一のトークンに圧縮しても、パフォーマンスが大幅に低下することはありません。実際、場合によっては、Gist トークンが多すぎるとパフォーマンスが低下することがあります (LLaMA-7B、Gist トークン 10 個など)。これはおそらく、容量の増加がトレーニング分布にオーバーフィットするためです。したがって、研究者らは、単一トークンモデルの具体的な値を以下の表 1 に示し、残りの実験では単一の要点モデルを使用します。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

表示された手順では、Gist モデルは対応する肯定的な結果とほぼ同じ結果を取得しました。コントロールモデル ROUGE と ChatGPT のパフォーマンスが同じ場合、LLaMA-7B FLANT5-XXL の勝率はそれぞれ 48.6% と 50.8% です。ここで研究者が最も興味を持っているのは、目に見えないタスクに対する一般化能力であり、これは他の 2 つのデータセットを通じて測定する必要があります。

Alpaca トレーニングデータセットの目に見えないプロンプトでは、Gist モデルが目に見えないプロンプトに対して強力な汎化能力を持っていることがわかります。対照グループと比較して、49.7% (LLaMA) )、勝率は 46.2% (FLAN-T5) でした。最も困難な OOD Human スプリットでは、Gist モデルの勝率はわずかに低下し、45.8% (LLaMA) と 42.5% (FLANT5) になります。

この記事の目的は、Gist モデルに元のモデルの機能を厳密に模倣させることです。そのため、Gist モデルがコントロールグループと正確に区別できなくなるのはいつなのかと疑問に思う人もいるかもしれません。以下の図 4 は、これがどのくらいの頻度で起こるかを示しています。目に見えるタスク (ただし目に見えない入力) については、要点モデルはほぼ半分の時間で対照グループと同等です。目に見えないタスクの場合、この数値は 20 ～ 25% に低下します。 OOD Human タスクの場合、この数値は 10% に戻ります。いずれにせよ、Gist モデルの出力の品質は非常に高いです。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

全体的に、これらの結果は、Gist モデルがプロンプトを確実に圧縮できることを示しています。トレーニング配布外の特定のプロンプト、特に LLaMA のようなデコーダーのみの因果 LM に対しても実行されます。 FLAN-T5 などのエンコーダ-デコーダモデルのパフォーマンスはわずかに劣ります。考えられる理由の 1 つは、要点マスクがエンコーダの双方向のアテンションフローを抑制するためであり、これは自己回帰デコーダで履歴の一部を単にマスクするよりも困難です。今後この仮説を調査するにはさらなる研究が必要です。

コンピューティング、メモリ、およびストレージの効率

最後に、この作業の核となる動機の 1 つに戻ります。Gisting はどのような効率向上をもたらすのでしょうか?

以下の表 2 は、PyTorch 2.0 アナライザーを使用したモデルの単一の前方パス (つまり、単一の入力トークンを使用した自己回帰デコードの 1 ステップ) と Human eval の結果を示しています。分割された 252 個の命令が平均化されます。 Gist キャッシュにより、最適化されていないモデルと比較して効率が大幅に向上します。両方のモデルで、FLOP の 40% の節約とクロック時間の 4 ～ 7% の削減が達成されました。

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

ただし、より重要なのは、命令キャッシュと比較して、Gist キャッシュにはレイテンシーがあることです。その他の主な利点: 26 個のトークンを 1 つに圧縮すると、絶対位置の埋め込みや GPU VRAM によって制限される入力コンテキストウィンドウのスペースをさらに解放できます。特に LLaMA-7B の場合、KV キャッシュ内の各トークンには 1.05MB の記憶域が必要です。 KV キャッシュは、テストされたプロンプトの長さでの LLaMA-7B 推論に必要な総メモリに比べればほとんど寄与しませんが、開発者が多数のユーザーにわたって多くのプロンプトをキャッシュするシナリオがますます一般的になり、ストレージコストが急速に増加する可能性があります。同じ記憶領域で、要点キャッシュは完全な命令キャッシュよりも 26 倍多くのプロンプトを処理できます。

以上が26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7510

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンションウェイトを学習します。これにより、計算時間と展開時間が増加します。

See all articles

26 個のトークンを 1 つの新しいメソッドに圧縮して、ChatGPT 入力ボックスのスペースを節約します

マスクを通じて Gisting を学習する

コンピューティング、メモリ、およびストレージの効率

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック