Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します-AI-php.cn

ホームページ

テクノロジー周辺機器

Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します

王林

Aug 05, 2024 pm 08:41 PM

プロジェクト LazyLLM

より良く働くために怠け者になりましょう。

Llama 3.1 がリリースされました。もう試しましたか?最新の最上位 PC を使用している場合でも、最小の 8B バージョンを実行すると大幅な遅延が発生する可能性があります。モデルの推論効率を向上させるために、研究者はさまざまな方法を考案しましたが、その多くはモデルの精度をある程度犠牲にすることになります。

最近、AppleとMeta AIの研究チームは、精度を大幅に低下させずにLlama 2の事前充填段階の推論速度を2倍以上に向上させることができる新しい方法を提案しました。 Llama 3.1 の高速化のためのインスピレーション。彼らはこのアプローチを LazyLLM (Lazy Large Language Model) と呼んでいます。 Paperタイトル：lazyllm：効率的な長いコンテキストLLM推論のためのダイナミックトークン剪定どうですか？彼らのアプローチを理解するには、まず標準的なプロンプトベースの LLM 推論プロセスがどのようなものかを知る必要があります。簡単に説明すると、図 1 に示すように、プロセスはプレフィルとデコードの 2 つの段階に分かれています。

Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します

プレフィル段階の後にデコード段階が続きます。この段階で、モデルはキャッシュされた KV を再度使用して、停止基準が満たされるまで次のトークンを繰り返しデコードします。
したがって、LLM 推論を効率的にするには、TTFT を最適化することが非常に重要なステップになります。

もう 1 つの研究の方向性は、静的な Transformer アーキテクチャの下で TTFT を改善することです。この研究の方向性では、当然次のような疑問が生じます。最初のトークンを生成するとき、すべてのプロンプトトークンは必須ですか?

図 2 は、LongBench ベンチマークでの LLM 分析の結果を示しています。 Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します

最初に生成されたトークンでは、入力トークンの注意スコアが非常にまばらであることがわかります。これは、入力プロンプト内の多くのトークンが冗長であり、たとえ削除されても影響を与えないことを示しています。次のトークンの予測。この観察は、チームが提案した LazyLLM の基礎となりました。

LazyLLM の利点には、適用範囲が広いこと、トレーニングが不要であること、優れた結果が含まれることが含まれます。図 3 は、標準 LLM と LazyLLM を比較しています。

LazyLLM

図 4 は、LazyLLM の全体的なフレームワークを示しています。

Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します

LazyLLM は完全なコンテキストから開始してトークンを徐々にプルーニングし、それによって最終モデルを取得するために使用される計算の数を徐々に減らします。 LazyLLM を使用すると、前のステップでトークンの一部が枝刈りされた場合でも、モデルがさまざまな生成ステップでトークンのさまざまなサブセットを選択できることに注意してください。静的枝刈り (すべてのトークンを一度に枝刈りする) と比較して、動的枝刈りは各生成ステップで次のトークンの予測を最適化し、モデルのパフォーマンスの維持に役立ちます。

プログレッシブトークンプルーニング Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します

これまでのいくつかの研究では、トークンプルーニングを使用して LLM 推論を最適化することに成功しました。ただし、これらの方法では、プルーニングを開始する前にプロンプトトークンの重要性を分析するために、最初のいくつかのトークンを予測する完全なアテンションマップを蓄積する必要があります。したがって、プレフィルフェーズ中にすべての KV キャッシュを計算する必要があるため、TTFT を削減するのには適していません。

それに比べて、LazyLLM は「非常に怠惰」であり、推論の最初の反復 (事前入力ステップ) から開始して、次のトークンを予測するために重要なトークンのみを計算します。

反復の最初のラウンドでの重要な問題は、各トークンの重要性を判断することです。トークンの隠れ状態が Transformer レイヤーを通過するにつれて進化することを示した以前の研究に触発されたチームのソリューションは、各生成ステップでレイヤーごとのトークンプルーニングを使用することです。具体的には、各レイヤーのアテンションマップを使用して、予測対象のトークンに対する入力トークンの重要性を判断します。

トークンの信頼スコアを計算した後、もう 1 つの難しい問題は、トークンをプルーニングするためのしきい値を決定することです。

具体的には、異なるレイヤーや異なるタスクでは、注意スコアが変化するにつれてこのしきい値も変化する可能性があります。チームの解決策は、上位 k パーセンタイル選択戦略を使用することです。具体的には、トークンの信頼スコアが入力トークンの k パーセンタイル未満の場合、そのトークンはプルーニングされます。トークンがプルーニングされると、後続のすべてのレイヤーの計算に参加しなくなります。

言い換えると、後続のレイヤーで使用されるトークンは、前のレイヤーで使用されるトークンのサブセットです。

後の実験により、枝刈りレイヤーの位置と枝刈りされたトークンの数が異なると、パフォーマンスも変化することがわかりました。具体的には、同じ Transformer レイヤーの場合、プルーニングによって削除されるトークンが増えると、モデルのパフォーマンスが徐々に低下します。

彼らはまた、初期の層での枝刈りと比較して、後の層で枝刈りをした方がより良いパフォーマンスが得られることも発見しました。これは、後の層がトークン枝刈りの影響を受けにくいことを示しています。速度と精度のバランスを改善するために、チームは図 4 に示すように段階的なプルーニングを使用し、初期の層により多くのトークンを保持し、その後、後の層に流れるにつれてトークンの数を徐々に減らしました。

Aux Cache (補助キャッシュ)

プレフィル段階ではKVキャッシュがなく、各トークンは隠された状態で表現されます。したがって、プログレッシブトークンプルーニングは、プルーニングされたトークンの非表示状態を削除することによって実現できます。ただし、プログレッシブトークンプルーニングを後続のデコードステップに拡張することは簡単ではありません。その理由は、各デコードステップがプレフィルステージで計算された KV キャッシュを使用してアテンションを計算するためです。 LazyLLM は事前生成段階でプログレッシブトークンプルーニングを実行するため、特定のレベルでプルーニングされたトークンの KV は次のレベルの KV キャッシュには表示されません。

注意してください、LazyLLM フレームワークでは、前のステップでプルーニングされたかどうかに関係なく、各生成ステップで完全な入力トークンシーケンスからトークンの異なるサブセットを選択できます。たとえば、後続の復号化ステップでは、KV キャッシュに存在しないプルーニングされたトークンがアテンション計算のために再選択される場合があります。この場合、モデルはこれらのトークンの KV キャッシュを取得できません。

直感的な解決策は、これらのトークンを Transformer の開始点に渡すことです。ただし、これにより同じトークンが二重にカウントされることになり、最終的に全体の生成速度が遅くなります。

この問題を解決するために、チームは元の KV キャッシュに加えて別のキャッシュ、Aux Cache (補助キャッシュ) を導入しました。

プルーニングされたトークンの KV (図 4 の T4 と T7) が後続のレイヤーの KV キャッシュに表示されない場合、それらの非表示状態は後続の反復で取得できるように補助キャッシュによって保存されます。

図 4 に示すように、各デコードステップで、各 Transformer レイヤーはまず過去のトークンの KV キャッシュ (存在する場合) を取得します。 KV キャッシュにないトークンの場合、その非表示状態は、前の層を再度経由することなく、前の層の補助キャッシュから直接取得されます。 Aux Cache は、各トークンが各 Transformer レイヤーで最大 1 回計算されることを保証し、LazyLLM が最も遅い場合でも標準の LLM よりも高速であることを保証します。

実験

チームは、この「怠惰な」新しいアプローチを 2 つの大きな言語モデル、Llama 2 7B と XGen 7B でテストしました。比較に使用される標準 LLM は、追加のトレーニングを行わずに公開されている同じ事前トレーニング済みチェックポイントモデルです。

実験的なベンチマークは LongBench で、長いコンテンツを理解するためのマルチタスクベンチマークです。 LongBench ベンチマークには、単一ドキュメント Q&A、複数ドキュメント Q&A、要約、少数ショット学習、合成タスク、コード補完を含む 6 つのタスクをカバーする 16 個のデータセットが含まれています。

評価指標は、TTFT の高速化と精度のトレードオフに関する各メソッドの有効性と効率です。

結果

表 1 は、LazyLLM、標準 LLM、およびその他のベースライン手法の TTFT の高速化と精度の結果を示しています。

この表では、ベースラインは標準の LLM 推論を指します。ランダムトークンドロップとは、トークンに対してランダムなプルーニングを実行することを指します。静的トークンプルーニングとは、事前充填段階での前の Transformer レイヤーのアテンションメソッドに基づいて、入力トークンに対して 1 回限りのプルーニングを実行することを指します。プロンプト圧縮は、LLM を使用して入力コンテキストの冗長性を削除するプロンプト圧縮方法です。

表 1 からわかるように、LazyLLM は TTFT 加速において総合的に優れていますが、精度の低下は基本的に無視できます。 LLM を使用してプロンプトを圧縮すると、大量の計算が行われることに注意してください。したがって、プロンプト圧縮により推論は高速化されますが、実際の TTFT は標準の LLM よりも長くなります。

全体的な生成速度への影響

全体的な生成速度に対する新しいメソッドの影響を評価するために、チームは計算と生成の加速に使用されるプロンプトトークンの割合を分析しました (表 2 を参照)。

LazyLLM の計算で使用されるトークンの割合は常に 100% 未満であることがわかります。これは、LazyLLM が生成の最後にプロンプト内のすべてのトークンを使い切っていないことを示していますが、理論的にはモデルすべてのトークンを使用できます。これにより、さまざまなタスクの生成プロセス全体がさらに高速化されます。

さまざまなレイヤーの破棄率

チームはまた、枝刈りレイヤーの位置と枝刈りされたトークンの数の影響も分析しました。結果を図 6 に示します。

同じ Transformer レイヤーでプルーニングが実行される場合、残っているトークンが少なくなるほど、モデルのパフォーマンスが低下することがわかります。これは私たちの直観的な理解とも一致します。さらに、以前の Transformer レイヤーでプルーニングを実行する場合と比較して、後のレイヤーでプルーニングを実行するとパフォーマンスが向上します。これは、後のレイヤーがトークンプルーニングの影響を受けにくいことを示しています。

これらの観察に基づいて、プログレッシブトークンプルーニングの効果が証明されていると言えます。

KV の漸進的な増加

最後に、チームはトークンプルーニングロジックを使用してモデルの内部を理解しようとしました。具体的には、使用されたプロンプトトークンの累積割合と、対応する未使用の割合を知りたいと考えています。この「累積トークン使用量」は、各ステップの KV キャッシュサイズとして等価的に定義できます。図 7 は、LazyLLM の各段階でのプロンプトトークンの累積使用量を示しています。

この結果は、モデルによって多くのトークンが決して選択されないという仮説を裏付けています (理論的にはモデルはプロンプト内のすべてのトークンを使用できますが。

モデルがタスク実行の精度を維持できることを考慮すると、結論: このモデルは、出力品質に影響を与えることなく、トークンを効果的に破棄できます
。

以上がApple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1672

CakePHP チュートリアル

1428

Laravel チュートリアル

1332

PHP チュートリアル

1276

C# チュートリアル

1256

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles

Apple は大規模モデルに遅延を学習させます: 最初のトークンをより速く吐き出し、精度を維持します

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック