ご存知のとおり、大規模言語モデル (LLM) の推論には通常、自己回帰サンプリングの使用が必要ですが、この推論プロセスは非常に時間がかかります。この問題を解決するために、投機的デコードが LLM 推論の新しいサンプリング方法になりました。このメソッドは、各サンプリング ステップで、まず考えられるいくつかのトークンを予測し、次にそれらが正確であるかどうかを並行して検証します。自己回帰デコードとは異なり、投機的デコードでは複数のトークンを 1 ステップでデコードできるため、推論が高速化されます。
投機的解読は多くの面で大きな可能性を示していますが、綿密な研究が必要ないくつかの重要な問題も引き起こします。まず、推測の精度と生成効率のバランスをとるために、適切な近似モデルをどのように選択または設計するかを考える必要があります。第 2 に、評価基準によって生成される結果の多様性と品質の両方が維持されるようにすることが重要です。最後に、推論の精度を向上させるために、近似モデルとターゲットの大規模モデルの間の推論プロセスの調整を慎重に検討する必要があります。
香港理工大学、北京大学、MSRA、アリババの研究者らは、投機的復号化に関する包括的な調査を実施し、Machine Heart はこれについて包括的な要約を作成しました。
ブロックワイズ デコーディングは、Transformer デコーダーに追加のフィードフォワード ニューラル (FFN) ヘッドを統合する方法であり、単一のステップで複数のトークンを生成できます。
ブロック サンプリング アルゴリズムの可能性をさらに最大限に活用するために、投機的復号ソリューションが提案されています。このアルゴリズムは、通常、生成タスクを効率的かつ正確に実行できる特殊な非自己回帰トランスフォーマーを使用する独立した近似モデルをカバーします。
投機的デコーディングの出現後、一部の学者は、投機的デコーディングに可逆加速カーネル サンプリングを追加した「投機的サンプリング アルゴリズム」を提案しました。
全体として、投機的デコードにおけるこれらの革新的な試みは、Draftthen-Verify パラダイムを強化し始め、LLM アクセラレーションにおける大きな可能性を示しています。
式と定義
この記事では、以下の図 3 に示すように、関連する研究を分類するための組織的枠組みを提案します。
# 前回の研究に基づいて、この記事では「投機的復号アルゴリズム」をもう一度正式に定義します。
投機的デコード アルゴリズムは、最初に生成してから検証するデコード モードです。各デコード ステップでは、まず複数の可能なトークンを生成できる必要があり、次にターゲットの大規模言語モデルを使用してこれらすべてのトークンを並行して評価できます。推論速度を高速化します。アルゴリズム表 2 は、投機的復号プロセスの詳細です。
次に、この記事では、このパラダイムに不可欠な 2 つの基本的なサブステップ、生成と評価について詳しく説明します。
生成
各デコード ステップで、投機的デコード アルゴリズムは最初に複数の可能性のあるデータを生成します。トークンは、ターゲットの大規模言語モデルの出力コンテンツに対する推測として機能します。
この記事では、生成されたコンテンツを独立製図と自己製図の 2 つのカテゴリに分類し、その計算式を以下の表 1 にまとめます。
デコードごとに
を確認します。ステップでは、近似モデルによって生成されたトークンが並行して検証され、出力品質がターゲットの大規模言語モデルとの一貫性が高いことが確認されます。このプロセスでは、各ステップで許可されるトークンの数も決定されます。これは、スピードアップに影響を与える可能性がある重要な要素です。
さまざまな検証基準の概要を以下の表 2 に示します。これには、大規模言語モデル推論における貪欲なデコードとカーネル サンプリングをサポートするものも含まれます。
#生成と検証のサブステップは、終了条件が満たされるまで繰り返されます。 [EOS] トークンがデコードされるか、センテンスが最大長に達します。
さらに、この記事では、トークンの受け入れを段階的に向上させる効果的な戦略であるトークン ツリー検証アルゴリズムについても紹介します。
モデルのアライメント
ブロックされたデコードでは、まずシーケンスレベルの知識抽出 (Seq-KD) を使用してモデルのアライメントを行い、ターゲットの大規模言語モデルによって生成された文を使用して近似モデルをトレーニングします。
さらに、Seq-KD は並列デコード生成の品質を向上させ、並列デコードの生成パフォーマンスを向上させる効果的な戦略でもあります。
既存の投機的復号方法の主な特徴は、近似モデルまたは生成戦略の種類、モデルの調整方法、サポートされる評価戦略、加速度などを含めて、以下の表 3 にまとめられています。
アプリケーション
たとえば、一部の学者は、投機的デコードは、文法的エラーの修正や検索拡張の生成など、モデルの入力と出力が非常に類似しているタスクに特に適していると考えています。
これらの研究に加えて、RaLMSpec (Zhang et al., 2023b) は、投機的デコードを使用して検索拡張言語モデル (RaLM) を高速化します。
機会と課題
質問 2: 投機的デコードを他の主要なテクノロジーと組み合わせるにはどうすればよいですか?一般的なデコード モードとして、投機的デコードは他の高度なテクノロジと組み合わされて、その可能性が実証されています。プレーンテキストの大規模な言語モデルを高速化することに加えて、画像合成、テキスト音声合成、ビデオ生成などのマルチモーダル推論における投機的デコードの適用も、将来の研究にとって興味深く価値のある方向性です。
詳細については、元の論文を参照してください。
以上がGPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。