ミッチェル・スターンらは、2018年に投機的サンプリングのプロトタイプコンセプトを提案しました。その後、このアプローチは、Lookahead Decoding、REST、Medusa、EAGLEなどのさまざまな研究によってさらに開発および洗練されており、投機的サンプリングにより大規模言語モデル (LLM) の推論プロセスが大幅に高速化されています。
重要な質問は、LLM の投機的サンプリングは元のモデルの精度を損なうのかということです。答えから始めましょう: いいえ。
標準の投機的サンプリング アルゴリズムはロスレスであり、この記事では数学的分析と実験を通じてこれを証明します。
数学的証明
推測的なサンプリング公式は次のように定義できます:
ここで:
簡単にするために、確率条件を省略します。実際、? と ? はプレフィックス トークン シーケンス に基づいた条件付き分布です。
以下は、DeepMind 論文 でのこの式の無損失性の証明です:
数式を読むのが退屈すぎると感じる場合は、次にいくつかの直観的な図を通して証明プロセスを説明します。
これはドラフトモデル ? と基本モデル ? の分布図です:
図 1: ドラフトモデル p と基本モデル q の出力分布の確率密度関数
これは単なる理想化されたグラフであることを理解してください。実際に計算するのは、次のような離散分布です。
図 2: 言語モデルは、語彙セット内の各トークンの離散確率分布を予測します。青いバーはドラフト モデルからのもので、赤いバーはベースモデルのものです。
ただし、単純化と明確化のために、連続近似を使用してこの問題について説明します。
ここで問題は、分布 ? からサンプリングしますが、最終結果は ? からサンプリングしたものと同じになるようにすることです。重要なアイデアは、赤色の領域の確率を黄色の領域に移動することです:
図 3: 合格および拒否のサンプリング領域
ターゲット分布は 2 つの部分の合計として見ることができます:
I。受け入れ
このブランチには 2 つの独立したイベントがあります:
これらの確率を掛け合わせます:
図 4: 青と赤の線を乗算すると、結果は図 6 の緑の線になります
II このブランチには検証拒否
があります。また、2 つの独立したイベント:
これは整数値であり、値は特定のトークン x とは関係ありません。
その分母の機能は、確率密度積分を 1 に等しく保つために確率分布を正規化することです。
2 つの項目が乗算され、第 2 項の分母が消去されます:
max(0,?(?)−?(?))
図 5. 赤い線と に対応する関数この図の緑色の線を掛け合わせると、結果は図 6 の赤色の線と等しくなります
なぜ拒絶確率がたまたま max(0,?−?) に正規化されるのでしょうか?偶然のように思えるかもしれませんが、ここで重要な観察は、すべての確率密度関数の積分が 1 に等しいため、図 3 の赤い領域の面積が黄色の領域の面積に等しいということです。
2 つのパート I と II を追加します:
最後に、ターゲット分布 ? を取得します。
図 6. 緑の領域と赤の領域の合計は、黄色の線の下の領域とまったく同じです
そして、これが私たちの目標です。
実験
原理的には投機的サンプリングが無損失であることを証明しましたが、アルゴリズムの実装にはまだバグが存在する可能性があります。したがって、実験による検証も必要です。
私たちは、貪欲デコードの決定論的手法と多項式サンプリングの確率論的手法の 2 つのケースについて実験を行いました。
Greedy Decoding
LLM に短編小説を 2 回生成するよう依頼します。最初は通常の推論を使用し、次に投機的サンプリングを使用します。どちらの場合もサンプリング温度は 0 に設定されます。 Medusa の投機的サンプリング実装を使用しました。モデルの重みは medusa-1.0-vicuna-7b-v1.5 とそのベースモデル vicuna-7b-v1.5 です。
テスト実行が完了した後、まったく同じ結果が 2 つ得られました。生成されるテキストは次のとおりです。
ユーザー: PPIO という名前のサイパーパンク騎士が魅力的なラマをペットとして飼っているという話をしてください。 アシスタント: むかしむかし、ある世界にありました。テクノロジーは私たちの想像をはるかに超えて進歩しており、PPIO という名前のサイバーパンク騎士が住んでいました。彼は高度なサイバネティック強化を備えた優れた戦士であり、常に正しいことをしようと努めていました。 ある日、任務中に、PPIO は美しいラマに出会いました。サイバネティックな存在であるにもかかわらず、PPIO は動物に興味があり、どんな危険からでもラマを救出しずにはいられませんでした。その日から、ラマは PPIO の行くところどこにでもついて行き、二人はすぐに友達になりました。 そのラマは、ラマエラという名前で、誰かが中にいることを感知する特別な能力を持っていました。 PPIO は、ラマエラの能力に感謝しており、危険を知らせるために大きな独特の鳴き声を上げました。そして、二人は止められないチームになりました。 PPIO とラマエラは、一緒にあらゆる種類の課題に取り組みました。罪のない人々を危害から救うためにサイバネティックな悪党と戦った彼らは、数え切れないほどの力であり、彼らの勇気と名誉は彼らを知るすべての人にインスピレーションを与えました。 |
多項式サンプリング
, 状況はさらに複雑です。ランダム化されたプログラムで結果を再現するほとんどの方法では、固定ランダム シードを使用して、擬似ランダム ジェネレーターの決定論を利用します。ただし、このアプローチは私たちのシナリオには適していません。私たちの実験は大数の法則に基づいています。つまり、十分なサンプルがあれば、実際の分布と理論上の分布の間の誤差はゼロに収束します。
4 つのプロンプト テキストをコンパイルし、各プロンプトで LLM によって生成された最初のトークンに対して 1,000,000 回の投機的サンプリング反復を実行しました。使用されるモデルの重みは、Llama3 8B Instruct と EAGLE-LLaMA3-Instruct-8B です。統計結果は次のとおりです。🔜 Anteil der ersten Token-Zählung von
Fazit |
Spekulatives Sampling schadet der Inferenzgenauigkeit großer Sprachmodelle nicht. Durch strenge mathematische Analysen und praktische Experimente demonstrieren wir die verlustfreie Natur des standardmäßigen spekulativen Stichprobenalgorithmus. Der mathematische Beweis zeigt, wie die spekulative Stichprobenformel die ursprüngliche Verteilung des zugrunde liegenden Modells bewahrt. Unsere Experimente, einschließlich deterministischer Greedy-Dekodierung und probabilistischer Polynomstichproben, bestätigen diese theoretischen Erkenntnisse weiter. Das Greedy-Decoding-Experiment lieferte mit und ohne spekulatives Sampling die gleichen Ergebnisse, während das Polynom-Sampling-Experiment zeigte, dass der Unterschied in der Token-Verteilung über eine große Anzahl von Stichproben hinweg vernachlässigbar ist. Zusammengenommen zeigen diese Ergebnisse, dass spekulative Stichproben die LLM-Inferenz ohne Einbußen bei der Genauigkeit erheblich beschleunigen können, was den Weg für effizientere und zugänglichere KI-Systeme in der Zukunft ebnet. |
以上が投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。