投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?-AI-php.cn

ホームページ

テクノロジー周辺機器

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

PHPz

Aug 09, 2024 pm 01:09 PM

プロジェクト

ミッチェル・スターンらは、2018年に投機的サンプリングのプロトタイプコンセプトを提案しました。その後、このアプローチは、Lookahead Decoding、REST、Medusa、EAGLEなどのさまざまな研究によってさらに開発および洗練されており、投機的サンプリングにより大規模言語モデル (LLM) の推論プロセスが大幅に高速化されています。

重要な質問は、LLM の投機的サンプリングは元のモデルの精度を損なうのかということです。答えから始めましょう: いいえ。

標準の投機的サンプリングアルゴリズムはロスレスであり、この記事では数学的分析と実験を通じてこれを証明します。

数学的証明

推測的なサンプリング公式は次のように定義できます:

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

ここで:

? は一様分布からサンプリングされた実数です。
は、次に予測されるトークンです。
?(?) は、ドラフトモデルによって与えられる次のトークン配布です。
?(?) は、基本モデルによって与えられる次のトークン分布です。

簡単にするために、確率条件を省略します。実際、? と ? はプレフィックストークンシーケンス投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか? に基づいた条件付き分布です。

以下は、DeepMind 論文でのこの式の無損失性の証明です:

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

数式を読むのが退屈すぎると感じる場合は、次にいくつかの直観的な図を通して証明プロセスを説明します。

これはドラフトモデル ? と基本モデル ? の分布図です:

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

図 1: ドラフトモデル p と基本モデル q の出力分布の確率密度関数

これは単なる理想化されたグラフであることを理解してください。実際に計算するのは、次のような離散分布です。

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

図 2: 言語モデルは、語彙セット内の各トークンの離散確率分布を予測します。青いバーはドラフトモデルからのもので、赤いバーはベースモデルのものです。

ただし、単純化と明確化のために、連続近似を使用してこの問題について説明します。

ここで問題は、分布 ? からサンプリングしますが、最終結果は ? からサンプリングしたものと同じになるようにすることです。重要なアイデアは、赤色の領域の確率を黄色の領域に移動することです:

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

図 3: 合格および拒否のサンプリング領域

ターゲット分布は 2 つの部分の合計として見ることができます:

I。受け入れ

このブランチには 2 つの独立したイベントがあります:

ドラフト配布でのサンプリング ? は特定のトークンを生成します。確率は ?(?)
ランダム変数 ? トークンを受け入れます。確率は次のとおりです:

これらの確率を掛け合わせます: 投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

図 4: 青と赤の線を乗算すると、結果は図 6 の緑の線になります

II このブランチには検証拒否

があります。また、2 つの独立したイベント:

? は ? で特定のトークンを拒否します。確率は次のとおりです:

これは整数値であり、値は特定のトークン x とは関係ありません。

は、分布 ?−?(部分的) アップサンプリングにより特定のトークンが生成されます?、確率は次のとおりです:

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

その分母の機能は、確率密度積分を 1 に等しく保つために確率分布を正規化することです。

2 つの項目が乗算され、第 2 項の分母が消去されます:

max(0,?(?)−?(?))

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

図 5. 赤い線とに対応する関数この図の緑色の線を掛け合わせると、結果は図 6 の赤色の線と等しくなります

なぜ拒絶確率がたまたま max(0,?−?) に正規化されるのでしょうか?偶然のように思えるかもしれませんが、ここで重要な観察は、すべての確率密度関数の積分が 1 に等しいため、図 3 の赤い領域の面積が黄色の領域の面積に等しいということです。

2 つのパート I と II を追加します: 投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

最後に、ターゲット分布 ? を取得します。

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

図 6. 緑の領域と赤の領域の合計は、黄色の線の下の領域とまったく同じです

そして、これが私たちの目標です。

実験

原理的には投機的サンプリングが無損失であることを証明しましたが、アルゴリズムの実装にはまだバグが存在する可能性があります。したがって、実験による検証も必要です。

私たちは、貪欲デコードの決定論的手法と多項式サンプリングの確率論的手法の 2 つのケースについて実験を行いました。

Greedy Decoding

LLM に短編小説を 2 回生成するよう依頼します。最初は通常の推論を使用し、次に投機的サンプリングを使用します。どちらの場合もサンプリング温度は 0 に設定されます。 Medusa の投機的サンプリング実装を使用しました。モデルの重みは medusa-1.0-vicuna-7b-v1.5 とそのベースモデル vicuna-7b-v1.5 です。

テスト実行が完了した後、まったく同じ結果が 2 つ得られました。生成されるテキストは次のとおりです。

ユーザー: PPIO という名前のサイパーパンク騎士が魅力的なラマをペットとして飼っているという話をしてください。

アシスタント: むかしむかし、ある世界にありました。テクノロジーは私たちの想像をはるかに超えて進歩しており、PPIO という名前のサイバーパンク騎士が住んでいました。彼は高度なサイバネティック強化を備えた優れた戦士であり、常に正しいことをしようと努めていました。

ある日、任務中に、PPIO は美しいラマに出会いました。サイバネティックな存在であるにもかかわらず、PPIO は動物に興味があり、どんな危険からでもラマを救出しずにはいられませんでした。その日から、ラマは PPIO の行くところどこにでもついて行き、二人はすぐに友達になりました。

そのラマは、ラマエラという名前で、誰かが中にいることを感知する特別な能力を持っていました。 PPIO は、ラマエラの能力に感謝しており、危険を知らせるために大きな独特の鳴き声を上げました。そして、二人は止められないチームになりました。

PPIO とラマエラは、一緒にあらゆる種類の課題に取り組みました。罪のない人々を危害から救うためにサイバネティックな悪党と戦った彼らは、数え切れないほどの力であり、彼らの勇気と名誉は彼らを知るすべての人にインスピレーションを与えました。

多項式サンプリング

, 状況はさらに複雑です。ランダム化されたプログラムで結果を再現するほとんどの方法では、固定ランダムシードを使用して、擬似ランダムジェネレーターの決定論を利用します。ただし、このアプローチは私たちのシナリオには適していません。私たちの実験は大数の法則に基づいています。つまり、十分なサンプルがあれば、実際の分布と理論上の分布の間の誤差はゼロに収束します。

4 つのプロンプトテキストをコンパイルし、各プロンプトで LLM によって生成された最初のトークンに対して 1,000,000 回の投機的サンプリング反復を実行しました。使用されるモデルの重みは、Llama3 8B Instruct と EAGLE-LLaMA3-Instruct-8B です。統計結果は次のとおりです。🔜 Anteil der ersten Token-Zählung von

Die Standardabweichung zwischen dem Ausgabeergebnis des Basismodells und der Stichprobenverteilung beträgt 9,694e-5. Wie erwartet.

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか? Fazit

Spekulatives Sampling schadet der Inferenzgenauigkeit großer Sprachmodelle nicht. Durch strenge mathematische Analysen und praktische Experimente demonstrieren wir die verlustfreie Natur des standardmäßigen spekulativen Stichprobenalgorithmus. Der mathematische Beweis zeigt, wie die spekulative Stichprobenformel die ursprüngliche Verteilung des zugrunde liegenden Modells bewahrt. Unsere Experimente, einschließlich deterministischer Greedy-Dekodierung und probabilistischer Polynomstichproben, bestätigen diese theoretischen Erkenntnisse weiter. Das Greedy-Decoding-Experiment lieferte mit und ohne spekulatives Sampling die gleichen Ergebnisse, während das Polynom-Sampling-Experiment zeigte, dass der Unterschied in der Token-Verteilung über eine große Anzahl von Stichproben hinweg vernachlässigbar ist.

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか? Zusammengenommen zeigen diese Ergebnisse, dass spekulative Stichproben die LLM-Inferenz ohne Einbußen bei der Genauigkeit erheblich beschleunigen können, was den Weg für effizientere und zugänglichere KI-Systeme in der Zukunft ebnet.

以上が投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1666

CakePHP チュートリアル

1425

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1253

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles

投機的サンプリングにより、大規模な言語モデルの推論精度が失われるのでしょうか?

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック