GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況-人工智慧-PHP中文網

#推測解碼的演化之路

公式和定義

模型對齊

應用程式

機會與挑戰

首頁

科技週邊

人工智慧

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

王林

Feb 20, 2024 pm 03:45 PM

模型訓練

眾所周知，大型語言模型（LLM）的推理通常需要使用自迴歸取樣，這個推理過程相當緩慢。為了解決這個問題，推測解碼（Speculative Decoding）已經成為 LLM 推理的一種新型取樣方法。這種方法在每個採樣步驟中，會先預測幾個可能的 token，然後並行地驗證是否準確。與自迴歸解碼不同，推測解碼能夠單步解碼多個 token，從而加速推理。

儘管推測解碼在許多方面都表現出巨大潛力，但也帶來了一些需要深入研究的關鍵問題。首先，我們需要思考如何選擇或設計適當的近似模型，以在推測的準確性和生成的效率之間取得平衡。其次，重要的是確保評估標準能夠同時維持生成結果的多樣性和品質。最後，必須認真考慮近似模型和目標大模型之間的推理過程的對齊，以提高推理的準確性。

來自香港理工大學、北京大學、MSRA以及阿里的研究者對推測解碼進行了全面的研研，機器之心對此進行了綜合總結。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

#論文標題：Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
論文網址：https://arxiv.org/pdf/2401.07851.pdf

#推測解碼的演化之路

文章首先詳細介紹了推測解碼技術的早期研究情況，並透過時間表展示了其發展歷程（見圖2）。

分塊取樣（Blockwise Decoding）是一種在 Transformer 解碼器上整合額外前饋神經（FFN）頭的方法，能夠單步產生多個 token。

為了進一步充分發揮分塊取樣演算法的潛力，提出了推測解碼的解決方案。這種演算法涵蓋了一個獨立的近似模型，通常採用專門的非自回歸 Transformer，能夠有效率且精確地執行生成任務。

繼推測解碼出現之後，有學者接著提出了「投機採樣演算法」（Speculative Sampling），在推測解碼中加入了無損加速核採樣。

總的來說，這些關於推測解碼的創新嘗試已經開始加強 Draftthen-Verify 範式，並且展示了在 LLM 加速方面的巨大潛能。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

公式和定義

本節首先簡要概述了標準自回歸解碼的內容，然後深入闡述了推測解碼演算法，包括對形式定義、方法論的全面描述以及演算法的詳細闡述。

本文提出了一個組織架構來對相關研究進行分類，如下圖 3 所示。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

本文在前人的基礎上，對「推測解碼演算法」再次進行了正式的定義：

#推測解碼演算法是一種先生成後驗證的解碼模式，在每個解碼步驟，它首先需要能產生多個可能的token，然後使用目標大語言模型並行地評估所有這些token，以加快推理速度。演算法表 2 是一個詳細的推測解碼過程。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

隨後，本文深入研究了這個典範不可或缺的兩個基本子步驟— 產生與評估。

產生

#在每個解碼步驟中，推測解碼演算法首先會生成多個可能的token，作為對目標大語言模型的輸出內容的推測。

本文將產生的內容分為兩類：獨立生成（independent drafting ）和自生成（self-drafting），並在下表 1 中總結了其公式。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

驗證

在每個解碼步驟中，並行驗證近似模型產生的token，以確保輸出品質與目標大語言模型高度一致。這個過程也確定了每一步可允許的 token 數量，這是一個能夠影響加速情況的一個重要因素。

對各種驗證標準的總結如下表 2 所示，包括那些在大語言模型推理中支持貪心解碼和核採樣的標準。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

產生和驗證的子步驟會持續迭代，直到滿足終止條件為止，即[EOS] token 被解碼或句子達到最大長度。

此外，本文引入了 token 的樹驗證演算法，這是一種逐步提高 token 接受度的有效策略。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

模型對齊

#提高推測準確度是加速推測解碼的關鍵：近似模型的預測行為越接近目標大語言模型，對其產生token 的接受率就越高。為此，現有的工作探索了各種知識提取（KD）策略，以使近似模型的輸出內容與目標大語言模型的輸出內容保持一致。

分塊解碼首先採用序級知識擷取（Seq-KD）來進行模型對齊，以目標大語言模型產生的句子訓練近似模型。

此外，Seq-KD 也是提高平行解碼產生品質的有效策略，提高了平行解碼的生成效能。

下表 3 中總結了現有推測解碼方法的主要特徵，包括近似模型的類型或生成策略、模型對齊方法、支援的評估策略和加速程度等情況。

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

應用程式

#除了作為一種通用範式外，最近的工作還表明，推測解碼的一些變體在特定任務中表現出非凡的有效性。此外，其他研究已經將這種範式應用於解決某些應用情境特有的延遲問題，從而實現推理加速。

例如，有些學者認為，推測解碼特別適合模型輸入和輸出高度相似的任務，如語法糾錯和檢索增強生成。

除了這些工作之外，RaLMSpec（Zhang et al., 2023b）用推測解碼來加速檢索增強語言模型（RaLMs）。

機會與挑戰

問題 1：如何權衡預測內容的準確度與產生效率？儘管目前對這個問題取得了一些進展，但在使近似模型與目標大語言模型生成內容保持一致方面仍有相當大的改進空間。除了模型對齊之外，其他因素（如產生品質和預測長度的確定）也會影響推測的準確性，值得進一步探索。

問題 2：如何將推測解碼與其他領先技術結合？作為一種通用的解碼模式，推測解碼已經與其他先進技術相結合，展示了其潛力。除了加速純文字的大語言模型之外，推測解碼在多模式推理中的應用，如圖像合成、文字轉語音合成和視訊生成，也是未來研究的一個有趣而有價值的方向。

更多細節內容請參閱原文。

以上是GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1273

C# 教程

1252

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理，複雜運動也能精準建模 Jun 11, 2024 am 09:51 AM

什麼？瘋狂動物城被國產AI搬進現實了？與影片一同曝光的，是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線，結合多項自研技術創新，生產的影片不僅運動幅度大且合理，還能模擬物理世界特性，具備強大的概念組合能力與想像。數據上看，可靈支持生成長達2分鐘的30fps的超長視頻，分辨率高達1080p，且支援多種寬高比。另外再劃個重點，可靈不是實驗室放出的Demo或影片結果演示，而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實，不開空頭支票、發布即上線，可靈大模型已在快影

See all articles

GPT-4可能也在用的推測解碼是什麼？一文綜述前世今生與應用情況

#推測解碼的演化之路

公式和定義

模型對齊

應用程式

機會與挑戰

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題