社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-09-08 11:25:08

轉載

870 人瀏覽過

Code Llama一出，大家都期待有人能繼續進行量化瘦身，幸好它可以在本地運行

果然是llama.cpp作者Georgi Gerganov出手了，但他這回不按套路出牌：

在不進行量化的情況下，即使使用FP16精度，Code LLama的34B程式碼也能在蘋果電腦上運行，並且推理速度超過每秒20個token

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用 #圖片

現在只要使用具有800GB/s頻寬的M2 Ultra，就可以完成原本需要4個高階GPU才能完成的任務，而且寫程式碼的速度也非常快

老哥隨後揭示了秘訣，答案非常簡單，就是進行投機採樣（speculative sampling/decoding）

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

觸發了許多業界大咖的關注

OpenAI創始成員Andrej Karpathy評價這是一種非常出色的推理時優化，並給出了更多技術解讀。

範麟熙，一位英偉達科學家，也認為這是每個從事大模型工作的人都應該熟悉的技巧

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

##GPT-4也在用的方法

在使用投機採樣的人不僅限於本地運行大型模型的人，谷歌和OpenAI等超級巨頭也在使用該技術

根據之前洩漏的資料，GPT-4就用了這個方法來降低推理成本，不然根本承受不起這麼燒錢。

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

而最新爆料表示GoogleDeepMind聯手開發的下一代大模型Gemini很可能也會用。

儘管OpenAI的具體方法保密，但Google團隊已經發布了相關論文，並且該論文入選了ICML 2023口頭報告

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用

方法很簡單，先訓練一個與大模型近似、更便宜的小模型，讓小模型先生成K個token，然後讓大模型去做評判。

大模型可以直接使用已接受的部分，並由大模型修改不接受的部分

在原始的研究中，使用了T5-XXL模型進行演示，並且在保持生成在結果不變的情況下，得到了2-3倍的推理加速蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用

圖片

#Andjrey Karpathy把這個方法比喻成「先讓小模型打草稿」。

他解釋了這個方法有效的關鍵之處在於，將大型模型分別輸入一個token和一批token，預測下一個token所需的時間幾乎相同

每個token都依賴前一個token，因此在正常情況下無法同時對多個token進行採樣

小模型雖然能力較差，但實際生成一個句子時有很多部分是非常簡單的，小模型也能勝任，只有遇到困難的部分再讓大模型上就好了。蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用原文指出，可以直接加速現有的成熟模型，而無需改變其結構或重新進行訓練

對於不會降低精度這一點，在論文附錄部分也給出了數學論證。

######圖片#########了解了原理，再來看Georgi Gerganov這次的具體設定。 ######他使用4bit量化的7B模型作為「草稿」模型，每秒約能產生80個token。 ######FP16精度的34B模型單獨使用時，每秒只能產生10個token######在使用投機採樣方法之後，我們獲得了2倍的加速效果，這與原論文中的資料相符############圖片#########他額外表示，速度可能會根據產生的內容而有所不同，但在程式碼產生上非常有效，草稿模型能猜對大多數token。 ###

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

最後，他也建議Meta以後在發布模型時直接把小的草稿模型附帶上吧，受到大夥好評。

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

作者已創業

Georgi Gerganov是作者，他在今年三月將LlaMA的第一代移植到了C上。他的開源專案llama.cpp已經獲得了接近4萬顆星星

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

他最初只是把這個當作一個業餘興趣，但由於反應熱烈，他在6月宣布創業

新公司ggml.ai致力於在邊緣設備上運行AI。該公司的主打產品是llama.cpp背後的C語言機器學習框架

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

在創業初期，我們成功獲得了來自GitHub前首席執行長Nat Friedman和Y Combinator合夥人Daniel Gross的種子前投資

LlaMA2發布後他也很活躍，最狠的一次直接把大模型塞進了瀏覽器裡。

蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用圖片

請查看Google的投機採樣論文：https://arxiv.org/abs/2211.17192

#參考連結： [1]https://x.com/ggerganov/status/1697262700165013689 [2]https://x.com/karpathy/status/1697318534555336961

##

以上是蘋果芯跑大模型不用降計算精度，投機採樣殺瘋了，GPT-4也在用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

蘋果 gpt-4 程式碼

上一篇：谷歌發表AlloyDB AI，協助開發者建立生成式AI應用下一篇：讓算力不再成為瓶頸，小紅書機器學習異質硬體推理優化之道

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

為什麼當流參數設定為false時，OpenAI Chat GPT (GPT-3.5) API沒有回應？

來自於 1970-01-01 08:00:00

0

0

0

chat gpt響應的格式化

來自於 1970-01-01 08:00:00

0

0

0

3章3-4 循環中為什麼是V

來自於 1970-01-01 08:00:00

0

0

0

javascript - 陣列[2,4,8]怎麼樣運算讓他變成（2 | 4 | 8）

來自於 1970-01-01 08:00:00

0

0

0

javascript - bootstrap 4 什麼時候發布正式版？

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1434658
php入門教程之一週學會PHP

4292588
JAVA 初級入門影片教學

2641993
小甲魚零基礎入門學習Python影片教學

515448
PHP 零基礎入門教學

875161

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板