Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð
大模型力大磚飛,讓LLaMA3演繹出了新高度:
經過超大規模預訓練的15T Token數據上,已實現了令人印象深刻的性能提升,也因遠超過Chinchilla推薦量再次引爆開源社群討論。
同時,在實際應用層面上,另一個熱門話題也浮出水面:
資源有限場景下,LLaMA3的量化表現又會如何?
香港大學、北京航空航太大學、蘇黎世聯合邦理工學院聯合推出了一項實證研究,全面揭示了LLaMA3的低位元量化能力。
研究人員使用現有的10種訓練後量化的LoRA微調方法,評估了LLaMA3與1-8位元和各種評估資料集上的結果。他們發現:
儘管性能令人印象深刻,LLaMA3在低位元量化下仍然遭受了不可忽視的退化,特別是在超低位寬上。
專案已在GitHub上開源,量化模型也已登陸HuggingFace。
具體來看實證結果。
軌道1:訓練後量化
表1和表2中分別提供了LLaMA3-8B和LLaMA3-70B在8種不同的PTQ方法下的低位元效能表現,涵蓋了從1位元到8位元的廣泛位元寬度。
1.低比特權重
#其中,Round-To-Nearest (RTN) 是一種基本的捨入量化方法。
GPTQ是目前最有效率和有效的僅限權重的量化方法之一,它利用量化中的誤差補償。但在2-3位元下,當量化LLaMA3時,GPTQ會導致嚴重的準確性崩潰。
AWQ採用異常通道抑制方法來降低權重量化的難度,而QuIP透過最佳化矩陣計算來確保權重和Hessian之間的不一致性。它們都能保持LLaMA3在3位元時的能力,甚至將2比特量化推向有希望的水平。
2.超低比特權重
最近出現的二值化LLM量化方法實現了超低位元寬度LLM權重壓縮。
PB-LLM採用混合精度量化策略,保留一小部分重要權重的全精度,同時將大部分權重化為1位元。
DB-LLM透過雙重二值化權重分割實現高效的LLM壓縮,並提出偏差感知蒸餾策略以進一步增強2位元LLM性能。
BiLLM透過顯著權重的殘差逼近和非顯著權重的分組量化,進一步將LLM量化邊界推低至1.1位元。這些為超低位元寬度專門設計的LLM量化方法可以實現更高精度的量化LLaMA3-8B,在⩽2位元時遠遠超過如GPTQ、AWQ和QuIP等方法,在2位元(甚至在某些情況下3比特)下的表現。
3.低位元量化活化
也透過SmoothQuant對量化活化進行了LLaMA3評估,SmoothQuant將量化難度從活化轉移到權重,以平滑活化異常值。評估顯示,SmoothQuant可以在8比特和6比特的權重和激活下保留LLaMA3的準確性,但在4比特時面臨崩潰。
軌道2:LoRA微調量化
在MMLU資料集上,對於LoRA-FT量化下的LLaMA3-8B,最顯著的觀察是,在Alpaca資料集上低秩微調不僅不能補償量化引入的錯誤,甚至使效能下降更加嚴重。
具體來說,各種LoRA-FT量化方法在4位元下獲得的量化LLaMA3效能,比沒有使用LoRA-FT的4位元對應版本要差。這與LLaMA1和LLaMA2上的類似現象形成鮮明對比,在LLAMA1和LLAMA2中,4位元低秩微調量化版本甚至能輕鬆超過MMLU上的原始FP16對應版本。
根據直觀分析,這一現象的主要原因是由於LLaMA3強大的性能得益於其大規模的預訓練,這意味著原始模型量化後的性能損失不能通過在一小部分低秩參數資料上進行微調來補償(這可以被視為原始模型的子集)。
尽管量化导致的显著下降不能通过微调来补偿,但4比特LoRA-FT量化的LLaMA3-8B在各种量化方法下显著优于LLaMA1-7B和LLaMA2-7B。例如,使用QLoRA方法,4比特LLaMA3-8B的平均准确率为57.0(FP16: 64.8),超过4比特LLaMA1-7B的38.4(FP16: 34.6)18.6,超过4比特LLaMA2-7B的43.9(FP16: 45.5)13.1。这表明在LLaMA3时代需要一种新的LoRA-FT量化范式。
在CommonSenseQA基准测试中也出现了类似的现象。与没有使用LoRA-FT的4比特对应版本相比,使用QLoRA和IR-QLoRA微调的模型性能也有所下降(例如,QLoRA平均下降2.8% vs IR-QLoRA平均下降2.4%)。这进一步展示了在LLaMA3中使用高质量数据集的优势,而且通用数据集Alpaca并没有对模型在其他任务中的性能作出贡献。
结论
这篇论文全面评估了LLaMA3在各种低比特量化技术(包括训练后量化和LoRA微调量化)中的性能。
此研究发现表明,尽管LLaMA3在量化后仍然展现出优越的性能,但与量化相关的性能下降是显著的,甚至在许多情况下可以导致更大的下降。
这一发现突显了在资源受限环境中部署LLaMA3可能面临的潜在挑战,并强调了在低比特量化背景下增长和改进的充足空间。通过解决低比特量化引起的性能下降,预期后续的量化范式将使LLMs在较低的计算成本下实现更强的能力,最终推动代表性的生成式人工智能达到新的高度。
论文链接:https://arxiv.org/abs/2404.14047。
项目链接:https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ。
以上是Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

更新 git 代碼的步驟:檢出代碼:git clone https://github.com/username/repo.git獲取最新更改:git fetch合併更改:git merge origin/master推送更改(可選):git push origin master

要通過 Git 下載項目到本地,請按以下步驟操作:安裝 Git。導航到項目目錄。使用以下命令克隆遠程存儲庫:git clone https://github.com/username/repository-name.git

Git 代碼合併過程:拉取最新更改以避免衝突。切換到要合併的分支。發起合併,指定要合併的分支。解決合併衝突(如有)。暫存和提交合併,提供提交消息。

Git Commit 是一種命令,將文件變更記錄到 Git 存儲庫中,以保存項目當前狀態的快照。使用方法如下:添加變更到暫存區域編寫簡潔且信息豐富的提交消息保存並退出提交消息以完成提交可選:為提交添加簽名使用 git log 查看提交內容

解決 Git 下載速度慢時可採取以下步驟:檢查網絡連接,嘗試切換連接方式。優化 Git 配置:增加 POST 緩衝區大小(git config --global http.postBuffer 524288000)、降低低速限制(git config --global http.lowSpeedLimit 1000)。使用 Git 代理(如 git-proxy 或 git-lfs-proxy)。嘗試使用不同的 Git 客戶端(如 Sourcetree 或 Github Desktop)。檢查防火

如何更新本地 Git 代碼?用 git fetch 從遠程倉庫拉取最新更改。用 git merge origin/<遠程分支名稱> 將遠程變更合併到本地分支。解決因合併產生的衝突。用 git commit -m "Merge branch <遠程分支名稱>" 提交合併更改,應用更新。

在開發一個電商網站時,我遇到了一個棘手的問題:如何在大量商品數據中實現高效的搜索功能?傳統的數據庫搜索效率低下,用戶體驗不佳。經過一番研究,我發現了Typesense這個搜索引擎,並通過其官方PHP客戶端typesense/typesense-php解決了這個問題,大大提升了搜索性能。

要刪除 Git 倉庫,請執行以下步驟:確認要刪除的倉庫。本地刪除倉庫:使用 rm -rf 命令刪除其文件夾。遠程刪除倉庫:導航到倉庫設置,找到“刪除倉庫”選項,確認操作。
