Llama 3低比特量化性能下降显著！全面评估结果来了

軌道1：訓練後量化

1.低比特權重

2.超低比特權重

3.低位元量化活化

軌道2：LoRA微調量化

结论

首頁

科技週邊

人工智慧

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 28, 2024 am 09:01 AM

git 人工智慧大規模 llama 3

大模型力大磚飛，讓LLaMA3演繹出了新高度：

經過超大規模預訓練的15T Token數據上，已實現了令人印象深刻的性能提升，也因遠超過Chinchilla推薦量再次引爆開源社群討論。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

同時，在實際應用層面上，另一個熱門話題也浮出水面：

資源有限場景下，LLaMA3的量化表現又會如何？

香港大學、北京航空航太大學、蘇黎世聯合邦理工學院聯合推出了一項實證研究，全面揭示了LLaMA3的低位元量化能力。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

研究人員使用現有的10種訓練後量化的LoRA微調方法，評估了LLaMA3與1-8位元和各種評估資料集上的結果。他們發現：

儘管性能令人印象深刻，LLaMA3在低位元量化下仍然遭受了不可忽視的退化，特別是在超低位寬上。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

專案已在GitHub上開源，量化模型也已登陸HuggingFace。

具體來看實證結果。

軌道1：訓練後量化

表1和表2中分別提供了LLaMA3-8B和LLaMA3-70B在8種不同的PTQ方法下的低位元效能表現，涵蓋了從1位元到8位元的廣泛位元寬度。

1.低比特權重

#其中，Round-To-Nearest (RTN) 是一種基本的捨入量化方法。

GPTQ是目前最有效率和有效的僅限權重的量化方法之一，它利用量化中的誤差補償。但在2-3位元下，當量化LLaMA3時，GPTQ會導致嚴重的準確性崩潰。

AWQ採用異常通道抑制方法來降低權重量化的難度，而QuIP透過最佳化矩陣計算來確保權重和Hessian之間的不一致性。它們都能保持LLaMA3在3位元時的能力，甚至將2比特量化推向有希望的水平。

2.超低比特權重

最近出現的二值化LLM量化方法實現了超低位元寬度LLM權重壓縮。

PB-LLM採用混合精度量化策略，保留一小部分重要權重的全精度，同時將大部分權重化為1位元。

DB-LLM透過雙重二值化權重分割實現高效的LLM壓縮，並提出偏差感知蒸餾策略以進一步增強2位元LLM性能。

BiLLM透過顯著權重的殘差逼近和非顯著權重的分組量化，進一步將LLM量化邊界推低至1.1位元。這些為超低位元寬度專門設計的LLM量化方法可以實現更高精度的量化LLaMA3-8B，在⩽2位元時遠遠超過如GPTQ、AWQ和QuIP等方法，在2位元（甚至在某些情況下3比特）下的表現。

3.低位元量化活化

也透過SmoothQuant對量化活化進行了LLaMA3評估，SmoothQuant將量化難度從活化轉移到權重，以平滑活化異常值。評估顯示，SmoothQuant可以在8比特和6比特的權重和激活下保留LLaMA3的準確性，但在4比特時面臨崩潰。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

軌道2：LoRA微調量化

在MMLU資料集上，對於LoRA-FT量化下的LLaMA3-8B，最顯著的觀察是，在Alpaca資料集上低秩微調不僅不能補償量化引入的錯誤，甚至使效能下降更加嚴重。

具體來說，各種LoRA-FT量化方法在4位元下獲得的量化LLaMA3效能，比沒有使用LoRA-FT的4位元對應版本要差。這與LLaMA1和LLaMA2上的類似現象形成鮮明對比，在LLAMA1和LLAMA2中，4位元低秩微調量化版本甚至能輕鬆超過MMLU上的原始FP16對應版本。

根據直觀分析，這一現象的主要原因是由於LLaMA3強大的性能得益於其大規模的預訓練，這意味著原始模型量化後的性能損失不能通過在一小部分低秩參數資料上進行微調來補償（這可以被視為原始模型的子集）。

尽管量化导致的显著下降不能通过微调来补偿，但4比特LoRA-FT量化的LLaMA3-8B在各种量化方法下显著优于LLaMA1-7B和LLaMA2-7B。例如，使用QLoRA方法，4比特LLaMA3-8B的平均准确率为57.0（FP16: 64.8），超过4比特LLaMA1-7B的38.4（FP16: 34.6）18.6，超过4比特LLaMA2-7B的43.9（FP16: 45.5）13.1。这表明在LLaMA3时代需要一种新的LoRA-FT量化范式。

在CommonSenseQA基准测试中也出现了类似的现象。与没有使用LoRA-FT的4比特对应版本相比，使用QLoRA和IR-QLoRA微调的模型性能也有所下降（例如，QLoRA平均下降2.8% vs IR-QLoRA平均下降2.4%）。这进一步展示了在LLaMA3中使用高质量数据集的优势，而且通用数据集Alpaca并没有对模型在其他任务中的性能作出贡献。

结论

这篇论文全面评估了LLaMA3在各种低比特量化技术（包括训练后量化和LoRA微调量化）中的性能。

此研究发现表明，尽管LLaMA3在量化后仍然展现出优越的性能，但与量化相关的性能下降是显著的，甚至在许多情况下可以导致更大的下降。

这一发现突显了在资源受限环境中部署LLaMA3可能面临的潜在挑战，并强调了在低比特量化背景下增长和改进的充足空间。通过解决低比特量化引起的性能下降，预期后续的量化范式将使LLMs在较低的计算成本下实现更强的能力，最终推动代表性的生成式人工智能达到新的高度。

论文链接：https://arxiv.org/abs/2404.14047。

项目链接：https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ。

以上是Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7848

Java教學

1649

CakePHP 教程

1403

Laravel 教程

1300

PHP教程

1241

Related knowledge

git怎麼更新代碼 Apr 17, 2025 pm 04:45 PM

更新 git 代碼的步驟：檢出代碼：git clone https://github.com/username/repo.git獲取最新更改：git fetch合併更改：git merge origin/master推送更改（可選）：git push origin master

git怎麼下載項目到本地 Apr 17, 2025 pm 04:36 PM

要通過 Git 下載項目到本地，請按以下步驟操作：安裝 Git。導航到項目目錄。使用以下命令克隆遠程存儲庫：git clone https://github.com/username/repository-name.git

git怎麼合併代碼 Apr 17, 2025 pm 04:39 PM

Git 代碼合併過程：拉取最新更改以避免衝突。切換到要合併的分支。發起合併，指定要合併的分支。解決合併衝突（如有）。暫存和提交合併，提供提交消息。

git commit怎麼用 Apr 17, 2025 pm 03:57 PM

Git Commit 是一種命令，將文件變更記錄到 Git 存儲庫中，以保存項目當前狀態的快照。使用方法如下：添加變更到暫存區域編寫簡潔且信息豐富的提交消息保存並退出提交消息以完成提交可選：為提交添加簽名使用 git log 查看提交內容

git下載不動怎麼辦 Apr 17, 2025 pm 04:54 PM

解決 Git 下載速度慢時可採取以下步驟：檢查網絡連接，嘗試切換連接方式。優化 Git 配置：增加 POST 緩衝區大小（git config --global http.postBuffer 524288000）、降低低速限制（git config --global http.lowSpeedLimit 1000）。使用 Git 代理（如 git-proxy 或 git-lfs-proxy）。嘗試使用不同的 Git 客戶端（如 Sourcetree 或 Github Desktop）。檢查防火