微軟6頁論文爆火：三進制LLM，真香！-人工智慧-PHP中文網

把参数都变成三进制

网友：能在消费级GPU跑120B大模型了

首頁

科技週邊

人工智慧

微軟6頁論文爆火：三進制LLM，真香！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 29, 2024 pm 10:01 PM

ai 訓練記憶體佔用

这就是由微软和中国中科院大学在最新一项研究中所提出的结论——

所有的LLM，都将是1.58 bit的。

微軟6頁論文爆火：三進制LLM，真香！

具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的参数下手。

将传统以16位浮点数（如FP16或BF16）形式的存储，统统变成了三进制，也就是 {-1, 0, 1}。

微軟6頁論文爆火：三進制LLM，真香！

需要注意的是，“1.58 bit”并非表示每个参数占用1.58字节的存储空间，而是指每个参数可以用1.58位的信息来编码。

在如此转换之后，矩阵中的计算就只会涉及到整数的加法，因此会让大模型在保持一定精度的同时，显著减少所需的存储空间和计算资源。

例如BitNet b1.58在3B模型大小时与Llama做比较，速度提高了2.71倍的同时，GPU内存使用几乎仅是原先的四分之一。

而且当模型的规模越大时（例如70B），速度上的提升和内存上的节省就会更加显著！

这种颠覆传统的思路着实是让网友们眼前一亮，论文在X上也是受到了高度的关注：

微軟6頁論文爆火：三進制LLM，真香！

网友们惊叹“改变游戏规则”的同时，还玩起了谷歌attention论文的老梗：

1 bit is all YOU need.

微軟6頁論文爆火：三進制LLM，真香！

那么BitNet b1.58具体又是如何实现的？我们继续往下看。

把参数都变成三进制

这项研究实则是原班人马在此前发表的一篇论文基础之上做的优化，即在原始BitNet的基础上增加了一个额外的0值。

微軟6頁論文爆火：三進制LLM，真香！

整体来看，BitNet b1.58依旧是基于BitNet架构（一种Transformer），用BitLinear替换了nn.Linear。

至于细节上的优化，首先就是我们刚才提到的“加个0”，即权重量化（weight quantization）。

BitNet b1.58模型的权重被量化为三元值{-1, 0, 1}，这相当于在二进制系统中使用了1.58 bit来表示每个权重。这种量化方法减少了模型的内存占用，并简化了计算过程。

微軟6頁論文爆火：三進制LLM，真香！

其次，在量化函数设计方面，为了将权重限制在-1、0或 1之间，研究者们采用了一种称为absmean的量化函数。

微軟6頁論文爆火：三進制LLM，真香！

这个函数先会根据权重矩阵的平均绝对值进行缩放，然后将每个值四舍五入到最接近的整数（-1, 0, 1）。

接下来就到了激活量化（activation quantization）这一步。

激活值的量化与BitNet中的实现相同，但在非线性函数之前不将激活值缩放到[0, Qb]的范围内。相反，激活值被缩放到[−Qb, Qb]的范围，以此来消除零点量化。

值得一提的是，研究团队为了BitNet b1.58与开源社区兼容，采用了LLaMA模型的组件，如RMSNorm、SwiGLU等，使得它可以轻松集成到主流开源软件中。

最后，在实验的性能比较上，团队将BitNet b1.58与FP16 LLaMA LLM在不同大小的模型上进行了比较。

微軟6頁論文爆火：三進制LLM，真香！

结果显示，BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配，同时在延迟、内存使用和吞吐量方面有显著提升。

而且当模型规模越大时，这种性能上提升就会越发显著。

网友：能在消费级GPU跑120B大模型了

正如上文所言，这篇研究独特的方法在网上引发了不小的热议。

DeepLearning.scala作者杨博表示：

BitNet b1.58相比原版BitNet，最大的特点就是允许0参数。我觉得稍微修改一下量化函数，也许可以控制0参数的比例。当0参数的比例很大时，可以用稀疏格式存储权重，使得平均每个参数的显存占用甚至低于1比特。这就相当于权重级别的MoE了。我觉得比一般的MoE更优雅。

与此同时，他也提出了关于BitNet的缺点：

BitNet最大的缺点在于虽然能减少推理时的显存开销，但优化器状态和梯度仍然要用浮点数，训练仍然很费显存。我觉得如果能把BitNet和训练时节省显存的技术结合起来，那么相比传统半精度网络，同等算力和显存下支持更多参数，优势就很大了。

目前能节省优化器状态的显存开销的办法是offloading。能节省梯度的显存占用的办法可能是ReLoRA。但是ReLoRA的论文实验只用了十亿参数的模型，并没有证据表明能不能推广到百亿、千亿参数的模型。

△图源：知乎，经授权引用

不过也有网友分析认为：

若论文成立，那么我们就能在24GB消费级GPU上跑120B的大模型了。

微軟6頁論文爆火：三進制LLM，真香！

那么你觉得这种新方法如何呢？

以上是微軟6頁論文爆火：三進制LLM，真香！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。