清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！-人工智能-PHP中文网

完全量化训练

其他有效的训练方法

学习步长量化（Learned Step Quantization）

Hadamard量化

梯度的结构稀疏性

位分割（Bit Splitting）和杠杆分数采样(Leverage Score Sampling)

收敛模型精度

消融实验

计算和内存效率

首页

科技周边

人工智能

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 06:01 PM

ai 算法

将激活、权重和梯度量化为4位，有望加速神经网络训练。

然而，现有的4位训练方法需要自定义数字格式，而现代硬件不支持这种格式。

最近，清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。

使用超低INT4精度进行训练，是非常具有挑战性的。为了实现这一目标，研究者仔细分析了Transformer中激活和梯度的具体结构，为它们提出专用的量化器。

对于前向传播，研究者确定了异常值的挑战，并提出了Hadamard量化器来抑制异常值。

对于后向传播，他们通过提出位分割，来利用梯度的结构稀疏性，并利用分数采样技术来准确量化梯度。

这种新的算法，在自然语言理解、机器翻译和图像分类等广泛任务上，都实现了具有竞争力的准确性。

原型线性算子运算速度比FP16同类算子快2.2倍，训练速度提高了35.1%。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

论文地址：https://arxiv.org/abs/2306.11987

代码地址：https://github.com/xijiu9/Train_Transformers_with_INT4

全新的INT 4训练算法

训练神经网络对计算的要求很高。使用低精度算术进行训练（完全量化训练/FQT）有望提高计算和内存效率。

FQT方法在原来的全精度计算图中添加了一些量化器和反量化器，并用消耗更小的低精度浮点运算，代替了消耗更高的浮点运算。

FQT的研究旨在降低训练数值精度，而不牺牲太多的收敛速度或精度。

所需的数值精度已从FP16降低到FP8、INT32 INT8和INT8 INT5。

FP8训练是在带有Transformer引擎的Nvidia H100 GPU中实现的，加速了大规模Transformer的训练。最近的训练数值精度，已经降到了4位。

然而，这些4位训练方法不能直接用于加速，因为它们需要自定义数字格式，而现代硬件不支持这些格式。

首先，前向传播中的不可微量化器，会使损失情况变得崎岖不平，基于梯度的优化器很容易陷入局部最优。

其次，梯度仅仅以低精度近似计算。这种不精确的梯度会减慢训练过程，甚至导致训练不稳定或发散。

而在这项工作中，研究者为Transformer提出了一种新颖的INT4训练算法。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

训练Transformer的所有高消耗的线性运算，都可以写在矩阵乘法（MM）的形式中。

这种MM形式，可以让我们设计更灵活的量化器，通过利用Transformer中激活、权重和梯度的特定结构，就可以更好地近似于FP32矩阵乘法。

随机数值线性代数 (RandNLA) 领域的进步，被这种量化器充分利用。

对于前向传播，研究者发现，激活中的异常值是精度下降的主要原因。

为了抑制异常值，他们提出了Hadamard量化器，它会对激活矩阵的变换版本进行量化。这种变换是块对角Hadamard矩阵，它将离群值中携带的信息传播到矩阵的邻近条目，从而缩小了离群值的数值范围。

对于后向传播，他们利用了激活梯度的结构稀疏性。研究者发现，一些token的梯度非常大。同时，其余大多数token的梯度非常均匀，甚至比较大梯度的量化残差更均匀。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

因此，与其计算所有梯度，不如节省计算较大梯度残差的计算资源。

为了利用这种稀疏性，研究者提出了位分割，将每个token的梯度分割为高4位和低4位。

然后，通过杠杆分数采样（leverage score sampling）来选择信息最丰富的梯度，这是RandNLA的一种重要采样技术。

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！图片

结合前向和后向传播的量化技术，研究者提出了一种使用INT4MM进行Transformer中所有线性运算的算法，并且评估了在各种任务上训练Transformer的算法，包括自然语言理解、问答、机器翻译和图像分类。

与现有的4位训练算法相比，他们的算法实现了有竞争力的或更高的精度。

此外，这种算法与GPU等当代硬件兼容，因为它不需要FP4或对数格式等自定义的数字格式。

这种原型量化 INT4 MM算子实现，速度比FP16MM基线快2.2倍，并且将训练速度提高了35.1%。

结论

研究人员提出了一种对硬件很友好的Transformer INT4的训练方法。

通过分析Transformer中MM的属性，研究人员提出了HQ和LSS方法来量化激活和梯度，同时保持准确性。

在几个重要任务上，我们的方法与现有的INT4方法表现相当，甚至更好。

研究人员的这些工作可能会扩展到除了Transformers之外的其他MM架构中，例如 MLP-Mixer、图神经网络和循环神经网络网络。

这是他们未来的研究方向。

更广泛的影响：研究人员的算法可以提高效率并减少训练神经网络的能源消耗，这有助于减少深度学习造成的碳排放。

但是，高效的训练算法还可能促进那些，对于人来安全存在隐患的大语言模型和恶意人工智能应用程序的开发。

比如，会被用于虚假内容生成的相关模型和应用。

限制：这项工作的主要限制是它只能加速具有较大规模的矩阵乘法（线性层）的大模型，但不能加速卷积层。

而且，所提出的方法还不能很好地适用于OPT-175B等超大模型。

据我们所知，即使是INT8训练对于这些超大型模型来说仍然是尚待解决的问题。

以上是清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7535

CakePHP 教程

1379

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法，包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables（如果尚未安装）：sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则：sudoiptables-L配置

debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用，常用于C语言编程。本文将介绍如何将readdir与其他工具集成，以增强其功能。方法一：C语言程序与管道结合首先，编写一个C程序调用readdir函数并输出结果：#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中，readdir函数用于读取目录内容，但其返回的顺序并非预先定义的。要对目录中的文件进行排序，需要先读取所有文件，再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序：#include#include#include#include//自定义比较函数，用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下：1.安装OpenSSL工具包首先，确保你的系统上已经安装了OpenSSL工具包。如果没有安装，可以使用以下命令进行安装：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来，使用OpenSSL生成一个2048位的RSA私钥和一个证书请求（CSR）：openss

Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证，可以按照以下步骤操作：准备工作安装OpenSSL：确保你的Debian系统已经安装了OpenSSL。如果没有安装，可以使用以下命令进行安装：sudoaptupdatesudoaptinstallopenssl获取公钥：数字签名验证需要使用签名者的公钥。通常，公钥会以文件的形式提供，例如public_key.pe

Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中，OpenSSL是一个重要的库，用于加密、解密和证书管理。为了防止中间人攻击（MITM），可以采取以下措施：使用HTTPS：确保所有网络请求使用HTTPS协议，而不是HTTP。HTTPS使用TLS（传输层安全协议）加密通信数据，确保数据在传输过程中不会被窃取或篡改。验证服务器证书：在客户端手动验证服务器证书，确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian Hadoop日志管理怎么做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日志，可以遵循以下步骤和最佳实践：日志聚合启用日志聚合：在yarn-site.xml文件中设置yarn.log-aggregation-enable为true，以启用日志聚合功能。配置日志保留策略：设置yarn.log-aggregation.retain-seconds来定义日志的保留时间，例如保留172800秒（2天）。指定日志存储路径：通过yarn.n

centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown，语法为 shutdown [选项] 时间 [信息]。选项包括：-h 立即停止系统；-P 关机后关电源；-r 重新启动；-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

See all articles

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

全新的INT 4训练算法

相关工作

完全量化训练

其他有效的训练方法

学习步长量化（Learned Step Quantization）

Hadamard量化

梯度的结构稀疏性

位分割（Bit Splitting）和杠杆分数采样(Leverage Score Sampling)

收敛模型精度

消融实验

计算和内存效率

结论

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题