清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！-人工智慧-PHP中文網

完全量化訓練

其他有效的訓練方法

學習步長量化（Learned Step Quantization）

Hadamard量化

梯度的結構稀疏性

位元分割（Bit Splitting）和槓桿分數取樣(Leverage Score Sampling)

收斂模型精確度

消融實驗

計算與記憶體效率

首頁

科技週邊

人工智慧

清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 06:01 PM

ai 演算法

將活化、權重和梯度量化為4位，可望加速神經網路訓練。

然而，現有的4位訓練方法需要自訂數字格式，而現代硬體不支援這種格式。

最近，清華朱軍團隊提出了一種使用INT4演算法實現所有矩陣乘法的Transformer訓練方法。

使用超低INT4精度進行訓練，是非常具有挑戰性的。為了實現這一目標，研究者仔細分析了Transformer中活化和梯度的具體結構，為它們提出專用的量化器。

對於前向傳播，研究者確定了異常值的挑戰，並提出了Hadamard量化器來抑制異常值。

對於後向傳播，他們透過提出位元分割，來利用梯度的結構稀疏性，並利用分數取樣技術來精確量化梯度。

這種新的演算法，在自然語言理解、機器翻譯和圖像分類等廣泛任務上，都實現了具有競爭力的準確性。

原型線性算子運算速度比FP16同類算子快2.2倍，訓練速度提高了35.1%。

清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！圖片

論文網址：https://arxiv.org/abs/2306.11987

#程式碼位址：https://github.com/xijiu9/Train_Transformers_with_INT4

全新的INT 4訓練演算法

訓練神經網路對運算的要求很高。使用低精度算術進行訓練（完全量化訓練/FQT）有望提高計算和記憶體效率。

FQT方法在原來的全精度計算圖中添加了一些量化器和反量化器，並用消耗更小的低精度浮點運算，取代了消耗更高的浮點運算。

FQT的研究旨在降低訓練數值精度，而不犧牲太多的收斂速度或精確度。

所需的數值精確度已從FP16降低到FP8、INT32 INT8和INT8 INT5。

FP8訓練是在Transformer引擎的Nvidia H100 GPU中實現的，加速了大規模Transformer的訓練。最近的訓練數值精度，已經降到4位了。

然而，這些4位訓練方法不能直接用於加速，因為它們需要自訂數字格式，而現代硬體不支援這些格式。

首先，前向傳播中的不可微量化器，會使損失情況變得崎嶇不平，基於梯度的最佳化器很容易陷入局部最優。

其次，梯度僅以低精度近似計算。這種不精確的梯度會減慢訓練過程，甚至導致訓練不穩定或發散。

而在這項工作中，研究者為Transformer提出了一種新穎的INT4訓練演算法。

清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！圖片

訓練Transformer的所有高消耗的線性運算，都可以寫在矩陣乘法（MM）的形式中。

這種MM形式，可以讓我們設計更靈活的量化器，透過利用Transformer中活化、權重和梯度的特定結構，就可以更好地近似於FP32矩陣乘法。

隨機數值線性代數 (RandNLA) 領域的進步，被這種量化器充分利用。

對於前向傳播，研究者發現，活化中的異常值是精確度下降的主要原因。

為了抑制異常值，他們提出了Hadamard量化器，它會對激活矩陣的變換版本進行量化。這種變換是區塊對角Hadamard矩陣，它將離群值中攜帶的資訊傳播到矩陣的鄰近條目，從而縮小了離群值的數值範圍。

對於後向傳播，他們利用了活化梯度的結構稀疏性。研究者發現，有些token的梯度非常大。同時，其餘大多數token的梯度非常均勻，甚至比較大梯度的量化殘差更均勻。

清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！圖片

因此，與其計算所有梯度，不如節省計算較大梯度殘差的運算資源。

為了利用這種稀疏性，研究者提出了位元分割，將每個token的梯度分割為高4位元和低4位元。

然後，透過槓桿分數採樣（leverage score sampling）來選擇資訊最豐富的梯度，這是RandNLA的重要採樣技術。

清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！圖片

結合前向和後向傳播的量化技術，研究者提出了一種使用INT4MM進行Transformer中所有線性運算的演算法，並且評估了在各種任務上訓練Transformer的演算法，包括自然語言理解、問答、機器翻譯和影像分類。

與現有的4位訓練演算法相比，他們的演算法實現了有競爭力的或更高的精度。

此外，演算法與GPU等當代硬體相容，因為它不需要FP4或對數格式等自訂的數位格式。

這種原型量化 INT4 MM算子實現，速度比FP16MM基線快2.2倍，並且將訓練速度提高了35.1%。

結論

研究人員提出了一種對硬體很友善的Transformer INT4的訓練方法。

透過分析Transformer中MM的屬性，研究人員提出了HQ和LSS方法來量化活化和梯度，同時保持準確性。

在幾個重要任務上，我們的方法與現有的INT4方法表現相當，甚至更好。

研究人員的這些工作可能會擴展到除了Transformers之外的其他MM架構中，例如 MLP-Mixer、圖神經網路和循環神經網路網路。

這是他們未來的研究方向。

更廣泛的影響：研究人員的演算法可以提高效率並減少訓練神經網路的能源消耗，這有助於減少深度學習造成的碳排放。

但是，高效的訓練演算法也可能促進那些，對於人來安全存在隱患的大語言模型和惡意人工智慧應用程式的開發。

例如，會被用於虛假內容產生的相關模型和應用。

限制：這項工作的主要限制是它只能加速具有較大規模的矩陣乘法（線性層）的大模型，但不能加速卷積層。

而且，所提出的方法還不能很好地適用於OPT-175B等超大模型。

據我們所知，即使是INT8訓練對於這些超大型模型來說仍然是尚待解決的問題。

以上是清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

清華朱軍團隊新作：使用4位整數訓練Transformer，比FP16快2.2倍，加速35.1%，加速AGI到來！

全新的INT 4訓練演算法

相關工作

完全量化訓練

其他有效的訓練方法

學習步長量化（Learned Step Quantization）

Hadamard量化

梯度的結構稀疏性

位元分割（Bit Splitting）和槓桿分數取樣(Leverage Score Sampling)

收斂模型精確度

消融實驗

計算與記憶體效率

結論

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題