網友盛贊：Transformer引領年度論文的簡化版本來了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

網友盛贊：Transformer引領年度論文的簡化版本來了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 14, 2024 pm 01:51 PM

工程

從大模型的根源開始最佳化。

Transformer 架構可以說是近期深度學習領域許多成功案例背後的主力。建構深度Transformer 架構的簡單方法是將多個相同的Transformer 「區塊」（block）依序堆疊起來，但每個「區塊」都比較複雜，由許多不同的元件組成，需要以特定的排列組合才能實現良好的性能。

自從 2017 年 Transformer 架構誕生以來，研究者們基於其推出了大量衍生研究，但幾乎沒有改動過 Transformer “塊”。

那麼問題來了，標準 Transformer 區塊是否可以簡化？

在最近的一篇論文中，來自 ETH Zurich 的研究者討論瞭如何在不影響收斂特性和下游任務表現的情況下簡化 LLM 所必需的標準 Transformer 區塊。基於訊號傳播理論和經驗證據，他們發現可以移除一些部分，例如殘差連接、歸一化層（LayerNorm）、投影和值參數以及MLP 序列化子區塊（有利於並行佈局），以簡化類似GPT 的解碼器架構以及編碼器式BERT 模型。

研究者探討了在不影響訓練速度的情況下，是否可以移除所涉及的元件，並對Transformer區塊進行哪些架構修改。

論文連結：https://arxiv.org/pdf/2311.01906.pdf

Lightning AI 創辦人、機器學習研究者Sebastian Raschka 將這項研究稱為自己的「年度最愛論文之一」：

網友盛贊：Transformer引領年度論文的簡化版本來了

但也有研究者質疑：「這很難評，除非我看過完整的訓練過程。如果沒有歸一化層，也沒有殘差連接，如何能在大於1 億參數的網路中進行擴展？」

#Sebastian Raschka 表示同意：「是的，他們試驗的架構相對較小，這是否能推廣到數十億參數的Transformer 上還有待觀察。」但他仍然表示這項工作令人印象深刻，並認為成功移除殘差連接是完全合理的（考慮到其初始化方案）。

對此，圖靈獎得主Yann LeCun 的評價是：「我們只是觸及了深度學習架構領域的皮毛。這是一個高維度空間，因此體積幾乎完全包含在表面中，但我們只觸及了表面的一小部分。」

網友盛贊：Transformer引領年度論文的簡化版本來了

#為什麼需要簡化Transformer 區塊？

研究者表示，在不影響訓練速度的前提下簡化 Transformer 區塊是一個有趣的研究問題。

首先，現代神經網路架構設計複雜，包含許多元件，而這些不同元件在神經網路訓練動態中所扮演的角色，以及它們之間如何相互作用，人們對此尚不清楚。這個問題關乎深度學習理論與實務之間的差距，因此非常重要。

訊號傳播理論（Signal propagation）已被證明具有影響力，因為它能夠激勵深度神經網路架構中的實際設計選擇。訊號傳播研究了初始化時神經網路中幾何資訊的演化，透過跨輸入的分層表徵的內積來捕捉，在訓練深度神經網路方面取得了許多令人印象深刻的成果。

然而，目前理論只考慮初始化時的模型，而且往往只考慮初始前向傳遞，因此無法揭示深度神經網路訓練動態的許多複雜問題，例如殘差連接對訓練速度的助益。雖然訊號傳播對修改動機至關重要，但研究者表示，他們不能僅從理論上就得出簡化的 Transformer 模組，還要依靠經驗見解。

在實際應用方面，考慮到目前訓練和部署大型 Transformer 模型的高昂成本，Transformer 架構的訓練和推理管線的任何效率提升都代表著巨大的潛在節約意義。如果能夠透過移除非必要元件來簡化 Transformer 模組，既能減少參數數量，又能提高模型的吞吐量。

這篇論文也提到，移除殘差連接、值參數、投影參數和序列化子區塊之後，可以同時做到在訓練速度和下游任務表現方面與標準 Transformer 相符。最終，研究者將參數量減少了 16%，並觀察到訓練和推理時間的吞吐量增加了 16%。

如何簡化 Transformer 區塊？

研究者結合訊號傳播理論和經驗觀察，介紹如何從 Pre-LN 模組出發，產生最簡單的 Transformer 區塊（如下圖）。

網友盛贊：Transformer引領年度論文的簡化版本來了

在論文第四章的每一個小節，作者分別介紹如何在不影響訓練速度的情況下每次刪除一個區塊組件。

這一部分的所有實驗都在CodeParrot 資料集上使用了一個18-block 768-width 的因果僅解碼器類別GPT 模型，這個資料集足夠大，因此當作者處於單一訓練epoch 模式時，泛化差距非常小（見圖2），這使得他們可以專注於訓練速度。

網友盛贊：Transformer引領年度論文的簡化版本來了

刪除殘差連結

#研究者首先考慮刪除注意力子區塊中的殘差連結。在公式（1）的符號中，這相當於將 α_SA 固定為 0。簡單地移除注意力殘差連接會導致訊號退化，即秩崩潰（rank collapse），從而導致可訓練性差。在論文 4.1 部分，研究者詳細解釋了他們的方法。

網友盛贊：Transformer引領年度論文的簡化版本來了

刪除投影/ 值參數

#從圖3 可以得出結論，完全移除值和投影參數W^ V、W^P 是可能的，而且每次更新的訓練速度損失最小。也就是說，當β_V = β_P = 0 和identity 初始化的

網友盛贊：Transformer引領年度論文的簡化版本來了

#時，在相同的訓練步數後，本研究基本上能達到Pre-LN 區塊的性能。在這種情況下，在整個訓練過程中都有 W^V = W^P = I，即值和投影參數是一致的。作者在 4.2 節介紹了詳細方法。

刪除MLP 子區塊殘差連接

與上述幾個模組相比，刪除MLP 子區塊殘差連接要更具挑戰性。與先前的研究一樣，作者發現，在使用 Adam 時，如果沒有 MLP 殘差連接，透過訊號傳播使活化更加線性仍會導致每次更新訓練速度的顯著下降，如圖 22 所示。

網友盛贊：Transformer引領年度論文的簡化版本來了

他們也嘗試了 Looks Linear 初始化的各種變體，包括高斯權重、正交權重或恆等權重，但都無濟於事。因此，他們在整個工作中使用標準活化（例如 ReLU）和 MLP 子塊中的初始化。

作者轉向並行 MHA 和 MLP 子區塊的概念，這在幾個近期的大型 transformer 模型中已被證明很受歡迎，例如 PALM 和 ViT-22B。並行 transformer 區塊如下圖所示。

作者在論文 4.3 節詳細介紹了移除 MLP 子區塊殘差連接的具體操作。

刪除歸一化層

最後一個被刪除的是歸一化層，這樣就得到了圖 1 右上角的最簡塊。從訊號傳播初始化的角度來看，作者可以在本節簡化的任何階段移除歸一化層。他們的想法是，Pre-LN 區塊中的歸一化會隱式地降低殘差分支的權重，而這種有利的效果可以透過另一種機制在沒有歸一化層的情況下複製：要麼在使用殘差連接時明確降低殘差分支的權重，要麼將注意力矩陣偏向identity / 將MLP 非線性轉換為「更」線性。

由於作者在修改過程中考慮了這些機制（例如降低 MLP β_FF 和 Shaped Attention 的權重），因此無需進行歸一化處理。作者在第 4.4 節介紹了更多資訊。

實驗結果

深度擴展

#鑑於訊號傳播理論通常關注很大的深度，而這種情況下通常會出現訊號退化。因此一個很自然的問題就是，本文的簡化 transformer 區塊所提升的訓練速度是否也能擴展到更大的深度？

從圖6 可以觀察到，將深度從18 個區塊擴展到72 個區塊後，本研究的模型和Pre-LN transformer 的表現都得到了提高，這表明本研究中的簡化模型不僅訓練速度更快，還能利用更大的深度所提供的額外能力。事實上，在使用歸一化時，本研究中的簡化區塊和 Pre-LN 的每次更新軌跡在不同深度下幾乎沒有差異。

BERT

接下来，作者展示了他们的简化块性能除了适用于自回归解码器之外，还适用于不同的数据集和架构，以及下游任务。他们选择了双向仅编码器 BERT 模型的流行设置，用于掩蔽语言建模，并采用下游 GLUE 基准。

如图 7 所示，在 24 小时运行时内，与（Crammed）Pre-LN 基线相比，本研究的简化块可以媲美掩蔽语言建模任务的预训练速度。另一方面，在不修改值和投影的情况下删除残差连接再次导致训练速度的显著下降。在图 24 中，作者提供了 microbatch 步骤的等效图。

網友盛贊：Transformer引領年度論文的簡化版本來了

此外，在表 1 中，研究者发现他们的方法在 GLUE 基准上经过微调后，性能与 Crammed BERT 基准相当。

他们在表 2 中对下游任务进行了细分。为了进行公平比较，他们使用了与 Geiping & Goldstein (2023) 相同的微调协议（5 个 epoch、各任务超参数恒定、dropout regularisation）。

效率提升

在表 1 中，研究者还详细列出了使用不同 Transformer 块的模型在掩蔽语言建模任务中的参数数量和训练速度。他们以预训练 24 小时内所采取的 microbatch 步骤数与基线 Pre-LN Crammed BERT 的比率计算了速度。结论是，模型使用的参数减少了 16%，SAS-P 和 SAS 的每次迭代速度分别比 Pre-LN 块快 16% 和 9%。

可以注意到，在这里的实现中，并行块只比 Pre-LN 块快 5%，而 Chowdhery et al.（2022 ）观察到的训练速度则快 15%，这表明通过更优化的实现，整个训练速度有可能进一步提高。与 Geiping & Goldstein（2023 年）一样，此处实现也使用了 PyTorch 中的自动算子融合技术 (Sarofeen et al., 2022)。

更长的训练

最后，考虑到当前在更多数据上长时间训练较小模型的趋势，研究者讨论了简化块在长时间训练后是否仍能达到 Pre-LN 块的训练速度。为此，他们在 CodeParrot 上使用图 5 中的模型，并使用 3 倍 token 进行训练。准确地说，是在批大小为 128、序列长度为 128 的情况下进行了约 120K 步（而不是 40K 步）的训练，这将导致约 2B 个 token。

从图 8 可以看出，当使用更多的 token 进行训练时，简化的 SAS 和 SAS-P 代码块的训练速度仍然与 PreLN 代码块相当，甚至优于 PreLN 代码块。

網友盛贊：Transformer引領年度論文的簡化版本來了

更多研究细节，可参考原论文。

以上是網友盛贊：Transformer引領年度論文的簡化版本來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7862

Java教學

1649

CakePHP 教程

1404

Laravel 教程

1300

PHP教程

1242

Related knowledge

ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了！這次瞄準繪畫領域。新項目PaintsUndo剛上線不久，就收穫1.4kstar（還在瘋狂漲）。項目地址：https://github.com/lllyasviel/Paints-UNDO透過這個項目，用戶輸入一張靜態圖像，PaintsUndo就能自動幫你生成整個繪畫的全過程視頻，從線稿到成品都有跡可循。繪製過程，線條變化多端甚是神奇，最終視頻結果和原始圖像非常相似：我們再來看一個完整的繪

登頂開源AI軟體工程師榜首，UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校（UIUC）張令明老師團隊，包括：StevenXia，四年級博士生，研究方向是基於AI大模型的自動代碼修復；鄧茵琳，四年級博士生，研究方

從RLHF到DPO再到TDPO，大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中，對大語言模型（LLM）的控制與指導始終是核心挑戰之一，旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法（RL

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

黎曼猜想显著突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題，與素數分佈的精確性質有關（素數是那些只能被1和自身整除的數字，它們在數論中扮演著基礎性的角色）。在當今的數學文獻中，已有超過一千個數學命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說，黎曼猜想及其推廣形式一旦被證明，這一千多個命題將被確立為定理，對數學領域產生深遠的影響；而如果黎曼猜想被證明是錯誤的，那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

arXiv論文可以發「彈幕」了，史丹佛alphaXiv討論平台上線，LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯！當論文討論細緻到詞句，是什麼體驗？最近，史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發布問題和評論。網站連結：https://alphaxiv.org/其實不需要專門訪問這個網站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文：可以精準定位到論文中的段落、句子：右側討論區，使用者可以發表問題詢問作者論文想法、細節，例如：也可以針對論文內容發表評論，例如：「給出至

首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

公理訓練讓LLM學會因果推理：6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM，它就能學會公理。 AI已經在幫助數學家和科學家做研究了，例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳，強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現：在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說，如果讓Transformer學會執行簡單的因果推理，就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式，只有演示

See all articles

網友盛贊：Transformer引領年度論文的簡化版本來了

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題