此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處
前段時間,一則指出Google大腦團隊論文《Attention Is All You Need》中 Transformer 架構圖與程式碼不一致的推文引發了大量的討論。
對於 Sebastian 的這項發現,有人認為屬於無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應該被提及 1000 次。
Sebastian Raschka 在回答網友評論時說,「最最原始」的程式碼確實與架構圖一致,但2017 年提交的程式碼版本進行了修改,但同時沒有更新架構圖。這也是造成「不一致」討論的根本原因。
隨後,Sebastian 在 Ahead of AI 發布文章專門講述了為什麼最初的 Transformer 架構圖與程式碼不一致,並引用了多篇論文簡要說明了 Transformer 的發展變化。
以下為文章原文,讓我們一起看看文章到底講述了什麼:
幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,正面的回饋非常鼓舞人心!因此,我添加了一些論文,以保持清單的新鮮感和相關性。
同時,保持清單簡潔扼要是至關重要的,這樣大家就可以用合理的時間就跟上進度。還有一些論文,資訊量很大,想來也應該包括在內。
我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨來分享它們,以便那些之前已經閱讀過理解大型語言模型的人更容易找到它們。
On Layer Normalization in the Transformer Architecture (2020)
雖然下圖(左)的Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器- 解碼器架構的有用總結,但該圖有一個小小的差異。例如,它在殘差區塊之間進行了層歸一化,這與原始 Transformer 論文附帶的官方 (更新後的) 程式碼實作不符。下圖(中)所示的變體稱為 Post-LN Transformer。
Transformer 架構論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構在實踐中採用了這種方法,但它可能導致表徵的崩潰。
因此,雖然仍然有關於使用Post-LN 或前Pre-LN 的討論,也有一篇新論文提出了將兩個一起應用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實踐中是否有用還有待觀察。
#圖示:圖源https://arxiv.org/abs/1706.03762 (左& 中) and https://arxiv.org/abs/2002.04745 (右)
##Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)
這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似於現代Transformer。
例如,在比Transformer 論文早25 年的1991 年,Juergen Schmidhuber 提出了一種遞歸神經網路的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control- Fast-Weight-Memories:-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為Fast Weight Programmers (FWP)。另一個實現快速權值變化的神經網路是透過使用梯度下降演算法緩慢學習的 FWP 方法中所涉及的前饋神經網路。
這篇部落格(https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 將其與現代Transformer 進行類比,如下所示:
在今天的Transformer 術語中,FROM 和TO 分別稱為鍵(key) 和值(value)。應用快速網路的輸入稱為查詢。本質上,查詢由快速權重矩陣 (fast weight matrix) 處理,它是鍵和值的外積總和 (忽略歸一化和投影)。我們可以使用加法外積或二階張量積來實現端對端可微的主動控制權值快速變化,因為兩個網路的所有操作都支援微分。在序列處理期間,梯度下降可以用於快速調整快速網絡,從而應對慢速網絡的問題。這在數學上等同於 (除了歸一化之外) 後來被稱為具有線性化自註意的 Transformer (或線性 Transformer)。
如上文摘錄所提到的,這種方法現在被稱為線性 Transformer 或具有線性化自註意的 Transformer。它們來自於2020 年出現在arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv. org/abs/2009.14794)。
2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自註意力和20 世紀90年代的快速權重編程器之間的等價性。
#圖表來源:https://people.idsia.ch// ~juergen/fast-weight-programmer-1991-transformer.html#sec2
##Universal Language Model Fine-tuning for Text Classification (2018)
這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發布一年後寫的,並沒有涉及 transformer,而是專注於循環神經網絡,但它仍然值得關注。因為它有效地提出了預訓練語言模型和遷移學習的下游任務。雖然遷移學習已經在電腦視覺中確立,但在自然語言處理 (NLP) 領域還沒有普及。 ULMFit(https://arxiv.org/abs/1801.06146)是第一批表明預訓練語言模型在特定任務上微調後,可以在許多 NLP 任務中產生 SOTA 結果的論文之一。
ULMFit 建議的語言模型微調過程分為三個階段:
- 1. 在大量的文字語料庫上訓練語言模型;
- 2. 根據任務特定的資料對預訓練的語言模型進行微調,使其能夠適應文本的特定風格和詞彙;
- 3. 微調特定任務資料上的分類器,透過逐步解凍各層來避免災難性遺忘。
在大型語料庫上訓練語言模型,然後在下游任務上對其進行微調的這種方法,是基於Transformer 的模型和基礎模型(如BERT、GPT -2/3/4、RoBERTa 等) 所使用的核心方法。
然而,作為 ULMFiT 的關鍵部分,逐步解凍通常在實踐中不進行,因為 Transformer 架構通常一次對所有層進行微調。
#
Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓練。研究人員在 3000 億個 token 上訓練了一個 80 層的 2800 億個參數模型。其中包括一些有趣的架構修改,例如使用 RMSNorm (均方根歸一化) 而不是 LayerNorm (層歸一化)。 LayerNorm 和 RMSNorm 都優於 BatchNorm,因為它們不局限於批次大小,也不需要同步,這在批次大小較小的分散式設定中是一個優勢。 RMSNorm 通常被認為在更深的體系架構中會穩定訓練。
除了上述這些有趣的花絮之外,本文的主要重點是分析不同規模下的任務效能分析。對 152 個不同任務的評估顯示,增加模型大小對理解、事實查核和識別有毒語言等任務最有利,而架構擴展對與邏輯和數學推理相關的任務從益處不大。
圖註:圖源 https://arxiv.org/abs/2112.11446
#以上是此「錯」並非真的錯:從四篇經典論文入手,理解Transformer架構圖「錯」在何處的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...
