田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘
Transformer架構已經橫掃了包括自然語言處理、電腦視覺、語音、多模態等多個領域,不過目前只是實驗效果非常驚艷,對Transformer工作原理的相關研究仍然十分有限。
其中最大謎團在於,Transformer為什麼只依靠一個「簡單的預測損失」就能從梯度訓練動態(gradient training dynamics)中湧現出高效的表徵?
最近田徑棟博士公佈了團隊的最新研究成果,以數學嚴格方式,分析了1層Transformer(一個自註意力層加一個解碼器層)在下一個token預測任務上的SGD訓練動態。
論文連結:https://arxiv.org/abs/2305.16380
#這篇論文打開了自註意力層如何組合輸入token動態過程的黑盒子,並揭示了潛在的歸納偏見的性質。
具體來說,在沒有位置編碼、長輸入序列、以及解碼器層比自註意力層學習更快的假設下,研究人員證明了自註意力就是一個判別式掃描演算法(discriminative scanning algorithm):
從均勻分佈的注意力(uniform attention)開始,對於要預測的特定下一個token,模型逐漸關注不同的key token,而較少關注那些出現在多個next token窗口中的常見token
#對於不同的token,模型會逐漸降低注意力權重,遵循訓練集中的key token和query token之間從低到高共現的順序。
有趣的是,這個過程不會導致贏家通吃,而是由兩層學習率控制的相變而減速,最後變成(幾乎)固定的token組合,在合成和真實世界的數據上也驗證了這種動態。
田淵棟博士是Meta人工智慧研究院研究員、研究經理,圍棋AI專案負責人,其研究方向為深度增強學習及其在遊戲中的應用,以及深度學習模型的理論分析。先後於2005年及2008年取得上海交通大學本碩學位,2013年獲得美國卡內基美隆大學機器人研究所博士學位。
曾獲2013年國際電腦視覺大會(ICCV)馬爾獎提名(Marr Prize Honorable Mentions),ICML2021傑出論文榮譽提名獎。
曾在博士畢業後發布《博士五年總結》系列,從研究方向選擇、閱讀積累、時間管理、工作態度、收入和可持續的職業發展等方面對博士生涯總結心得和體會。
揭秘1層Transformer
基於Transformer架構的預訓練模型通常只包含非常簡單的監督任務,例如預測下一個單字、填空等,但卻可以為下游任務提供非常豐富的表徵,實在令人費解。
之前的工作雖然已經證明了Transformer本質上就是一個通用近似器(universal approximator),但先前常用的機器學習模型,例如kNN、核SVM、多層感知機等其實也是通用近似器,這種理論無法解釋這兩類模型在效能上的巨大差距。
研究人員認為,了解Transformer的訓練動態(training dynamics)是很重要的,也就是說,在訓練過程中,可學習參數是如何隨時間變化的。
文章首先以嚴謹數學定義的方式,形式化描述了1層無位置編碼Transformer的SGD在下一個token預測(GPT系列模型常用的訓練範式)上的訓練動態。
1層的Transformer包含一個softmax自註意力層和預測下一個token的解碼器層。
在假設序列很長,而且解碼器的學習速度比自註意力層快的情況下,證明了訓練期間自註意力的動態行為:
1. 頻率偏差Frequency Bias
##模型會逐漸關注那些與query token大量共現的key token,而對那些共現較少的token降低注意力。
2. 判別偏差Discrimitive Bias
##模型更關注那些在下一個要預測的token中唯一出現的獨特token,而對那些在多個下一個token中出現的通用token失去興趣。這兩個特性表明,自註意力隱式地運行著一種判別式掃描(discriminative scanning)的演算法,並存在歸納偏差(inductive bias),即偏向於經常與query token共同出現的獨特的key token
此外,雖然自註意力層在訓練過程中趨向於變得更加稀疏,但正如頻率偏差所暗示的,模型因為訓練動態中的相變(phase transition),所以不會崩潰為獨熱(one hot)。
研究結果進一步表明,相變的開始是由學習率控制的:大的學習率會產生稀疏的注意力模式,而在固定的自註意力學習率下,大的解碼器學習率會導致更快的相變和密集的注意力模式。
研究人員將工作中發現的SGD動態命名為掃描(scan)和snap:
掃描階段:自註意力集中在key tokens上,即不同的、經常與下一個預測token同時出現的token;其他所有token的注意力都下降。
snap階段:注意力全中幾乎凍結,token組合固定。
以上是田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

目前排名前十的虛擬幣交易所:1.幣安,2. OKX,3. Gate.io,4。幣庫,5。海妖,6。火幣全球站,7.拜比特,8.庫幣,9.比特幣,10。比特戳。

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。
