目錄
揭秘1層Transformer
首頁 科技週邊 人工智慧 田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

Jun 12, 2023 pm 01:56 PM
ai

Transformer架構已經橫掃了包括自然語言處理、電腦視覺、語音、多模態等多個領域,不過目前只是實驗效果非常驚艷,對Transformer工作原理的相關研究仍然十分有限。

其中最大謎團在於,Transformer為什麼只依靠一個「簡單的預測損失」就能從梯度訓練動態(gradient training dynamics)中湧現出高效的表徵?

最近田徑棟博士公佈了團隊的最新研究成果,以數學嚴格方式,分析了1層Transformer(一個自註意力層加一個解碼器層)在下一個token預測任務上的SGD訓練動態。

田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

論文連結:https://arxiv.org/abs/2305.16380

#這篇論文打開了自註意力層如何組合輸入token動態過程的黑盒子,並揭示了潛在的歸納偏見的性質。

具體來說,在沒有位置編碼、長輸入序列、以及解碼器層比自註意力層學習更快的假設下,研究人員證明了自註意力就是一個判別式掃描演算法(discriminative scanning algorithm)

從均勻分佈的注意力(uniform attention)開始,對於要預測的特定下一個token,模型逐漸關注不同的key token,而較少關注那些出現在多個next token窗口中的常見token

#對於不同的token,模型會逐漸降低注意力權重,遵循訓練集中的key token和query token之間從低到高共現的順序。

有趣的是,這個過程不會導致贏家通吃,而是由兩層學習率控制的相變而減速,最後變成(幾乎)固定的token組合,在合成和真實世界的數據上也驗證了這種動態。

田淵棟博士是Meta人工智慧研究院研究員、研究經理,圍棋AI專案負責人,其研究方向為深度增強學習及其在遊戲中的應用,以及深度學習模型的理論分析。先後於2005年及2008年取得上海交通大學本碩學位,2013年獲得美國卡內基美隆大學機器人研究所博士學位。

曾獲2013年國際電腦視覺大會(ICCV)馬爾獎提名(Marr Prize Honorable Mentions),ICML2021傑出論文榮譽提名獎。

曾在博士畢業後發布《博士五年總結》系列,從研究方向選擇、閱讀積累、時間管理、工作態度、收入和可持續的職業發展等方面對博士生涯總結心得和體會。

揭秘1層Transformer

基於Transformer架構的預訓練模型通常只包含非常簡單的監督任務,例如預測下一個單字、填空等,但卻可以為下游任務提供非常豐富的表徵,實在令人費解。

之前的工作雖然已經證明了Transformer本質上就是一個通用近似器(universal approximator),但先前常用的機器學習模型,例如kNN、核SVM、多層感知機等其實也是通用近似器,這種理論無法解釋這兩類模型在效能上的巨大差距。

田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

研究人員認為,了解Transformer的訓練動態(training dynamics)是很重要的,也就是說,在訓練過程中,可學習參數是如何隨時間變化的。

文章首先以嚴謹數學定義的方式,形式化描述了1層無位置編碼Transformer的SGD在下一個token預測(GPT系列模型常用的訓練範式)上的訓練動態。

1層的Transformer包含一個softmax自註意力層和預測下一個token的解碼器層。

田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

在假設序列很長,而且解碼器的學習速度比自註意力層快的情況下,證明了訓練期間自註意力的動態行為:

1. 頻率偏差Frequency Bias

##模型會逐漸關注那些與query token大量共現的key token,而對那些共現較少的token降低注意力。

2. 判別偏差Discrimitive Bias

##模型更關注那些在下一個要預測的token中唯一出現的獨特token,而對那些在多個下一個token中出現的通用token失去興趣。

這兩個特性表明,自註意力隱式地運行著一種判別式掃描(discriminative scanning)的演算法,並存在歸納偏差(inductive bias),即偏向於經常與query token共同出現的獨特的key token

此外,雖然自註意力層在訓練過程中趨向於變得更加稀疏,但正如頻率偏差所暗示的,模型因為訓練動態中的相變(phase transition),所以不會崩潰為獨熱(one hot)。

田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

學習的最後階段並沒有收斂到任何梯度為零的鞍點,而是進入了一個注意力變化緩慢的區域(即隨時間變化的對數),並出現參數凍結和學會(learned)。

研究結果進一步表明,相變的開始是由學習率控制的:大的學習率會產生稀疏的注意力模式,而在固定的自註意力學習率下,大的解碼器學習率會導致更快的相變和密集的注意力模式。

研究人員將工作中發現的SGD動態命名為掃描(scan)和snap:

掃描階段:自註意力集中在key tokens上,即不同的、經常與下一個預測token同時出現的token;其他所有token的注意力都下降。

snap階段:注意力全中幾乎凍結,token組合固定。

田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘

這現像在簡單的真實世界資料實驗中也得到驗證,使用SGD在WikiText上訓練的1層和3層Transformer的最低自註意力層進行觀察,可以發現即使在整個訓練過程中學習率保持不變,注意力也會在訓練過程中的某一時刻凍結,並變得稀疏。

以上是田淵棟新作:打開1層Transformer黑盒,注意力機制沒那麼神秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1662
14
CakePHP 教程
1419
52
Laravel 教程
1312
25
PHP教程
1262
29
C# 教程
1235
24
比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

排名靠前的貨幣交易平台有哪些 最新虛擬幣交易所排名榜前10 排名靠前的貨幣交易平台有哪些 最新虛擬幣交易所排名榜前10 Apr 28, 2025 pm 08:06 PM

目前排名前十的虛擬幣交易所:1.幣安,2. OKX,3. Gate.io,4。幣庫,5。海妖,6。火幣全球站,7.拜比特,8.庫幣,9.比特幣,10。比特戳。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

See all articles