目錄
方法與實驗
所有模型的縮放方式是否相同?
每一標度的最佳模型是否有所不同?
每個模型的標度律
Scaling Protocols 是否以同樣的方式影響模型體系架構?
首頁 科技週邊 人工智慧 Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

Apr 09, 2023 pm 08:21 PM
Google 模型

Transformer 模型的縮放近年來引發了眾多學者的研究興趣。然而,對於模型架構所施加的不同歸納偏壓的縮放性質,人們了解得不多。通常假設,在特定標度(計算、大小等)的改進可以遷移到不同的規模和計算區域。

不過,理解架構和標度律之間的相互作用至關重要,設計在不同標度上表現良好的模型具有重要的研究意義。有幾個問題還需要搞清楚:模型體系架構之間的縮放性不同嗎?如果是這樣,歸納偏壓如何影響縮放表現?又如何影響上游(預訓練)與下游(遷移)任務?

在最近的一篇論文中,Google的研究者試圖了解歸納偏移(體系架構)對語言模型標度律的影響 。為此,研究者在多個運算區域和範圍內(從 1500 萬到 400 億參數)預先訓練和微調了十種不同的模型架構。總體來說,他們預先訓練和微調了 100 多種不同體系架構和大小的模型,並提出了在縮放這十種不同體系架構方面的見解和挑戰。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

論文連結:https://arxiv.org/pdf/2207.10551.pdf

#他們也注意到,縮放這些模型並不像看起來那麼簡單,也就是說,縮放的複雜細節與本文中詳細研究的體系架構選擇交織在一起。例如,Universal Transformers (和 ALBERT) 的一個特性是參數共用。與標準的 Transformer 相比,這種體系架構的選擇不僅在效能方面,而且在計算指標如 FLOPs、速度和參數量方面顯著 warp 了縮放行為。相反,像 Switch Transformers 這樣的模型則截然不同,它的 FLOPs 和參數量之間的關係是不尋常的。

具體來說,本文的主要貢獻如下:

  • #首次推導出不同歸納偏移和模型架構的標度律。研究者發現這個標度係數在不同的模型中有很大的不同,並指出這是模型開發的重要考慮因素。事實證明,在他們考慮的所有十種體系架構中,普通的 Transformer 擁有最佳的縮放效能,即使它在每個運算區域的絕對效能不是最好的。
  • 研究者觀察到,在一個計算標度區域中運行良好的模型不一定是另一個計算標度區域中的最佳模型。此外,他們發現,某些模型儘管在低計算區域表現良好 ,但是難以進行縮放。這意味著很難透過在某個計算區域進行逐點對比來獲得模型縮放性的全貌。
  • 研究者發現,當涉及縮放不同的模型架構時,上游預訓練的困惑度可能與下游遷移不太相關。因此,底層架構和歸納偏壓對於下游遷移也是至關重要的。
  • 研究者強調了在某些架構下進行縮放的困難,並展示了一些模型沒有進行縮放(或以負面趨勢進行縮放)。他們也發現線性時間注意力模型(如 Performer)難以進行擴展的趨勢。

方法與實驗

在論文的第三章,研究者概述了整體的實驗設置,並介紹了實驗中評估的模型。

下表1 展示了本文的主要結果,包括可訓練參數量、FLOPs(單次正向傳遞)和速度(每秒步數)等,此外還包括了驗證困惑度(上游預訓練)和17 個下游任務的結果。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

#

所有模型的縮放方式是否相同?

下圖 2 展示了增加 FLOPs 數量時所有模型的縮放行為。可以觀察到,所有模型的縮放行為是相當獨特且不同的,即其中大多數不同於標準 Transformer。也許這裡最大的發現是,大多數模型(例如 LConv、Evolution)似乎都與標準 Transformer 表現相當或更好,但無法以更高的計算預算去縮放。

另一個有趣的趨勢是,「線性」Transformer,如 Performer,不能按比例縮放。如圖 2i 所示,從 base 到 large scale 相比,預訓練的困惑度只下降了 2.7% 。而對 vanilla Transformer 來說這數字是 8.4%。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

下圖3 展示了下游遷移任務上所有模型的縮放曲線,可以發現,和Transformer 相比,大多數模型有著不同的縮放曲線,在下游任務中變化明顯。值得注意的是,大多數模型都有不同的上游或下游縮放曲線。

研究者發現,有些模型如 Funnel Transformer 和 LConv,似乎在上游表現相當不錯,但在下游受到很大影響。至於 Performer,上游和下游的效能差距似乎更大。值得注意的是,SuperGLUE 的下游任務通常需要編碼器上的偽交叉注意力,而卷積這樣的模型是無法處理的(Tay et al., 2021a)。

因此,研究者發現儘管某些模型擁有良好的上游效能,但可能還是難以學習下游任務。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

每一標度的最佳模型是否有所不同?

下圖 1 展示了根據上游或下游性能進行計算時的帕累托邊界。圖的顏色代表不同的模型,可以觀察到,每個標度和計算區域的最佳模型可能是不同的。此外,從上圖 3 也可以看到這一點。例如,Evolved Transformer 似乎在微小(tiny)到小(small)的區域(下游)和標準 Transformer 一樣表現得很好,但是當放大模型時,這種情況迅速改變。研究者在 MoS-Transformer 也觀察到了這一點,它在某些區域的表現明顯優於普通的 Transformer ,但在其他區域則不然。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

每個模型的標度律

#下表2 給出了多種情況下每個模型的擬合線性直線α 的斜率。研究者透過繪製 F(FLOPs)、U (上游困惑度)、D (下游準確率)和 P(參數量)得到了α。一般來說,α 描述了模型的縮放性,例如 α_F,U 根據上游性能繪製 FLOPs。唯一的例外是α_U,D,它是衡量上游和下游表現的度量,高的 α_U,D 值意味著向下游任務遷移的模型縮放更佳。整體來說,α 值是一個測量,表示一個模型在縮放上的相對表現。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

Scaling Protocols 是否以同樣的方式影響模型體系架構?

下圖 4 展示了四個模型體系架構(MoS-Transformer、Transformer、Evolved Transformer、LConv)中縮放深度的影響。

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

下圖 5 展示了在相同的四個體系架構中縮放寬度的影響。首先,在上游(負對數困惑)曲線上可以注意到,雖然不同的架構在絕對效能上有明顯的差異,但縮放趨勢仍然非常相似。在下游,除了 LConv 之外,深度縮放(上圖 4)在大多數體系架構上的作用似乎是一樣的。同時,相對於寬度縮放,似乎 Evolved Transformer 在應用寬度縮放時會稍微好一點。 值得注意的是,與寬度縮放相比,深度縮放對下游縮放的影響要大得多

Google、DeepMind新研究:歸納偏壓如何影響模型縮放?

更多研究細節,可參考原論文。

以上是Google、DeepMind新研究:歸納偏壓如何影響模型縮放?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1665
14
CakePHP 教程
1424
52
Laravel 教程
1322
25
PHP教程
1270
29
C# 教程
1250
24
加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

binance怎麼註冊詳細教程(2025新手指南) binance怎麼註冊詳細教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果? 如何優化jieba分詞以改善景區評論的關鍵詞提取效果? Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

gate.io手機app使用教程 gate.io手機app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手機app使用教程:1、安卓用戶,訪問 Gate.io 官方網站,下載安卓安裝包,您可能需要在手機設置中允許安裝來自未知來源的應用;2、ios用戶,在 App Store 中搜索 &quot;Gate.io&quot; 下載。

虛擬幣最老的幣排行榜最新更新 虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發行於2009年1月3日,是首個去中心化數字貨幣。 2. 萊特幣(LTC),發行於2011年10月7日,被稱為“比特幣的輕量版”。 3. 瑞波幣(XRP),發行於2011年,專為跨境支付設計。 4. 狗狗幣(DOGE),發行於2013年12月6日,基於萊特幣代碼的“迷因幣”。 5. 以太坊(ETH),發行於2015年7月30日,首個支持智能合約的平台。 6. 泰達幣(USDT),發行於2014年,是首個與美元1:1錨定的穩定幣。 7. 艾達幣(ADA),發

okex交易平台官網登錄入口 okex交易平台官網登錄入口 Mar 18, 2025 pm 12:42 PM

本文詳細介紹了歐易OKEx網頁版登錄的完整步驟,包括準備工作(確保網絡連接穩定及瀏覽器更新)、訪問官網(注意網址準確性,避免釣魚網站)、找到登錄入口(點擊官網首頁右上角的“登錄”按鈕)、輸入登錄信息(郵箱/手機號及密碼,支持驗證碼登錄)、完成安全驗證(滑動驗證、谷歌驗證或短信驗證)等五個步驟,最終成功登錄後即可進行數字資產交易等操作。 安全便捷的登錄流程,保障用戶資產安全。

虛擬幣購買app安全靠譜的top10推薦 虛擬幣購買app安全靠譜的top10推薦 Mar 18, 2025 pm 12:12 PM

2025年全球虛擬幣交易平台Top 10推薦,助您玩轉數字貨幣市場!本文將為您深度解析幣安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家頂級平台的核心優勢和特色功能。無論是追求高流動性、豐富的交易類型,還是注重安全合規、創新功能,都能在此找到適合您的平台。 我們將從交易品種、安全性、特色功能等方面進行全面對比,助您選擇最合適的虛擬貨幣交易平台,把握2025年數字貨幣投資機遇

See all articles