谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後
GoogleDeepMind最近發現的一項新結果在Transformer領域引起了廣泛爭議:
它的泛化能力,無法擴展到訓練資料以外的內容。
目前這一結論還沒有進一步得到驗證,但已經驚動了一眾大佬,比如Keras之父Francois Chollet表示,如果消息為真,將成為大模型界的一件大事。
GoogleTransformer是今天大模型背後的基礎架構,我們所熟悉的GPT裡的「T」指的就是它。
一系列大模型表現出強大的上下文學習能力,可以快速學習範例並完成新的任務。
但現在,同樣來自Google的研究人員似乎指出了它的致命缺陷──超越訓練資料也就是人類已有知識之外,全都無能為力。
一時間,不少從業人員認為AGI又變得遙不可及。
有些網友指出,論文中還有一些被忽略的關鍵細節,例如實驗只涉及了GPT-2的規模,訓練資料也不夠豐富
隨著時間的推移,更多認真研究了這篇論文的網友則指出,研究結論本身沒什麼問題,但人們卻基於此做出過度的解讀。
在論文引發網友熱議後,其中一位作者也公開進行了兩點澄清:
#首先,實驗中採用的是簡單的Transformer,既不是「大」模型,也不是語言模型;
其次,模型是可以學習新任務的,只是無法泛化到新類型的任務
此後,又有網友在Colab中重複了這項實驗,卻得到了完全不同的結果。
那麼,我們就先來看看這篇論文,還有提出不同結果的Samuel,到底都說了什麼。
新函數幾乎無法預測
在這個實驗中,作者使用基於Jax的機器學習框架訓練了一個規模接近GPT-2的Transformer模型,該模型僅包含解碼器部分
這個模型包含12層,8個注意力頭,嵌入空間維度為256,參數量約為950萬
為了測試它的泛化能力,作者選擇了函數作為測試對象。他們將線性函數和正弦函數作為訓練資料輸入模型中
這兩個函數對於此時的模型來說是已知,預測的結果自然也很好,但當研究者把線性函數和當正弦函數進行了凸性組合時,問題就出現了。
凸性組合並沒有那麼神秘,作者建構出了形如f(x)=a·kx (1-a)sin(x)的函數,在我們看來不過是兩個函數按比例簡單相加。
我們之所以會這麼認為是因為我們的大腦具備這種泛化能力,而大規模模型則不同
對於只學過線性和正弦函數的模型來說,簡單的相加看起來很新穎
針對這種新函數,Transformer的預測幾乎沒有任何準確性(見圖4c),因此作者認為該模型在函數上缺乏泛化能力
为了进一步验证自己的结论,作者调整了线性或正弦函数的权重,但即使这样Transformer的预测表现也没有显著的变化。
只有一点例外——当其中一项的权重接近1时,模型的预测结果和实际就比较吻合了。
如果权重为1,则表示陌生的新函数直接变成了训练时已经见过的函数,这种数据对于模型的泛化能力显然没有什么帮助
进一步实验还显示,Transformer不仅对于函数的种类十分敏感,甚至同种函数也可能变成陌生条件。
研究人员发现,在改变正弦函数的频率时,即使是简单的函数模型,预测结果也会出现线束变化
只有当频率接近训练数据中的函数时,模型才能给出比较准确的预测,当频率过高或过低时,预测结果出现了严重的偏差……
据此,作者认为,条件只要稍微有点不一样,大模型就不知道怎么做了,这不就是说明泛化能力差吗?
作者在文中也自述了研究中存在的一些局限性,如何将函数数据上的观察应用到token化的自然语言问题上。
团队也在语言模型上尝试了相似的试验但遇到一些障碍,如何适当定义任务族(相当于这里的函数种类)、凸组合等还有待解决。
然而,萨缪尔的模型规模较小,只有4层,在Colab上训练5分钟后就可以适用于线性与正弦函数的组合
不能泛化又如何
根据整篇文章的综合内容来看,Quora CEO在这篇文章中的结论非常狭隘,只有在许多假设成立的情况下才能成立
斯隆奖得主、UCLA教授顾全全说,这篇论文本身的结论不存在争议,但不应该被过度解读。
根据之前的研究,Transformer模型只有在面对与预训练数据明显不同的内容时才无法泛化。事实上,大型模型的泛化能力通常是通过任务的多样性和复杂性来评估的
如果仔细追究Transformer的泛化能力,恐怕要让子弹再飞一会儿了。
但是,就算真的缺乏泛化能力,又能怎么样呢?
英伟达AI科学家Jim Fan就说,这种现象其实没啥奇怪的,因为Transformer本来就不是万金油,大模型表现得好,是因为训练数据刚好是我们关心的内容。
Jim进一步补充道,这就好像是在说,用一千亿张猫狗的照片训练视觉模型,接着让模型去识别飞机,然后发现,哇,居然真的不认识诶。
人类在面对一些未知任务时,不仅仅是大规模模型,也未必能够找到解决方案。这是否也暗示了人类缺乏泛化能力呢?
因此,在以目标为导向的过程中,不论是大型模型还是人类,最终的目的都是解决问题,而泛化只是一种手段
將這個表達方式換成中文,既然泛化能力不足,那就將其訓練到沒有訓練樣本之外的數據為止
那麼,對於這項研究,你有什麼看法呢?
論文網址:https://arxiv.org/abs/2311.00871
以上是谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

為什麼Bybit交易所鏈接無法直接下載安裝? Bybit是一個加密貨幣交易所,為用戶提供交易服務。該交易所的移動應用程序不能直接通過AppStore或GooglePlay下載,原因如下:1.應用商店政策限制蘋果公司和谷歌公司對應用商店中允許的應用程序類型有嚴格的要求。加密貨幣交易所應用程序通常不符合這些要求,因為它們涉及金融服務,需要遵循特定的法規和安全標準。 2.法律法規合規在許多國家/地區,與加密貨幣交易相關的活動都受到監管或限制。為了遵守這些規定,Bybit應用程序只能通過官方網站或其他授權渠

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

訪問幣安官方網站最新版登錄入口,只需遵循這些簡單步驟。前往官方網址,點擊右上角的“登錄”按鈕。選擇您現有的登錄方式,如果是新用戶,請“註冊”。輸入您的註冊手機號或郵箱和密碼,並完成身份驗證(例如手機驗證碼或谷歌身份驗證器)。成功驗證後,即可訪問幣安官方網站的最新版登錄入口。

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如
