首頁 科技週邊 人工智慧 Jeff Dean大規模多工學習SOTA遭吐槽,復現一遍要6萬美元

Jeff Dean大規模多工學習SOTA遭吐槽,復現一遍要6萬美元

Apr 09, 2023 am 10:31 AM
Google 數據 模型

2021年10月,Jeff Dean親自撰文介紹了一個全新的機器學習架構-Pathways。

目的很簡單,就是讓一個AI能夠跨越數以萬計的任務,理解不同類型的數據,並同時以極高的效率實現:

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

在大半年之後的2022年3月,Jeff Dean終於發布了Pathways的論文。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

論文連結:https://arxiv.org/abs/2203.12533

其中,補充了不少技術上的細節,例如最基本的系統架構等等。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

2022年4月,Google用Pathways的PaLM語言模型橫空出世,接連打破多項自然語言處理任務的SOTA,這個擁有5400億參數的Transformer語言模型再次證明了「大力出奇蹟」。

除了用到強大的Pathways系統外,論文中介紹PaLM的訓練用到了6144個TPU v4,使用了7800億token的高品質資料集,並且其中有一定比例的非英文多語種語料。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

論文網址:https://arxiv.org/abs/2204.02311

最近,Jeff Dean一篇新作又引發了大家對Pathways的猜測。

Pathways的拼圖又合上一塊了?

這篇論文的作者只有兩位:大名鼎鼎的Jeff Dean和來自義大利的工程師Andrea Gesmundo。

有趣的是,不僅Gesmundo很低調,而且前兩天剛吹完自家Imagen的Jeff Dean也完全沒有在推特上提及此事。

而有網友拜讀之後推測,這可能是下一代AI架構Pathways的組成部分。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

論文網址:https://arxiv.org/abs/2205.12755

本文的想法是這樣的:

透過動態地將新任務納入一個大型運行系統,可以利用稀疏多任務機器學習模型的碎片,來實現新任務品質的提升,並且可以在相關任務之間自動分享模型的碎片。

這種方法可以提高每個任務的質量,並在收斂時間、訓練實例數量、能源消耗等方面提高模型效率。本文所提出的機器學習問題框架,可視為標準多任務和持續學習形式化的概括與綜合。

在這個框架下,再大的任務集都可以被聯合解決。

而且,隨著時間的推移,任務集中可以加入連續的新任務流程來實現擴展。預訓練任務和下游任務之間的差異也不存在了。

因為,隨著新任務的加入,系統會尋找如何將現有的知識和表徵與新的模型能力相結合,以實現每個新任務的高品質水平。在解決新任務時所獲得的知識和學習的表徵,也可用於任何未來的任務,或繼續學習現有任務。

這個方法名為「突變多任務網路」或µ2Net。 (μ=Mutation)

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

用於大規模持續學習實驗的兩類突變模型

簡單說,就是產生一個大規模的多任務網絡,去聯合解決多個任務。不僅每個任務的品質和效率都獲得了提升,還可以透過動態增加新的任務來實現模型的擴展。

透過對先前任務的學習,嵌入到系統中的知識累積越多,後續任務的解決方案的品質就越高。

此外,在減少每個任務新加入的參數方面,新任務的解決效率可以不斷提高。產生的多任務模型是稀疏激活的,模型整合了基於任務的路由機制,隨著模型的擴展,確保每個任務的計算成本的上升是有界限的。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

每個任務啟動的和增加的參數佔多任務系統參數總數的百分比

從每個任務學到的知識被分割成可以被多個任務重複使用的部分。實驗證明,這種分塊技術避免了多任務和持續學習模型的常見問題,例如災難性遺忘、梯度幹擾和負遷移。

對任務路線空間的探索和對每個任務最相關的先驗知識子集的識別是由一個進化演算法引導的,該演算法旨在動態地調整探索/利用的平衡,而不需要手動調整元參數。同樣的演化邏輯被用來動態調整超參數多工模型元件。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

既然叫「突變網路」,這個突變是怎麼解釋的?

深度神經網路通常由架構和超參數來定義。本文中的架構是由一連串的神經網路層所組成的。每個層將輸入向量映射到一個可變維度的輸出向量,網路實例化的細節,例如優化器或資料預處理的配置,則由超參數決定。

所以這裡講的突變也分為兩類,層克隆突變和超參數突變。

層克隆突變創建了一個可以被子模型訓練的任何父模型圖層的副本。如果父模型的某一層沒有被選中進行克隆,會凍結當前狀態並與子模型共享,以確保預先存在的模型的不變性。

超參數突變則用來修改子層從父層繼承的配置。每個超參數的新值可以從一組有效值中抽取。對於數字超參數,有效值集被排序為一個列表,採樣時僅限於相鄰值,以應用一個增量變化限制。

來看看實際效果如何:

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

#在ImageNet 2012、cifar100、cifar10三個資料集上,µ2Net在5任務迭代、10任務迭代後的表現都超過了目前最通用、表現最佳的ViT預訓練微調模型。

在任務擴展方面,在加入VTAB-full和VDD持續學習任務後,µ2Net效能表現獲得進一步提升,在cifar10資料集上的VDD持續學習任務表現達到了99.43 %的最佳成績。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

在多任務字元分類基準任務上,在兩次任務迭代後,µ2Net在大部分資料集上刷新了SOTA水平,資料集規模由2.5k到240k樣本容量不等。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

簡單來說,在這個架構之下,模型學習的任務越多,系統學到的知識就越多,就越容易解決新的任務。

#

例如,一個ViT-L架構(3.07億個參數)可以演變成一個具有1308.7億個參數的多任務系統,並解決69個任務。

此外,隨著系統的成長,參數活化的稀疏性使每個任務的計算量和記憶體用量保持不變。實驗表面,每個任務平均增加的參數減少了38%,而多任務系統只啟動了每個任務總參數的2.3%。

當然,在這一點上,它只是一個架構和初步實驗。

網友:論文很好,但…

#雖然論文很棒棒,但好像有人不買帳。

有些熱愛戳穿皇帝新衣的網友,在reddit上發帖,稱他再也不相信愛情……哦不,“頂級實驗室/研究機構”出品的AI論文了。

這位ID為「Acurite先生」的網友稱,他自然相信這些論文裡的數據與模型運行結果。

但,就拿Jeff Dean老師的這篇論文來說吧,18頁的論文說了特別複雜的進化卷積與多任務學習演算法,厲害,亮眼,好頂讚。

不過,有兩點不得不提出:

#第一,Jeff Dean們在論文中提出的證明自己勝過競賽的跑分結果,是CIFAR-10基準測試準確度99.43,勝過了目前SOTA的99.40…

也不能說這是忽悠,但真的很讓人難以措詞形容。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

第二,論文最後有用TPU跑演算法得出最終結果的時間耗費表,總計17810小時。

假設有人不在谷歌幹、又想復現論文結果,按照每小時3.22美元的市價租TPU來再跑一次,那花費就是57348美元。

有啥意思呢?連日常論文都要設鈔能力門檻了嗎?

當然,這種做派現在是業界風氣,包括但不限於Google、OpenAI這些大玩家。大家都往模型裡灌少少改進現況的創意、和多多的預處理資料與基準。

然後,只要運行結果在數值上比對家高出哪怕百分點後的小數點後二位,研究者也可以理直氣壯地在簡歷上新增一行論文題目啦!

這麼搞,對學界和業界有啥真的推動?一般研究生又花不起錢來驗證你的結論,普通企業又沒辦法在專案裡使用這麼無聊的跑分。

還是那句話,有啥意思呢?

這難道就是AI界的可接受舒適區麼?一小撥大企業、和偶爾的頂尖學校,天天炫耀我有錢可以為所欲為、你沒錢只好跟後面吃灰?

這麼玩下去,乾脆另開個電腦學期刊,專收那些結果可以在消費級單機顯卡上八小時跑出復現的論文算了。

跟帖裡,有論文任務的研究生紛紛訴苦。

有位ID是「支援向量機」的網友說,自己是小型實驗室裡的從業者,因為這個勢頭,已經快完全喪失繼續搞深度學習的動力了。

因為靠自己實驗室的預算,根本沒辦法和這些巨無霸比,出不了鈔能力打底的跑分結果。

即使你有個理論上的新點子,要寫成能過評議的論文也難。因為現在論文評議人裡,被大廠的鈔能力養出了「美圖偏見」,論文裡用來測試的圖像不好看,一切白搭。

不是說巨無霸大廠一無是處啊,GPT和DALL-E這些專案真的是開天闢地。但如果我自己的機器跑不動,我激動個啥呢。

另有一位博士生網友現身說法,跟帖佐證「支持向量機」。

博士生前兩年遞交了一份關於流模型的論文,主要著重於發現可取樣的資料潛在空間,對模型的圖片產生品質沒影響。

結果論文打分人給的批評意見是:「生成的圖像看起來不如用GAN生成的好」。

另一個ID叫「烏代」的研究生也說,2021年他提交的參加會議論文,打分人給的批評意見是:「數據不夠花俏。」

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

看來人力不敵鈔能力,真是東西心理攸同、中外道術未裂的世界性趨勢。

不過三十年河東、三十年河西,說不定演算法草根化、全民大寫碼,會帶來第二次車庫創業公司打敗IBM的奇蹟呢。

以上是Jeff Dean大規模多工學習SOTA遭吐槽,復現一遍要6萬美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1654
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1252
29
C# 教程
1225
24
芝麻開門交易所網頁版登入口 最新版gateio官網入口 芝麻開門交易所網頁版登入口 最新版gateio官網入口 Mar 04, 2025 pm 11:48 PM

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

芝麻開門交易平台下載手機版 gateio交易平台下載地址 芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App,保障您的賬戶安全至關重要。

加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

如何在Bitget官網註冊並下載最新App 如何在Bitget官網註冊並下載最新App Mar 05, 2025 am 07:54 AM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

為什麼說Bittensor是AI賽道的'比特幣”? 為什麼說Bittensor是AI賽道的'比特幣”? Mar 04, 2025 pm 04:06 PM

原文標題:Bittensor=AIBitcoin?原文作者:S4mmyEth,DecentralizedAIResearch原文編譯:zhouzhou,BlockBeats編者按:本文討論了Bittensor,一個去中心化的AI平台,希望通過區塊鏈技術打破集中式AI公司的壟斷,推動開放、協作的AI生態系統。 Bittensor採用子網模型,允許不同AI解決方案的出現,並通過TAO代幣激勵創新。儘管AI市場已成熟,但Bittensor面臨競爭風險,可能會受到其他開源

binance怎麼註冊詳細教程(2025新手指南) binance怎麼註冊詳細教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

See all articles