研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了
昨日,整個社區最熱門的話題無非是 reddit 上一名機器學習研究者對谷歌 AI 負責人 Jeff Dean 參與論文的質疑。這篇論文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,於週四被提交到預印版論文平台 arXiv 上。
在論文中,Jeff Dean 等人提出了一種演化演算法,可以產生大規模的多任務模型,同時也支援新任務的動態和連續添加,產生的多任務模型是稀疏激活的,並整合了基於任務的路由。新方法在 69 個影像分類任務上取得有競爭力的結果,例如僅在公共資料上訓練的模型,在 CIFAR-10 上實現了新的業界最高識別準確度 99.43%。
正是這個在 CIFAR-10 上實現的新 SOTA 遭到了質疑,先前的 SOTA 為 99.40。她表示,「產生這一結果需要總計17,810 小時的TPU 核心小時數,如果你不在谷歌工作,這意味著必須使用3.22 美元/ 小時的按需付款,訓練好的模型成本需57,348 美元。」
因此,她發出靈魂一問,「Jeff Dean 花了足夠養活一個四口之家五年的錢,獲得了在CIFAR-10 上0.03% 的改進,創建了新的SOTA,這一切值得嗎?」
這項質疑得到了許多領域人士的附和。有研究人員甚至悲觀地表示,「我幾乎對深度學習失去了興趣,作為小型實驗室的從業者,在計算預算方面基本上不可能比得過科技巨頭。即使你有一個很好的理論想法,主流環境可能也存在偏見,讓它難以看到曙光。這釀成了一個不公平的競爭環境。」
#隨著該主題的繼續發酵,Jeff Dean 親自在reddit 上進行了回應。他表示,「我們這項研究的目標不是為了得到一個更高品質的cifar10 模型,而且原帖作者成本計算的方式也有問題。」
除非你有特別緊急的任務,需要快速訓練cifar10 68 個任務,其實這類研究可以很容易地使用可搶佔價格的資源,即0.97 美元/ 小時TPUv4、0.60 美元/ 小時TPUv3(不是他們所說的你必須按需定價3.22 美元/ 小時)。在這些假設下,表 7 中描述的計算公有雲成本大約是 13960 美元(使用 12861 TPUv4 晶片小時和 2474.5 TPUv3 晶片小時的可搶佔價格),或者說是大約 202 美元 / 任務。
我認為擁有稀疏激活的模型很重要,並且能夠動態地將新任務引入到現有系統中,該系統可以共享表示(在適當的情況下)並避免災難性遺忘,這些研究至少值得探索。該系統還有一個優點,即新任務可以自動被納入系統,而無需為此進行專門製定(這就是進化搜尋過程所做的),這似乎是一個持續學習系統的有用屬性。
這篇論文的程式碼是開源的,大家可以自行查看。
程式碼位址:https://github.com/google-research/google-research/tree/master/muNet
原貼作者回覆Jeff Dean
在看到Jeff Dean 的回覆後,原貼作者表示:澄清一下,我認為Jeff Dean 的這篇論文(在每個任務中用來產生模型擴充的演化模式)真的很有趣,這讓我想起了另一篇論文,但我不記得標題了,論文大概是講對於每個新任務,向整個體系架構添加新的模組,將其他模組的隱藏狀態作為每層輸入的一部分,但不更新現有組件的權重。
我還有一個想法,在每個任務的模型中建立模組。你知道小鹿是如何在出生後幾分鐘內就能走路的嗎?相較之下,在那個時候,剛出生的小鹿基本上沒有「訓練資料」來學習感知運動或對世界進行建模,而是必須利用大腦中的特殊結構,而這些結構必須能夠繼承以讓小鹿擁有基本技能。這些結構將是非常有用的,所以在某種意義上,它將迅速推廣到一個新的但相關的控制任務。
因此,這篇論文讓我想到了那些已經存在的可繼承結構的發展,這些結構可以用來更有效地學習新任務。
另一家實驗室的研究人員可能有相同的 idea,但得到的結果要差得多,因為他們負擔不起從現有設置轉移到大型雲端平台的費用。並且,由於現在社群過度關注 SOTA 結果,他們的研究也無法發表。即使費用「僅為」202 美元 / 每任務,但必須經過多次迭代才能將事情做好。
因此,對於我們這些無法獲得足夠計算預算的人來說,我們的選擇基本上只有兩種。一是祈禱並希望谷歌能夠公開分發現有的模型,然後我們根據自身需求進行微調。但結果是,模型可能已經學習到我們無法消除的偏見或對抗性弱點。二是啥都不做,躺平。
所以,我的問題不只在於這項研究。如果 OpenAI 想在 GPT-4 上花費上百萬億美元(打個比方),那就賦予它更多的權力。這是一種過度獎勵浮華、大數目和奢侈的科學和出版文化,而無益於幫助人們更好地完成實際的工作。我最喜歡的論文是van der Oord 在2019 年發表的《Representation Learning with Contrastive Predictive Coding》,它使用無監督預訓練任務,然後對一個小的標籤子集進行監督訓練,以實現複製標記所有資料的準確率結果,並從數據效率的角度討論這種提升。我在工作中復現並使用了這些結果,節省了自己的時間和金錢。就憑這篇論文,我就願意成為他的博士生。
但是,OpenAI 在論文《Language Models are Few-Shot Learners》中提出了更大的transformer 模型GPT-3,獲得了近四千次引用以及NeurIPS 2020 最佳論文獎,也獲得整個媒體的關注。
以上是研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。
