首頁 科技週邊 人工智慧 研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

Apr 08, 2023 pm 04:21 PM
Google ai 論文

昨日,整個社區最熱門的話題無非是 reddit 上一名機器學習研究者對谷歌 AI 負責人 Jeff Dean 參與論文的質疑。這篇論文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,於週四被提交到預印版論文平台 arXiv 上。 研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

在論文中,Jeff Dean 等人提出了一種演化演算法,可以產生大規模的多任務模型,同時也支援新任務的動態和連續添加,產生的多任務模型是稀疏激活的,並整合了基於任務的路由。新方法在 69 個影像分類任務上取得有競爭力的結果,例如僅在公共資料上訓練的模型,在 CIFAR-10 上實現了新的業界最高識別準確度 99.43%。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

正是這個在 CIFAR-10 上實現的新 SOTA 遭到了質疑,先前的 SOTA 為 99.40。她表示,「產生這一結果需要總計17,810 小時的TPU 核心小時數,如果你不在谷歌工作,這意味著必須使用3.22 美元/ 小時的按需付款,訓練好的模型成本需57,348 美元。」

因此,她發出靈魂一問,「Jeff Dean 花了足夠養活一個四口之家五年的錢,獲得了在CIFAR-10 上0.03% 的改進,創建了新的SOTA,這一切值得嗎?」

這項質疑得到了許多領域人士的附和。有研究人員甚至悲觀地表示,「我幾乎對深度學習失去了興趣,作為小型實驗室的從業者,在計算預算方面基本上不可能比得過科技巨頭。即使你有一個很好的理論想法,主流環境可能也存在偏見,讓它難以看到曙光。這釀成了一個不公平的競爭環境。」

#隨著該主題的繼續發酵,Jeff Dean 親自在reddit 上進行了回應。他表示,「我們這項研究的目標不是為了得到一個更高品質的cifar10 模型,而且原帖作者成本計算的方式也有問題。」

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

##Jeff Dean回應全文

這篇論文是我和Andrea Gesmundo 兩人一起完成的,其中Andrea Gesmundo 做了論文大部分工作。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

論文地址:https://arxiv.org/pdf/2205.12755.pdf

我想說的是,這項研究的目標不是得到一個高品質的cifar10 模型。相反,這項研究是探索一種設置,可以動態地將新任務引入正在運行的系統中,並成功地為新任務獲得一個高品質的模型,該模型將重複使用現有模型中的表示並稀疏地引入新參數,同時避免了災難性遺忘或負遷移等多任務系統問題。

該研究的實驗表明,我們可以從幾個獨立的視覺化任務基準中動態地引入69 個不同任務流,最終得到一個多任務系統,它可以為所有這些任務聯合產生高品質的解決方案。所得到的模型對任何給定的任務都是稀疏激活的,系統為新任務引入的新參數越來越少(參見下圖 2)。多任務系統在這個任務流程的末端只為增量任務引入了 1.4% 的新參數,每個任務平均激活模型總參數的 2.3%。任務之間有相當多的表示共享,演化過程有助於確定何時有意義以及何時應該為新任務引入新的可訓練參數。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

我還認為原貼作者對成本的計算是錯誤的,實驗是訓練一個多任務模型來共同解決 69 個任務,而不是訓練一個 cifar10 模型。從下表 7 可以看出,所使用的計算是 TPUv3 核和 TPUv4 核的混合,因此不能簡單地計算核小時數,因為它們的價格不同。

除非你有特別緊急的任務,需要快速訓練cifar10 68 個任務,其實這類研究可以很容易地使用可搶佔價格的資源,即0.97 美元/ 小時TPUv4、0.60 美元/ 小時TPUv3(不是他們所說的你必須按需定價3.22 美元/ 小時)。在這些假設下,表 7 中描述的計算公有雲成本大約是 13960 美元(使用 12861 TPUv4 晶片小時和 2474.5 TPUv3 晶片小時的可搶佔價格),或者說是大約 202 美元 / 任務。

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

我認為擁有稀疏激活的模型很重要,並且能夠動態地將新任務引入到現有系統中,該系統可以共享表示(在適當的情況下)並避免災難性遺忘,這些研究至少值得探索。該系統還有一個優點,即新任務可以自動被納入系統,而無需為此進行專門製定(這就是進化搜尋過程所做的),這似乎是一個持續學習系統的有用屬性。

這篇論文的程式碼是開源的,大家可以自行查看。

程式碼位址:https://github.com/google-research/google-research/tree/master/muNet

原貼作者回覆Jeff Dean

研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了

在看到Jeff Dean 的回覆後,原貼作者表示:澄清一下,我認為Jeff Dean 的這篇論文(在每個任務中用來產生模型擴充的演化模式)真的很有趣,這讓我想起了另一篇論文,但我不記得標題了,論文大概是講對於每個新任務,向整個體系架構添加新的模組,將其他模組的隱藏狀態作為每層輸入的一部分,但不更新現有組件的權重。

我還有一個想法,在每個任務的模型中建立模組。你知道小鹿是如何在出生後幾分鐘內就能走路的嗎?相較之下,在那個時候,剛出生的小鹿基本上沒有「訓練資料」來學習感知運動或對世界進行建模,而是必須利用大腦中的特殊結構,而這些結構必須能夠繼承以讓小鹿擁有基本技能。這些結構將是非常有用的,所以在某種意義上,它將迅速推廣到一個新的但相關的控制任務。

因此,這篇論文讓我想到了那些已經存在的可繼承結構的發展,這些結構可以用來更有效地學習新任務。

另一家實驗室的研究人員可能有相同的 idea,但得到的結果要差得多,因為他們負擔不起從現有設置轉移到大型雲端平台的費用。並且,由於現在社群過度關注 SOTA 結果,他們的研究也無法發表。即使費用「僅為」202 美元 / 每任務,但必須經過多次迭代才能將事情做好。

因此,對於我們這些無法獲得足夠計算預算的人來說,我們的選擇基本上只有兩種。一是祈禱並希望谷歌能夠公開分發現有的模型,然後我們根據自身需求進行微調。但結果是,模型可能已經學習到我們無法消除的偏見或對抗性弱點。二是啥都不做,躺平。

所以,我的問題不只在於這項研究。如果 OpenAI 想在 GPT-4 上花費上百萬億美元(打個比方),那就賦予它更多的權力。這是一種過度獎勵浮華、大數目和奢侈的科學和出版文化,而無益於幫助人們更好地完成實際的工作。我最喜歡的論文是van der Oord 在2019 年發表的《Representation Learning with Contrastive Predictive Coding》,它使用無監督預訓練任務,然後對一個小的標籤子集進行監督訓練,以實現複製標記所有資料的準確率結果,並從數據效率的角度討論這種提升。我在工作中復現並使用了這些結果,節省了自己的時間和金錢。就憑這篇論文,我就願意成為他的博士生。

但是,OpenAI 在論文《Language Models are Few-Shot Learners》中提出了更大的transformer 模型GPT-3,獲得了近四千次引用以及NeurIPS 2020 最佳論文獎,也獲得整個媒體的關注。

以上是研究遭質疑,Jeff Dean回應:我們本來就不是為得到新SOTA,成本計算也搞錯了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

比特幣今日價格行情 比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響,投資者需關注技術和基本面分析以做出明智決策。

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

幣安官網入口 幣安官方最新入口2025 幣安官網入口 幣安官方最新入口2025 Apr 28, 2025 pm 07:54 PM

訪問幣安官網,並查看HTTPS和綠鎖標誌,避免釣魚網站,官方應用也可安全訪問。

See all articles