首頁 科技週邊 人工智慧 DeepMind:誰說卷積網不如ViT?

DeepMind:誰說卷積網不如ViT?

Nov 02, 2023 am 09:13 AM
deepmind 工程 convnets

本文對按比例擴大的NFNets 進行了評估,並挑戰了ConvNets 在大規模問題上表現不如ViTs 的觀點

深度學習的早期成功可歸功於卷積神經網路(ConvNets)的發展。近十年來,ConvNets 主導了電腦視覺基準測試。然而近年來,它們越來越多地被 ViTs(Vision Transformers)所取代。

很多人認為,ConvNets 在小型或中等規模的資料集上表現良好,但在那種比較大的網路規模的資料集上卻無法與 ViTs 競爭。

同時,CV 社群已經從評估在特定資料集(如 ImageNet)上隨機初始化網路的效能,轉變為評估從網路收集的大型通用資料集上預訓練的網路的效能。這引出了一個重要的問題:在相似的運算預算下,Vision Transformers 是否優於預先訓練的 ConvNets 架構?

在這篇文章中,來自Google DeepMind的研究人員對這個問題進行了研究。他們透過在不同尺度的JFT-4B資料集上對多種NFNet模型進行預先訓練,獲得了類似於ViTs在ImageNet上的性能

DeepMind:誰說卷積網不如ViT?
##論文連結地址: https://arxiv.org/pdf/2310.16764.pdf

本文的研究討論了預訓練計算預算在0.4k到110k TPU-v4核計算小時之間的情況,並利用增加NFNet模型家族的深度和寬度來進行一系列網路訓練。研究發現,有held out 損失與計算預算之間的對數-對數擴展率(scaling law)

例如,本文將以JFT-4B為基礎,在TPU-v4核小時(核心小時)從0.4k擴展到110k,並對NFNet進行預訓練。經過微調,最大的模型在ImageNet Top-1上達到了90.4%的準確率,在相同的計算預算下與預訓練的ViT模型競爭

DeepMind:誰說卷積網不如ViT?
可以說,本文透過評估按比例擴大的NFNets,挑戰了ConvNets 在大規模資料集上表現不如ViTs 的觀點。此外,在足夠的資料和運算條件下,ConvNets 仍然具有競爭力,模型設計和資源比架構更重要。

看到這項研究後,圖靈獎得主Yann LeCun表示:「在給定的計算量下,ViT和ConvNets在計算上是相當的。雖然ViTs在電腦視覺方面取得了令人印象深刻的成功,但在我看來,沒有強有力的證據表明,在公平評估時,預訓練的ViT優於預訓練的ConvNets。」

DeepMind:誰說卷積網不如ViT?##然而,有網友對LeCun的評論表示,他認為在多模態模型中使用ViT可能仍然使其在研究中具有優勢

來自Google DeepMind 的研究員表示,ConvNets 永遠不會消失

DeepMind:誰說卷積網不如ViT?接下來我們來看看論文具體內容。

預先訓練的 NFNets 遵循擴展定律

本文在 JFT-4B 上訓練了一系列不同深度和寬度的 NFNet 模型。

根據圖2所示,驗證損失與訓練模型的計算預算呈線性關係,與使用Transformer進行語言建模時觀察到的雙對數(log-log)擴展定律相符。隨著計算預算的增加,最佳模型大小和最佳epoch預算(實現最低驗證損失)也會增加

DeepMind:誰說卷積網不如ViT?在下面的圖表中,我們可以看到三個模型在一系列的epoch 預算中觀察到的最佳學習率(即最大程度地減少驗證損失)。研究人員發現,對於較低的 epoch 預算,NFNet 系列模型都顯示出類似的最佳學習率,約為1.6。然而,隨著 epoch 預算的增加,最優學習率會下降,對於更大的模型,最優學習率下降得更快。研究人員表示,可以假設最佳學習率會隨著模型大小和 epoch 預算的增加而緩慢且單調地下降,因此在兩次試驗中可以有效地調整學習率
DeepMind:誰說卷積網不如ViT?

需要重新寫的內容是:需要注意的是,圖表2中一些預訓練模型的表現不如預期。研究團隊認為,出現這種情況的原因是如果訓練運行被搶佔/重新啟動,資料加載流程無法保證每個訓練樣本在每個週期都能被採樣一次。如果訓練運行多次重新啟動,則可能導致某些訓練樣本的採樣次數不足

NFNet vs ViT

在ImageNet上進行的實驗顯示,經過微調的NFNet和Vision Transformer的性能相當

具體來說,該研究在ImageNet 上微調了預訓練NFNet,並繪製了預訓練計算與Top-1 error 關係圖,如上述圖1 所示。

隨著預算的增加,ImageNet Top-1準確度持續提高。其中最昂貴的預訓練模型是預訓練8個epoch的NFNet-F7 ,在ImageNet Top-1準確率達到了90.3%。預訓練和微調需要大約110k TPU-v4核小時和1.6k TPU-v4核小時。此外,如果在微調期間引入額外的重複增強技術,可以實現90.4%的Top-1準確率。 NFNet在大規模預訓練中獲得了很大的好處

儘管NFNet和ViT兩種模型架構之間有明顯的差異,但預先訓練的NFNet和預訓練的ViT在性能上是相當的。例如,在對JFT-3B進行210k TPU-v3核小時的預訓練後,ViT-g/14在ImageNet上實現了90.2%的Top-1準確率;而在對JFT-3B進行超過500k TPU-v3在核小時的預訓練後,ViT-G/14實現了90.45%的Top-1準確率

本文評估了這些模型在TPU-v4 上的預訓練速度,並估計ViT-g/14需要120k TPU-v4 核小時來預訓練,而ViTG/14 則需要280k TPU-v4 核小時數,SoViT-400m/14 將需要130k TPU-v4 核小時數。本文使用這些估計值來比較圖 1 中 ViT 和 NFNet 的預訓練效率。研究注意到,NFNet 針對 TPU-v4 進行了最佳化,在其他設備上評估時表現較差。

最終,本文注意到,在JFT-4B上,預訓練的檢查點實現了最低的驗證損失,但在微調後,並不總是能在ImageNet上實現最高的Top-1準確率。特別是,本文發現,在固定的預訓練計算預算下,微調機制傾向於選擇稍大的模型和稍小的epoch預算。直觀上來說,更大的模型具有更大的容量,因此能夠更好地適應新的任務。在某些情況下,稍大的學習率(在預訓練期間)在微調後也能獲得更好的表現

以上是DeepMind:誰說卷積網不如ViT?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles