目錄
1、背景
2、模型結構
3、實驗結果
首頁 科技週邊 人工智慧 蘋果公司採用自回歸語言模型進行影像模型的預訓練

蘋果公司採用自回歸語言模型進行影像模型的預訓練

Jan 29, 2024 am 09:18 AM
影像 模型 預訓練

1、背景

在GPT等大模型出現後,語言模型這種Transformer 自迴歸建模的方式,也就是預測next token的預訓練任務,取得了非常大的成功。那麼,這種自回歸建模方式能不能在視覺模型上取得比較好的效果呢?今天介紹的這篇文章,就是Apple近期發表的基於Transformer 自回歸預訓練的方式訓練視覺模型的文章,以下跟大家展開介紹一下這篇工作。

蘋果公司採用自回歸語言模型進行影像模型的預訓練圖片

論文標題:Scalable Pre-training of Large Autoregressive Image Models

下載網址:https://arxiv.org /pdf/2401.08541v1.pdf

#開源程式碼:https://github.com/apple/ml-aim

2、模型結構

#模型結構基於Transformer,並採用語言模型中的next token prediction作為最佳化目標。主要修改有三個面向。首先,與ViT不同,本文採用GPT的單向attention,即每個位置的元素只與前面的元素計算attention。其次,我們引入了更多的上下文訊息,以提高模型的語言理解能力。最後,我們優化了模型的參數設置,以進一步提升效能。透過這些改進,我們的模型在語言任務上取得了顯著的效能提升。

蘋果公司採用自回歸語言模型進行影像模型的預訓練圖片

在Transformer模型中,引入了一個新的機制,即在輸入序列前面加入了多個prefix token。這些token採用了雙向attention機制。這項變化的主要目的是為了增強預訓練和下游應用之間的一致性。在下游任務中,類似ViT的雙向attention方法被廣泛使用。透過在預訓練過程中引入prefix雙向attention,模型可以更好地適應各種下游任務的需求。這樣的改進可以提高模型的效能和泛化能力。

蘋果公司採用自回歸語言模型進行影像模型的預訓練圖片

在模型最終輸出MLP層的最佳化方面,原先的預訓練方法通常會丟棄掉MLP層,並在下游任務中使用一個全新的MLP。這是為了避免預訓練的MLP過度偏向預訓練任務,導致下游任務的效果下降。然而,在本文中,作者提出了一種新的方法。他們對每個patch都使用一個獨立的MLP,同時也採用了各個patch的表徵與attention融合的方式來代替傳統的pooling操作。這樣一來,預先訓練的MLP head在下游任務中的可用性就得到了提升。透過這種方法,作者能夠更好地保留圖像整體的訊息,並且避免了過度依賴預訓練任務的問題。這對於提高模型的泛化能力和適應性非常有幫助。

在最佳化目標上,文中嘗試了兩種方法,第一種是直接擬合patch像素,並以MSE進行預測。第二種是事先對影像patch進行tokenize,轉換成分類任務,用交叉熵損失。不過在文中後續的消融實驗中發現,第二種方法雖然也可以讓模型正常訓練,但是效果並不如基於像素粒度MSE的效果更好。

3、實驗結果

文中的實驗部分詳細分析了這種基於自回歸的圖像模型的效果,以及各個部分對於效果的影響。

首先,隨著訓練的進行,下游的影像分類任務效果越來越好了,說明這種預訓練方式確實能學到良好的影像表徵資訊。

蘋果公司採用自回歸語言模型進行影像模型的預訓練圖片

在訓練資料上,使用小資料集的訓練會導致overfitting,而使用DFN-2B雖然最開始驗證集loss較大,但是沒有明顯的過擬合問題。

蘋果公司採用自回歸語言模型進行影像模型的預訓練圖片

對於模型各個模組的設計方式,文中也進行了詳細的消融實驗分析。

蘋果公司採用自回歸語言模型進行影像模型的預訓練圖片

在最終的效果對比上,AIM取得了非常不錯的效果,這也驗證了這種自回歸的預訓練方式在影像上也是可用的,可能會成為後續影像大模型預訓練的一種主要方式。

蘋果公司採用自回歸語言模型進行影像模型的預訓練 圖片

#

以上是蘋果公司採用自回歸語言模型進行影像模型的預訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

See all articles