CV開啟大模型時代!谷歌發布史上最大ViT:220億參數,視覺感知力直逼人類
Transformer無疑是促進自然語言處理領域繁榮的最大功臣,也是GPT-4等大規模語言模型的基礎架構。
不過相比語言模型動輒成千上萬的參數量,電腦視覺領域吃到Transformer的紅利就沒那麼多了,目前最大的視覺Transformer模型ViT-e的參數量還只有40億參數。
最近Google發布了一篇論文,研究人員提出了一種能夠高效且穩定訓練大規模Vision Transformers(ViT)模型的方法,成功將ViT的參數量提升到220億。
#論文連結:https://arxiv.org/abs/2302.05442
為了實現模型的擴展,ViT-22B結合了其他語言模型(如PaLM模型)的思路,使用QK 歸一化改進了訓練穩定性,提出了一種非同步並行線性操作(asynchronous parallel linear operations)的新方法提升訓練效率,並且能夠在硬體效率更高的Cloud TPU上進行訓練。
在對ViT-22B模型進行實驗以評估下游任務表現時,ViT-22B也表現出類似大規模語言模型的能力,即隨著模型規模的擴大,效能也在不斷提升。
ViT-22B 也可以應用於PaLM-e中,與語言模型結合後的大模型可以顯著提升機器人任務的技術水準。
研究人員也進一步觀察到規模帶來的其他優勢,包括更好地平衡公平性和性能,在形狀/紋理偏見方面與人類視覺感知的一致性,以及更好的穩健性。
模型架構
ViT-22B 是基於Transformer架構的模型,和原版ViT架構相比,研究人員主要做了三處修改以提升訓練效率和訓練穩定性。
並行層(parallel layers)
#ViT-22B並行執行注意力區塊和MLP區塊,而在原版Transformer中為順序執行。
PaLM模型的訓練也採用了這種方法,可以將大模型的訓練速度提高15%,並且性能沒有下降。
query/key (QK) normalization
在擴展ViT的過程中,研究人員在80億參數在量的模型中觀察到,在訓練幾千步之後訓練損失開始發散(divergence),主要是由於注意力logits的數值過大引起的不穩定性,導致零熵的注意力權重(幾乎one-hot) 。
為了解決這個問題,研究人員在點乘注意力計算之前對Query和Key使用LayerNorm
在80億參數模型上的實驗結果如下圖所示,歸一化可以緩解發散問題。
#刪除QKV投影和LayerNorms上的偏移項目
#和PaLM模型一樣,ViT-22B從QKV投影中刪除了偏置項,並且在所有LayerNorms中都沒有偏置項(bias)和centering,使得硬體利用率提高了3% ,且品質沒有下降。
不過與PaLM不同的是,ViT-22B對(內部和外部)MLP稠密連接層使用了偏移項,可以觀察到品質得到了改善,並且速度也沒有下降。
ViT-22B的編碼器模組中,嵌入層,包括抽取patches、線性投影和額外的位置嵌入都與原始ViT中使用的相同,並且使用多頭注意力pooling來聚合每個頭中的per-token表徵。
ViT-22B的patch尺寸為14×14,影像的解析度為224×224(透過inception crop和隨機水平翻轉進行預處理)。
非同步並聯線性運算(asynchronous parallel linear operations)
大規模的模型還需要分片(sharding ),即將模型參數分佈在不同的計算設備中,除此之外,研究人員還把激活(acctivations,輸入的中間表徵)也進行分片。
因為輸入和矩陣本身都是分佈在各種裝置上的,即使是像矩陣乘法這樣簡單的運算也需要特別小心。
研究人員開發了一種稱為非同步平行線性運算的方法,可以在矩陣乘法單元(在TPU 中佔據絕大多數運算能力的單元)中計算時,同時對設備之間的啟動和權值進行通訊。
非同步方法最小化了等待傳入通訊的時間,從而提高了設備效率。
非同步並行線性運算的目標是計算矩陣乘法y = Ax,但矩陣A 和激活x 都分佈在不同的裝置上,需要透過跨裝置的重疊通訊和計算來實現這一點。矩陣 A 在設備之間進行列分片(column-shard),每個矩陣包含一個連續的切片,每個塊表示為 Aij,更多細節請看原始論文。
實驗結果
為了說明ViT-22B學習到的表徵非常豐富,研究人員使用LiT-tuning訓練一個文本模型來產生一些表徵用來對齊文字和圖像。
以下是用Parti 和Imagen 產生的分佈外(out-of-distribution)影像所得到的實驗結果,可以看到ViT-22B的zero-shot影像分類泛化能力非常強,僅從web上爬取的自然影像就能辨識出沒見過的物體和場景。
論文中也討論了ViT-22B在影片分類、深度估計和語意分割任務上的效果。
與人類目標識別對齊
為了驗證ViT-22B 分類決策與人類分類決策的一致性,研究人員對ViT-22B 進行了微調,對分佈外(OOD)資料集的不同分辨率進行了微調,其中人類比較資料可透過model-vs-human toolbox獲得。
此工具箱主要衡量三個關鍵指標: 模型如何處理失真(準確性) ?人和模型的精度(精度差)有什麼不同?人和模型的錯誤模式(錯誤一致性)有多相似?
形狀偏差評估(值越大代表更多的形狀偏差)。許多視覺模型具有低形狀/高紋理偏差,而在ImageNet 上進行微調的ViT-22B具有迄今為止在ML 模型中記錄的最高形狀偏差,更接近人類形狀偏見
實驗結果顯示,雖然並非所有的微調解決方案都表現得很好,但ViT-22B 變體在所有三個指標上都達到了新高。
此外,ViT-22B 模型在視覺模型中也有最高的形狀偏差記錄。這意味著他們主要使用目標的形狀,而不是目標的紋理來進行分類決策,策略結果類似於人類的感知(其形狀偏差為96%)。
標準模型(例如,ResNet-50有20-30% 的形狀偏差)通常根據紋理來分類,而高形狀偏差的模型則傾向於關注形狀(下圖識別為貓),儘管人類和模型的感知之間仍然存在許多差異,但是ViT-22B 顯示出與人類視覺對象識別更多的相似性。
猫还是大象?车还是钟?鸟还是自行车?具有某个物体的形状和另一个不同物体纹理的图像,可用于测量形状/纹理偏差
分布外(out-of-distribution)性能
测量 OOD 数据集的性能有助于评估模型泛化性。
在这个实验中,研究人员构建了从 JFT 到 ImageNet 的标签映射,以及从 ImageNet 到不同的分布外数据集(如 ObjectNet)的标签映射。
对这些数据进行预训练后的结果如下图所示,然后在 ImageNet 上对模型进行完全微调。
可以观察到缩放 Vision Transformers 可以提高 OOD 性能: 即使 ImageNet 的精度达到饱和,也可以看到 ObjectNet 上从 ViT-e 换成 ViT-22B 模型可以显著提升性能。
线性探测Linear Probe
线性探测是一种将单个线性层置于冻结模型之上的技术,与完全微调相比,这种方法的训练成本更低,设置起来也更容易。
在 ImageNet 上训练的线性探测结果,在 ImageNet-Real,ImageNet-v2,ObjectNet,ImageNet-R 和 ImageNet-A 数据集上评估,提供高分辨率微调 ViT-e/14作为参考
从结果中可以观察到,ViT-22B 的线性探测性能接近于使用高分辨率图像对较小模型进行全面微调的最先进水平,其中具有较高分辨率的训练通常要昂贵得多,但可以在许多任务上取得更好的结果。
蒸馏
利用蒸馏法,可以将较大模型的知识转化为较小模型的知识,可以提升成本更高、运行速度更慢的大模型的运行效率。
从实验结果中可以发现,ViT-22B 的知识可以迁移到更小的模型,如 ViT-B/16和 ViT-L/16,并在同等模型尺寸下在ImageNet上刷新了性能记录。
公平性与偏见
机器学习模型容易受到意想不到的不公平偏见的影响,例如找到错误的相关性或者在各个子群体之间存在性能差距,研究人员发现,扩大模型规模有助于缓解这些问题。
首先,规模是一个有前景的权衡方式,即使模型经过训练后再进行后处理,将其人口平等(demographic parity)水平控制在规定的、可容忍的水平之下,性能也会随着规模的增加而提高。
上图: 去偏前 CelebA 中每个子组的精度。下图: y 轴显示了在这个例子中突出显示的两个特定亚组(女性和男性)的表现的绝对差异。与较小的 ViT 模型相比,ViT-22B 在性能的差距很小。
更重要的是,这不仅适用于以准确性衡量性能的情况,而且适用于其他度量,例如校准,即对模型估计概率的真实性的统计测量,所有子群的分类随着规模的增大而趋于改善,并且ViT-22B 降低了各子群之间的性能差距。
结论
研究人员提出了一个目前最大的视觉Transformer模型 ViT-22B,包含220亿参数。
透過對原始模型架構進行微小但關鍵的修改後,實現了更高的硬體利用率和訓練穩定性,從而得到了一個在幾個基準測試上提高了模型的上限性能。
使用凍結模型產生嵌入,只需要在頂部訓練幾層,即可獲得很好的性能,並且評估結果進一步表明,與現有模型相比,ViT-22B在形狀和紋理偏差方面顯示出與人類視知覺更多的相似性,並且在公平性和穩健性方面提供了優勢。
以上是CV開啟大模型時代!谷歌發布史上最大ViT:220億參數,視覺感知力直逼人類的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
