Transformer無疑是促進自然語言處理領域繁榮的最大功臣,也是GPT-4等大規模語言模型的基礎架構。
不過相比語言模型動輒成千上萬的參數量,電腦視覺領域吃到Transformer的紅利就沒那麼多了,目前最大的視覺Transformer模型ViT-e的參數量還只有40億參數。
最近Google發布了一篇論文,研究人員提出了一種能夠高效且穩定訓練大規模Vision Transformers(ViT)模型的方法,成功將ViT的參數量提升到220億。
#論文連結:https://arxiv.org/abs/2302.05442
為了實現模型的擴展,ViT-22B結合了其他語言模型(如PaLM模型)的思路,使用QK 歸一化改進了訓練穩定性,提出了一種非同步並行線性操作(asynchronous parallel linear operations)的新方法提升訓練效率,並且能夠在硬體效率更高的Cloud TPU上進行訓練。
在對ViT-22B模型進行實驗以評估下游任務表現時,ViT-22B也表現出類似大規模語言模型的能力,即隨著模型規模的擴大,效能也在不斷提升。
ViT-22B 也可以應用於PaLM-e中,與語言模型結合後的大模型可以顯著提升機器人任務的技術水準。
研究人員也進一步觀察到規模帶來的其他優勢,包括更好地平衡公平性和性能,在形狀/紋理偏見方面與人類視覺感知的一致性,以及更好的穩健性。
ViT-22B 是基於Transformer架構的模型,和原版ViT架構相比,研究人員主要做了三處修改以提升訓練效率和訓練穩定性。
並行層(parallel layers)
#ViT-22B並行執行注意力區塊和MLP區塊,而在原版Transformer中為順序執行。
PaLM模型的訓練也採用了這種方法,可以將大模型的訓練速度提高15%,並且性能沒有下降。
query/key (QK) normalization
在擴展ViT的過程中,研究人員在80億參數在量的模型中觀察到,在訓練幾千步之後訓練損失開始發散(divergence),主要是由於注意力logits的數值過大引起的不穩定性,導致零熵的注意力權重(幾乎one-hot) 。
為了解決這個問題,研究人員在點乘注意力計算之前對Query和Key使用LayerNorm
在80億參數模型上的實驗結果如下圖所示,歸一化可以緩解發散問題。
#刪除QKV投影和LayerNorms上的偏移項目
#和PaLM模型一樣,ViT-22B從QKV投影中刪除了偏置項,並且在所有LayerNorms中都沒有偏置項(bias)和centering,使得硬體利用率提高了3% ,且品質沒有下降。
不過與PaLM不同的是,ViT-22B對(內部和外部)MLP稠密連接層使用了偏移項,可以觀察到品質得到了改善,並且速度也沒有下降。
ViT-22B的編碼器模組中,嵌入層,包括抽取patches、線性投影和額外的位置嵌入都與原始ViT中使用的相同,並且使用多頭注意力pooling來聚合每個頭中的per-token表徵。
ViT-22B的patch尺寸為14×14,影像的解析度為224×224(透過inception crop和隨機水平翻轉進行預處理)。
非同步並聯線性運算(asynchronous parallel linear operations)
大規模的模型還需要分片(sharding ),即將模型參數分佈在不同的計算設備中,除此之外,研究人員還把激活(acctivations,輸入的中間表徵)也進行分片。
因為輸入和矩陣本身都是分佈在各種裝置上的,即使是像矩陣乘法這樣簡單的運算也需要特別小心。
研究人員開發了一種稱為非同步平行線性運算的方法,可以在矩陣乘法單元(在TPU 中佔據絕大多數運算能力的單元)中計算時,同時對設備之間的啟動和權值進行通訊。
非同步方法最小化了等待傳入通訊的時間,從而提高了設備效率。
非同步並行線性運算的目標是計算矩陣乘法y = Ax,但矩陣A 和激活x 都分佈在不同的裝置上,需要透過跨裝置的重疊通訊和計算來實現這一點。矩陣 A 在設備之間進行列分片(column-shard),每個矩陣包含一個連續的切片,每個塊表示為 Aij,更多細節請看原始論文。
為了說明ViT-22B學習到的表徵非常豐富,研究人員使用LiT-tuning訓練一個文本模型來產生一些表徵用來對齊文字和圖像。
以下是用Parti 和Imagen 產生的分佈外(out-of-distribution)影像所得到的實驗結果,可以看到ViT-22B的zero-shot影像分類泛化能力非常強,僅從web上爬取的自然影像就能辨識出沒見過的物體和場景。
論文中也討論了ViT-22B在影片分類、深度估計和語意分割任務上的效果。
為了驗證ViT-22B 分類決策與人類分類決策的一致性,研究人員對ViT-22B 進行了微調,對分佈外(OOD)資料集的不同分辨率進行了微調,其中人類比較資料可透過model-vs-human toolbox獲得。
此工具箱主要衡量三個關鍵指標: 模型如何處理失真(準確性) ?人和模型的精度(精度差)有什麼不同?人和模型的錯誤模式(錯誤一致性)有多相似?
形狀偏差評估(值越大代表更多的形狀偏差)。許多視覺模型具有低形狀/高紋理偏差,而在ImageNet 上進行微調的ViT-22B具有迄今為止在ML 模型中記錄的最高形狀偏差,更接近人類形狀偏見
實驗結果顯示,雖然並非所有的微調解決方案都表現得很好,但ViT-22B 變體在所有三個指標上都達到了新高。
此外,ViT-22B 模型在視覺模型中也有最高的形狀偏差記錄。這意味著他們主要使用目標的形狀,而不是目標的紋理來進行分類決策,策略結果類似於人類的感知(其形狀偏差為96%)。
標準模型(例如,ResNet-50有20-30% 的形狀偏差)通常根據紋理來分類,而高形狀偏差的模型則傾向於關注形狀(下圖識別為貓),儘管人類和模型的感知之間仍然存在許多差異,但是ViT-22B 顯示出與人類視覺對象識別更多的相似性。
猫还是大象?车还是钟?鸟还是自行车?具有某个物体的形状和另一个不同物体纹理的图像,可用于测量形状/纹理偏差
测量 OOD 数据集的性能有助于评估模型泛化性。
在这个实验中,研究人员构建了从 JFT 到 ImageNet 的标签映射,以及从 ImageNet 到不同的分布外数据集(如 ObjectNet)的标签映射。
对这些数据进行预训练后的结果如下图所示,然后在 ImageNet 上对模型进行完全微调。
可以观察到缩放 Vision Transformers 可以提高 OOD 性能: 即使 ImageNet 的精度达到饱和,也可以看到 ObjectNet 上从 ViT-e 换成 ViT-22B 模型可以显著提升性能。
线性探测是一种将单个线性层置于冻结模型之上的技术,与完全微调相比,这种方法的训练成本更低,设置起来也更容易。
在 ImageNet 上训练的线性探测结果,在 ImageNet-Real,ImageNet-v2,ObjectNet,ImageNet-R 和 ImageNet-A 数据集上评估,提供高分辨率微调 ViT-e/14作为参考
从结果中可以观察到,ViT-22B 的线性探测性能接近于使用高分辨率图像对较小模型进行全面微调的最先进水平,其中具有较高分辨率的训练通常要昂贵得多,但可以在许多任务上取得更好的结果。
利用蒸馏法,可以将较大模型的知识转化为较小模型的知识,可以提升成本更高、运行速度更慢的大模型的运行效率。
从实验结果中可以发现,ViT-22B 的知识可以迁移到更小的模型,如 ViT-B/16和 ViT-L/16,并在同等模型尺寸下在ImageNet上刷新了性能记录。
机器学习模型容易受到意想不到的不公平偏见的影响,例如找到错误的相关性或者在各个子群体之间存在性能差距,研究人员发现,扩大模型规模有助于缓解这些问题。
首先,规模是一个有前景的权衡方式,即使模型经过训练后再进行后处理,将其人口平等(demographic parity)水平控制在规定的、可容忍的水平之下,性能也会随着规模的增加而提高。
上图: 去偏前 CelebA 中每个子组的精度。下图: y 轴显示了在这个例子中突出显示的两个特定亚组(女性和男性)的表现的绝对差异。与较小的 ViT 模型相比,ViT-22B 在性能的差距很小。
更重要的是,这不仅适用于以准确性衡量性能的情况,而且适用于其他度量,例如校准,即对模型估计概率的真实性的统计测量,所有子群的分类随着规模的增大而趋于改善,并且ViT-22B 降低了各子群之间的性能差距。
研究人员提出了一个目前最大的视觉Transformer模型 ViT-22B,包含220亿参数。
透過對原始模型架構進行微小但關鍵的修改後,實現了更高的硬體利用率和訓練穩定性,從而得到了一個在幾個基準測試上提高了模型的上限性能。
使用凍結模型產生嵌入,只需要在頂部訓練幾層,即可獲得很好的性能,並且評估結果進一步表明,與現有模型相比,ViT-22B在形狀和紋理偏差方面顯示出與人類視知覺更多的相似性,並且在公平性和穩健性方面提供了優勢。
以上是CV開啟大模型時代!谷歌發布史上最大ViT:220億參數,視覺感知力直逼人類的詳細內容。更多資訊請關注PHP中文網其他相關文章!