馬毅教授新作:白盒ViT成功實現「分割湧現」,經驗深度學習時代即將結束?
基於Transformer的視覺基礎模型在各種下游任務,如分割和檢測中都展現出了非常強大的性能,並且DINO等模型經過自監督訓練後已經湧現出了語義的分割屬性。
視覺Transformer模型經過有監督分類訓練後,並沒有出現類似的湧現能力,這一點令人感到奇怪
最近,馬毅教授的團隊研究了基於Transformer架構的模型,以探索湧現分割能力是否僅僅是複雜的自監督學習機制所導致的結果,或者是否可以透過適當設計模型架構,在更通用的條件下實現相同的湧現
#程式碼連結:https://github.com/Ma-Lab-Berkeley/CRATE
請點擊以下連結查看論文:https://arxiv.org/abs/2308.16271
經過大量實驗,研究人員證明了使用白盒Transformer模型CRATE時,其設計明確地模擬並追求資料分佈中的低維結構,以最小化的監督訓練配方出現整體和部分層級的分割屬性
透過分層的細粒度分析,我們得出了一個重要結論:湧現屬性有力地證實了白盒網路的設計數學功能。基於這一結果,我們提出了一種設計白盒基礎模型的方法,該模型不僅具有高性能,而且在數學上完全可解釋
馬毅教授也表示,深度學習的研究將會逐漸從經驗設計轉向理論指導。
白盒CRATE的湧現屬性
#DINO的分割湧現能力指的是DINO模型在處理語言任務時,能夠將輸入的句子分割成較小的片段,並對每個片段進行獨立的處理。這種能力使得DINO模型能夠更好地理解複雜的句子結構和語義訊息,從而提高其在自然語言處理領域的性能
智慧系統中的表徵學習旨在將世界的高維度、多模態感官資料(圖像、語言、語音)轉換為更緊湊的形式,同時保留其基本的低維結構,實現高效的識別(例如分類)、分組(例如分割)和追蹤。
深度學習模型的訓練通常採用數據驅動的方式,透過輸入大規模數據,以自監督的方式進行學習
#在視覺基礎模型中,DINO模型展現了令人驚訝的湧現能力,即使沒有經過有監督分割訓練,ViTs也能辨識出顯式的語意分割資訊。自監督Transformer架構的DINO模型在這方面表現出色
後續有工作研究瞭如何在DINO模型中利用這種分割信息,並在下游任務中,如分割、檢測等實現了最先進的性能,也有工作證明了用DINO訓練的ViTs中的倒數第二層特徵與視覺輸入中的顯著性信息強烈相關,如區分前景、背景和物體邊界,從而提升圖像分割和其他任務的性能。
為了讓分割屬性得以凸顯,DINO需要在訓練過程中巧妙地結合自監督學習、知識蒸餾和權重平均的方法
目前還不清楚DINO中引入的每個組件是否對於分割遮罩的湧現來說必不可缺,儘管DINO也採用ViT架構作為其主幹,但在分類任務上訓練的普通有監督ViT模型中,並沒有觀察到分割湧現行為。
CRATE的湧現
#基於DINO的成功案例,研究者想要探究,複雜的自監督學習管道對於獲得類似Transformer的視覺模型中的湧現屬性是否是必要的。
研究人員認為,在Transformer模型中促進分割屬性的一種有前途的方法是,在考慮輸入資料結構的情況下設計Transformer模型架構,也代表了表徵學習經典方法與現代數據驅動的深度學習框架的結合。
與目前主流的Transformer模型對比,這種設計方法也可以叫做白盒Transformer模型。
基於馬毅教授組先前的工作,研究人員對白盒架構的CRATE模型進行了廣泛的實驗,證明了CRATE的白盒設計是自註意力圖中分割屬性湧現的原因。
需要重新表達的內容是:定性評估
研究人員使用基於[CLS] token的注意力圖方法對模型進行解釋和視覺化,發現CRATE中的查詢-鍵-值矩陣都是相同的
可以觀察到CRATE模型的自註意力圖(self-attention map)可以對應到輸入影像的語意上,模型的內部網路對每個影像都進行了清晰的語意分割,實現了類似DINO模型的效果。
普通的ViT在有監督分類任務上訓練時,並沒有展現出類似的分割屬性
根據先前關於視覺化影像學習逐塊深度特徵的研究,研究人員對CRATE和ViT模型的深度token表徵進行了主成分分析(PCA)研究
可以發現,CRATE可以在沒有分割監督訓練的情況下,依然可以捕捉到影像中物體的邊界。
而且,主要成分(principal components)也顯示了token和物體之間相似部分的特徵對齊,例如紅色通道對應馬腿
而有監督ViT模型的PCA可視化結構化程度相當低。
定量評估
#研究人員對CRATE湧現的分割屬性進行評估時,使用了現有的分割和物件偵測技術
從自註意力圖可以看到,CRATE用清晰的邊界明確地捕獲了物件層級的語義,為了定量測量分割的質量,研究人員利用自注意力圖產生分割遮罩(segmentation mask),對比其與真實遮罩之間的標準mIoU(平均交並比)。
透過實驗結果可以看出,CRATE在視覺和mIOU評分方面明顯優於ViT,這表明CRATE的內部表示對於產生分割遮罩任務更有效
物件偵測與細粒度分割
#為了進一步驗證和評估CRATE捕獲的豐富語意信息,研究人員採用了一種高效的對象檢測和分割方法MaskCut,無需人工標註即可獲得自動化評估模型,可以基於CRATE學到的token表徵從圖像中提取更細粒度的分割。
在COCO val2017上的分割結果可以看到,有CRATE的內部表徵在偵測和分割指標上都比有監督ViT,有監督ViT特徵的MaskCut在某些情況下甚至完全無法產生分割遮罩。
CRATE分割能力的白盒分析
CRATE中深度的作用
CRATE的每一層設計都遵循相同的概念目的:優化稀疏速率降低,並將token分佈轉換為緊湊和結構化的形式。 重寫後:CRATE的每個層次的設計都遵循相同的理念:優化稀疏速率的降低,並將token的分佈轉化為緊湊且結構化的形式
假設CRATE中語意分割能力的湧現類似於「表徵Z中屬於相似語意類別token的聚類」,預期CRATE的分割表現可以隨著深度的增加而提高。
為了測試這一點,研究人員利用MaskCut管道來定量評估跨不同層的內部表徵的分割性能;同時應用PCA可視化來理解分割是如何隨深度加深而湧現的。
從實驗結果可以觀察到,當使用來自更深層的表徵時,分割分數提高了,與CRATE的增量最佳化設計非常一致。
相比之下,即使ViT-B/8的效能在後面的圖層中略有提高,但其分割分數明顯低於CRATE,PCA結果顯示,從CRATE深層擷取的表徵會逐漸更關注前景對象,並且能夠捕捉紋理層次的細節。
CRATE的熔化實驗
#CRATE中的注意力區塊(MSSA)和MLP塊(ISTA)與ViT中的注意力塊有所不同
為了研究每個組件對CRATE湧現分割屬性的影響,研究人員選擇了三個CRATE變體: CRATE,CRATE-MHSA,CRATE-MLP。這些變體分別代表了ViT中的注意區塊(MHSA)和MLP區塊
#研究人員在ImageNet-21k資料集上應用相同的預訓練設置,然後應用粗分割評估和遮罩分割評估來定量對比不同模型的性能。
根據實驗結果顯示,CRATE在所有任務中都明顯優於其他模型架構。值得注意的是,儘管MHSA和MSSA之間的架構差異很小,但只需簡單地將ViT中的MHSA替換為CRATE中的MSSA,就能顯著提升ViT在粗分割效能(即VOC Seg)方面的表現。這進一步證明了白盒設計的有效性
#需要進行改寫的內容是:注意頭的語意屬性的辨識
[CLS] token和影像區塊token之間的自註意力圖可以看到清晰的分段掩碼,根據直覺,每個注意力頭應該都可以捕捉到資料的部分特徵。
研究人員首先將圖像輸入到CRATE模型,然後由人來檢查、選擇四個似乎具有語義意義的注意力頭;然後在其他輸入圖像上在這些注意力頭上進行自註意力圖視覺化。
觀察可以發現,每個注意力頭都能夠捕捉到物體的不同部分,甚至是不同的語意。例如,第一列中的注意力頭能夠捕捉到不同動物的腿部,而最後一列中的注意力頭則能夠捕捉到耳朵和頭部
自從可形變零件模型(deformable part model)和膠囊網路發布以來,這種將視覺輸入解析為部分-整體層次結構的能力一直是識別架構的目標,白盒設計的CRATE模型也具有這種能力。
以上是馬毅教授新作:白盒ViT成功實現「分割湧現」,經驗深度學習時代即將結束?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
