無需下游訓練,Tip-Adapter大幅提升CLIP影像分類準確率
- 論文連結:https://arxiv.org/pdf/2207.09519.pdf
- #程式碼連結:https://github.com/gaopengcuhk/Tip-Adapter
一.研究背景
對比性影像語言預訓練模型(CLIP)在近期展現了強大的視覺領域遷移能力,可以在一個全新的下游資料集上進行 zero-shot 影像辨識。為了進一步提升CLIP 的遷移性能,現有方法使用了few-shot 的設置,例如CoOp 和CLIP-Adapter,即提供了少量下游數據集的訓練數據,使得CLIP 能夠更好的針對不同的視覺場景做出調整。但是,這種額外的訓練步驟會帶來不小的時間和空間資源開銷,在某種程度上影響了 CLIP 固有的快速知識遷移能力。因此,我們提出了 Tip-Adapter,一種不需要額外下游訓練並且能大幅提升 CLIP 準確率的 few-shot 影像分類方法。基於此,我們又提出了一個只需要少量微調就能達到 state-of-the-art 性能的方案:Tip-Adapter-F,實現了效率和性能的最佳折中。如下表1 所示,Tip-Adapter 不需要任何訓練時間,即可以將CLIP 在ImageNet 資料集提升1.7% 準確率(Accuracy),而Tip-Adapter-F 僅需要先前方案十分之一的訓練時間( Epochs,Time),就可以實現現有最佳的分類性能。
表1:不同方案在ImageNet 資料集上16-shot 的影像分類準確率與訓練時間的比較
二.研究方法
1.Tip-Adapter
Tip-Adapter 的整體網路結構如下圖1 所示,對於給定的few-shot 訓練資料集和標籤,我們藉助CLIP 透過一個非訓練的方案來建立一個快取模型(Cache Model),它儲存了來自下游訓練資料的分類知識;在測試時,Tip-Adapter 透過將Cache Model 的預測和原始CLIP 的預測進行線性加和,來得到更強的最終分類結果。
詳細的來說,我們使用CLIP 預先訓練好的視覺編碼器(Visual Encoder)來提取few-shot 訓練集所有圖片的特徵,作為Cache Model 的Keys;並且將對應的圖片標籤轉換為one-hot 編碼的形式,作為Cache Model 的Values。這個Key-Value Cache Model 的建構方法由於使用的是已經預先訓練好的Visual Encoder,所以不需要任何訓練開銷;並且考慮到few-shot 訓練集中,每個類別只含有少量的圖片(1~16 shots),Cache Model 也幾乎不會佔用額外的顯存開銷,參考表一中的GPU Mem. 指標。
對於一張測試圖片,我們首先會利用CLIP 的Visual Encoder 來得到它的特徵,再將該特徵視為Query 去Cache Model 中進行下游few-shot 資料的知識檢索。由於Keys 也是由CLIP 的Visual Encoder 提取得倒,因此和測試圖片特徵Query 同源,我們可以直接計算它們之間的餘弦相似度得倒一個Key-Query 的鄰接矩陣,此矩陣可以看作是每一個對應Value 的權重。因此,我們可以計算 Values 的加權和來得到該測試影像透過檢索 Cache Model 所得到的分類預測。除此之外,我們還可以透過將測試圖片特徵和 CLIP 的 Textual Encoder 文字特徵進行匹配,來得到 CLIP 的 zero-shot 預測。透過將兩者進行線性加權求和,我們得到了最終的分類預測,該預測既蘊含了CLIP 預訓練的圖像語言對比性知識,也結合了下游新資料集的few-shot 知識,因此可以實現更強的影像分類準確率。
基於Tip-Adapter 的網路結構,我們可以進一步將Cache Model 中的Keys 部分變成學習參數,即可以透過訓練來進行更新,該方案為Tip-Adapter- F。借助已經建造好的 Cache Model,Tip-Adapter-F 只需要現有 CLIP-Adapter 十分之一的訓練回合數和時間,就可以實現更高的性能,如表一所示。
圖1:Tip-Adapter 與Tip-Adapter-F 的網路流程圖
2.Tip-Adapter 和現有方案的差異與聯繫
#比較CLIP-Adapter,如圖2 所示,Tip-Adapter 儲存的Keys 和Values其實可以分別對應於CLIP-Adapter 中adapter 結構的兩個線性層,只不過前者是不需要訓練來建構的,後者是隨機初始化,然後需要訓練來學習最佳的參數。
圖2:Tip-Adapter 相較於CLIP-Adapter
比較現有的其他建構Cache Model 的方案,如圖3 所示,Tip-Adapter 的Cache Model 可以看作是一種多模態的視覺語言Cache。因為CLIP 的Textual Encoder 輸出的特徵可以看作是文字的Key-Value,即相當於測試圖片特徵作為Query,分別在視覺和文字的Cache 中檢索知識,相對於現有的僅包含視覺Cache 的方案, Tip-Adapter 能夠利用多模態知識得到更強的辨識效能。
圖3:Tip-Adapter 比起其他建置Cache Model 的方案
三.實驗結果
1. 在ImageNet 的分類準確率
#圖4 和表2 比較了Tip-Adapter、Tip-Adapter-F 和現有各個方案在1、2 、4、8、16 shots 的few-shot 影像分類準確率;表3 比較了16-shot ImageNet 資料集上使用不同CLIP 的Visual Encoder 的準確率比較。可見,我們的兩種方案都在資源開銷很小的情況下,達到了非常卓越的效能。
#圖4 與表2:ImageNet 資料集上不同方法的1~16- shot 影像分類準確率比較
表5:16-shot ImageNet 上不同CLIP 的Visual Encoder 的影像分類準確率比較
2. 在另外10 個影像分類資料集
如圖5 所示,我們提供另外10 個影像分類資料集的準確率比較結果,分別是StandfordCars,UCF101,Caltech101,Flowers102,SUN397,DTD,EuroSAT,FGVCAircraft,OxfordPets 和Food101。如圖所示,我們的 Tip-Adapter-F 均取得了最高的辨識準確率。
#圖5:另外10 個資料集上不同方法的1~16-shot影像分類準確率比較
#3. 領域中泛化能力的評估
我們也測試了 Tip-Adapter 和 Tip-Adapter-F 在領域中泛化(Domain Generalization)的表現。如表 6 所示,我們的兩種方案都表現出了很強的穩健性以及特徵遷移能力。
四.結論
本文提出了 Tip-Adapter,一種可以免於訓練的將 CLIP 用於下游 few-shot 影像分類的方案。 Tip-Adapter 透過建立一個 Key-Value Cache Model,來作為測試圖片 Query 的知識檢索庫,並透過融合 Cache Model 的預測和 CLIP 的 zero-shot 預測,來得到更強的識別性能。我們期望 Tip-Adapter 可以啟發更多預訓練模型高效遷移的後續工作。
以上是無需下游訓練,Tip-Adapter大幅提升CLIP影像分類準確率的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在去年4月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究者們共同發布了LLaVA(LargeLanguageandVisionAssistant)。儘管LLaVA只是用一個小的多模態指令資料集進行訓練,但在一些樣本上展現了與GPT-4非常相似的推理結果。然後在10月,他們推出了LLaVA-1.5,透過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結果非常令人振奮,為多模態AI助理領域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
