提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024
雖然我從來沒見過你,但是我有可能「認識」你 —— 這是人們希望人工智慧在「一窺初見」下達到的狀態。
為了達到這個目的,在傳統的圖像識別任務中,人們在帶有不同類別標籤的大量圖像樣本上訓練演算法模型,讓模型獲得對這些圖像的識別能力。而在零樣本學習(ZSL)任務中,人們希望模型能舉一反三,辨識在訓練階段沒有看過影像樣本的類別。
生成式零樣本學習(GZSL)被認為是零樣本學習的有效方法。在GZSL中,首要步驟是訓練一個生成器,用以合成未見類別的視覺特徵。這個生成過程是透過利用屬性標籤等語意描述作為條件來驅動的。一旦產生了這些虛擬的視覺特徵,就可以像訓練傳統分類器一樣,開始訓練一個能夠辨識出未見類別的分類模型。
生成器的訓練對於產生式零樣本學習演算法至關重要。在理想情況下,生成器根據語義描述產生的未見類別的視覺特徵樣本,應該與該類別的真實樣本的視覺特徵具有相同的分佈。這意味著生成器需要能夠準確地捕捉到視覺特徵之間的關係和規律,以便產生具有高度一致性和可信度的樣本。透過訓練生成器,使其能夠有效地學習到不同類別之間的視覺特徵差異,並
#在現有的生成式零樣本學習方法中,生成器在被訓練和使用時,都是以高斯噪聲和類別整體的語義描述為條件的,這限制了生成器只能針對整個類別進行優化,而不是描述每個樣本實例,所以難以準確反映真實樣本視覺特徵的分佈,導致模型的泛化表現較差。另外,已見類與未見類所共享的資料集視覺訊息,即域知識,也沒有在生成器的訓練過程中被充分利用,限制了知識從已見類到未見類的遷移。
為了解決這些問題,華中科技大學研究生與阿里巴巴旗下銀泰商業集團的技術專家提出了一種名為視覺增強的動態語義原型方法(VADS)。此方法將已見類別的視覺特徵更充分地引入語意條件中,從而讓推動生成器能夠學習準確的語意-視覺映射。這項研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已經被電腦視覺領域頂尖國際學術會議CVPR 2024所接收。
具體而言,上述研究呈現了三個創新點:
#在零樣本學習中,使用視覺特徵來增強生成器,以便產生可靠的視覺特徵,這是一種創新的方法。
研究也引入了VDKL和VOSU兩個組件,在這些組件的幫助下,資料集的視覺先驗被有效獲取,並且透過動態更新影像的視覺特徵,預定義的類別語義描述得到了更新。這一方法有效地利用了視覺特徵。
試驗結果表明,本研究採用視覺特徵來增強生成器的效果十分顯著。這種即插即用的方法不僅具有強大的通用性,而且在提高生成器性能方面表現出色。
研究细节
VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。
最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。
在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。
在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。
在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。
在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。
在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。
VADS 方法也可以與其他生成式零樣本學習方法結合。例如,與CLSWGAN,TF-VAEGAN 和FREE 這三種方法結合後,在三個資料集上的Acc 和H 指標均有明顯提升,三個資料集的平均提升幅度為7.4%/5.9%, 5.6% /6.4% 和3.3%/4.2%。
透過對生成器產生的視覺特徵進行視覺化可以看出,原本混淆在一起的部分類別的特徵,例如下圖(b ) 中顯示的已見類別「Yellow breasted Chat」和未見類別「Yellowthroat」兩類特徵,在使用VADS 方法後,在圖(c)中能夠被明顯地分離為兩個類別簇,從而避免了分類器訓練時的混淆。
可延展到智慧安防與大模型領域
機器之心了解到,上述研究研究團隊關注的零樣本學習旨在使模型能夠識別在訓練階段沒有圖像樣本的新類別,在智慧安防領域具有潛在的價值。
第一,處理安防場景中新出現的風險,由於安防場景下,會不斷出現新的威脅類型或不尋常的行為模式,它們可能在先前的訓練數據中未曾出現。零樣本學習使安防系統能快速識別和回應新風險類型,進而提高安全性。
第二,減少對樣本資料的依賴:取得足夠的標註資料來訓練有效的安防系統是昂貴且耗時的,零樣本學習減少了系統對大量影像樣本的依賴,從而節省了研發成本。
第三,提升動態環境下的穩定性:零樣本學習使用語義描述實現對未見類別模式的識別,與完全依賴圖像特徵的傳統方法相比,對於視覺環境的變化自然具有更強的穩定性。
此技術作為解決影像分類問題的底層技術,還可以在依賴視覺分類技術的場景落地,例如人、貨、車、物的屬性識別,行為識別等。尤其在需要快速增加新的待識別類別,來不及收集訓練樣本,或難以收集大量樣本的場景(如風險識別),零樣本學習技術相對於傳統方法具有較大優勢。
此研究技術對於目前大模型的發展有無借鏡之處?
研究者認為,生成式零樣本學習的核心思想是對齊語意空間和視覺特徵空間,這與目前多模態大模型中的視覺語言模型(如CLIP)的研究目標是一致的。
它們最大的不同點是,生成式零樣本學習是在預先定義好的有限類別的資料集上訓練和使用,而視覺語言大模型則是透過對大資料的學習獲得具有通用性的語意和視覺表徵能力,不侷限在有限的類別,作為基礎模型,具有更廣泛的應用範圍。
如果技術的應用場景是特定領域,可以選擇將大模型針對此領域進行適配微調,在此過程中,與本文相同或相似研究方向的工作,理論上可以帶來一些有益的啟發。
作者介紹
侯文金,華中科技大學碩士研究生,感興趣的研究方向包括電腦視覺,生成建模,少樣本學習等,他在阿里巴巴- 銀泰商業實習期間完成了本論文工作。
王炎,阿里巴巴 - 銀泰商業技術總監,深象智慧團隊演算法負責人。
馮雪濤,阿里巴巴 - 銀泰商業資深演算法專家,主要關注視覺和多模態演算法在線下零售等行業的應用落地。
以上是提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi
