提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024
雖然我從來沒見過你,但是我有可能「認識」你 —— 這是人們希望人工智慧在「一窺初見」下達到的狀態。
為了達到這個目的,在傳統的圖像識別任務中,人們在帶有不同類別標籤的大量圖像樣本上訓練演算法模型,讓模型獲得對這些圖像的識別能力。而在零樣本學習(ZSL)任務中,人們希望模型能舉一反三,辨識在訓練階段沒有看過影像樣本的類別。
生成式零樣本學習(GZSL)被認為是零樣本學習的有效方法。在GZSL中,首要步驟是訓練一個生成器,用以合成未見類別的視覺特徵。這個生成過程是透過利用屬性標籤等語意描述作為條件來驅動的。一旦產生了這些虛擬的視覺特徵,就可以像訓練傳統分類器一樣,開始訓練一個能夠辨識出未見類別的分類模型。
生成器的訓練對於產生式零樣本學習演算法至關重要。在理想情況下,生成器根據語義描述產生的未見類別的視覺特徵樣本,應該與該類別的真實樣本的視覺特徵具有相同的分佈。這意味著生成器需要能夠準確地捕捉到視覺特徵之間的關係和規律,以便產生具有高度一致性和可信度的樣本。透過訓練生成器,使其能夠有效地學習到不同類別之間的視覺特徵差異,並
#在現有的生成式零樣本學習方法中,生成器在被訓練和使用時,都是以高斯噪聲和類別整體的語義描述為條件的,這限制了生成器只能針對整個類別進行優化,而不是描述每個樣本實例,所以難以準確反映真實樣本視覺特徵的分佈,導致模型的泛化表現較差。另外,已見類與未見類所共享的資料集視覺訊息,即域知識,也沒有在生成器的訓練過程中被充分利用,限制了知識從已見類到未見類的遷移。
為了解決這些問題,華中科技大學研究生與阿里巴巴旗下銀泰商業集團的技術專家提出了一種名為視覺增強的動態語義原型方法(VADS)。此方法將已見類別的視覺特徵更充分地引入語意條件中,從而讓推動生成器能夠學習準確的語意-視覺映射。這項研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已經被電腦視覺領域頂尖國際學術會議CVPR 2024所接收。
具體而言,上述研究呈現了三個創新點:
#在零樣本學習中,使用視覺特徵來增強生成器,以便產生可靠的視覺特徵,這是一種創新的方法。
研究也引入了VDKL和VOSU兩個組件,在這些組件的幫助下,資料集的視覺先驗被有效獲取,並且透過動態更新影像的視覺特徵,預定義的類別語義描述得到了更新。這一方法有效地利用了視覺特徵。
試驗結果表明,本研究採用視覺特徵來增強生成器的效果十分顯著。這種即插即用的方法不僅具有強大的通用性,而且在提高生成器性能方面表現出色。
研究细节
VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。
最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。
在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。
在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。
在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。
在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。
在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。
VADS 方法也可以與其他生成式零樣本學習方法結合。例如,與CLSWGAN,TF-VAEGAN 和FREE 這三種方法結合後,在三個資料集上的Acc 和H 指標均有明顯提升,三個資料集的平均提升幅度為7.4%/5.9%, 5.6% /6.4% 和3.3%/4.2%。
透過對生成器產生的視覺特徵進行視覺化可以看出,原本混淆在一起的部分類別的特徵,例如下圖(b ) 中顯示的已見類別「Yellow breasted Chat」和未見類別「Yellowthroat」兩類特徵,在使用VADS 方法後,在圖(c)中能夠被明顯地分離為兩個類別簇,從而避免了分類器訓練時的混淆。
可延展到智慧安防與大模型領域
機器之心了解到,上述研究研究團隊關注的零樣本學習旨在使模型能夠識別在訓練階段沒有圖像樣本的新類別,在智慧安防領域具有潛在的價值。
第一,處理安防場景中新出現的風險,由於安防場景下,會不斷出現新的威脅類型或不尋常的行為模式,它們可能在先前的訓練數據中未曾出現。零樣本學習使安防系統能快速識別和回應新風險類型,進而提高安全性。
第二,減少對樣本資料的依賴:取得足夠的標註資料來訓練有效的安防系統是昂貴且耗時的,零樣本學習減少了系統對大量影像樣本的依賴,從而節省了研發成本。
第三,提升動態環境下的穩定性:零樣本學習使用語義描述實現對未見類別模式的識別,與完全依賴圖像特徵的傳統方法相比,對於視覺環境的變化自然具有更強的穩定性。
此技術作為解決影像分類問題的底層技術,還可以在依賴視覺分類技術的場景落地,例如人、貨、車、物的屬性識別,行為識別等。尤其在需要快速增加新的待識別類別,來不及收集訓練樣本,或難以收集大量樣本的場景(如風險識別),零樣本學習技術相對於傳統方法具有較大優勢。
此研究技術對於目前大模型的發展有無借鏡之處?
研究者認為,生成式零樣本學習的核心思想是對齊語意空間和視覺特徵空間,這與目前多模態大模型中的視覺語言模型(如CLIP)的研究目標是一致的。
它們最大的不同點是,生成式零樣本學習是在預先定義好的有限類別的資料集上訓練和使用,而視覺語言大模型則是透過對大資料的學習獲得具有通用性的語意和視覺表徵能力,不侷限在有限的類別,作為基礎模型,具有更廣泛的應用範圍。
如果技術的應用場景是特定領域,可以選擇將大模型針對此領域進行適配微調,在此過程中,與本文相同或相似研究方向的工作,理論上可以帶來一些有益的啟發。
作者介紹
侯文金,華中科技大學碩士研究生,感興趣的研究方向包括電腦視覺,生成建模,少樣本學習等,他在阿里巴巴- 銀泰商業實習期間完成了本論文工作。
王炎,阿里巴巴 - 銀泰商業技術總監,深象智慧團隊演算法負責人。
馮雪濤,阿里巴巴 - 銀泰商業資深演算法專家,主要關注視覺和多模態演算法在線下零售等行業的應用落地。
以上是提升生成式零樣本學習能力,視覺增強動態語意原型方法入選CVPR 2024的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

數字虛擬幣交易平台top10分別是:1. Binance,2. OKX,3. Coinbase,4. Kraken,5. Huobi Global,6. Bitfinex,7. KuCoin,8. Gemini,9. Bitstamp,10. Bittrex,這些平台均提供高安全性和多種交易選項,適用於不同用戶需求。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...
