目录
研究细节
可延展到智能安防和大模型领域
作者介绍
首页 科技周边 人工智能 提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

Mar 16, 2024 am 09:20 AM
ai 训练

虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。

为了达到这个目的,在传统的图像识别任务中,人们在带有不同类别标签的大量图像样本上训练算法模型,让模型获得对这些图像的识别能力。而在零样本学习(ZSL)任务中,人们希望模型能够举一反三,识别在训练阶段没有见过图像样本的类别。

生成式零样本学习(GZSL)被认为是零样本学习的一种有效方法。在GZSL中,首要步骤是训练一个生成器,用以合成未见类别的视觉特征。这个生成过程是通过利用属性标签等语义描述作为条件来驱动的。一旦生成了这些虚拟的视觉特征,就可以像训练传统分类器一样,开始训练一个能够辨识出未见类别的分类模型。

生成器的培训对于生成式零样本学习算法至关重要。在理想情况下,生成器根据语义描述生成的未见类别的视觉特征样本,应该与该类别的真实样本的视觉特征具有相同的分布。这意味着生成器需要能够准确地捕捉到视觉特征之间的关系和规律,以便生成出具有高度一致性和可信度的样本。通过训练生成器,使其能够有效地学习到不同类别之间的视觉特征差异,并

在现有的生成式零样本学习方法中,生成器在被训练和使用时,都是以高斯噪声和类别整体的语义描述为条件的,这限制了生成器只能针对整个类别进行优化,而不是描述每个样本实例,所以难以准确反映真实样本视觉特征的分布,导致模型的泛化性能较差。另外,已见类与未见类所共享的数据集视觉信息,即域知识,也没有在生成器的训练过程中被充分利用,限制了知识从已见类到未见类的迁移。

为了解决这些问题,华中科技大学研究生与阿里巴巴旗下银泰商业集团的技术专家提出了一种名为视觉增强的动态语义原型方法(VADS)。该方法将已见类的视觉特征更充分地引入到语义条件中,从而让推动生成器能够学习准确的语义-视觉映射。这项研究论文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已经被计算机视觉领域顶级国际学术会议CVPR 2024所接收。

具体而言,上述研究呈现了三个创新点:

在零样本学习中,使用视觉特征来增强生成器,以便生成可靠的视觉特征,这是一种创新性的方法。

研究还引入了VDKL和VOSU两个组件,在这些组件的帮助下,数据集的视觉先验被有效获取,并且通过动态更新图像的视觉特征,预定义的类别语义描述得到了更新。这一方法有效地利用了视觉特征。

试验结果表明,本研究采用视觉特征来增强生成器的效果十分显著。这种即插即用的方法不仅具有强大的通用性,而且在提高生成器性能方面表现出色。

研究细节

VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。

最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。

在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 方法还可以与其他生成式零样本学习方法结合。例如,与 CLSWGAN,TF-VAEGAN 和 FREE 这三种方法结合后,在三个数据集上的 Acc 和 H 指标均有明显提升,三个数据集的平均提升幅度为 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

通过对生成器生成的视觉特征进行可视化可以看出,原本混淆在一起的部分类别的特征,例如下图 (b) 中显示的已见类「Yellow breasted Chat」和未见类「Yellowthroat」两类特征,在使用 VADS 方法后,在图(c)中能够被明显地分离为两个类簇,从而避免了分类器训练时的混淆。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

可延展到智能安防和大模型领域

机器之心了解到,上述研究研究团队关注的零样本学习旨在使模型能够识别在训练阶段没有图像样本的新类别,在智能安防领域具有潜在的价值。

第一,处理安防场景中新出现的风险,由于安防场景下,会不断出现新的威胁类型或不寻常的行为模式,它们可能在之前的训练数据中未曾出现。零样本学习使安防系统能快速识别和响应新风险类型,从而提高安全性。

第二,减少对样本数据的依赖:获取足够的标注数据来训练有效的安防系统是昂贵和耗时的,零样本学习减少了系统对大量图像样本的依赖,从而节约了研发成本。

第三,提升动态环境下的稳定性:零样本学习使用语义描述实现对未见类模式的识别,与完全依赖图像特征的传统方法相比,对于视觉环境的变化天然具有更强的稳定性。

该技术作为解决图像分类问题的底层技术,还可以在依赖视觉分类技术的场景落地,例如人、货、车、物的属性识别,行为识别等。尤其在需要快速增加新的待识别类别,来不及收集训练样本,或者难以收集大量样本的场景(如风险识别),零样本学习技术相对于传统方法具有较大优势。

该研究技术对于当前大模型的发展有无借鉴之处?

研究者认为,生成式零样本学习的核心思想是对齐语义空间和视觉特征空间,这与当前多模态大模型中的视觉语言模型(如 CLIP)的研究目标是一致的。

它们最大的不同点是,生成式零样本学习是在预先定义好的有限类别的数据集上训练和使用,而视觉语言大模型则是通过对大数据的学习获得具有通用性的语义和视觉表征能力,不局限在有限的类别,作为基础模型,具有更宽广的应用范围。

如果技术的应用场景是特定领域,可以选择将大模型针对此领域进行适配微调,在此过程中,与本文相同或相似研究方向的工作,理论上可以带来一些有益的启发。

作者介绍

侯文金,华中科技大学硕士研究生,感兴趣的研究方向包括计算机视觉,生成建模,少样本学习等,他在阿里巴巴 - 银泰商业实习期间完成了本论文工作。

王炎,阿里巴巴 - 银泰商业技术总监,深象智能团队算法负责人。

冯雪涛,阿里巴巴 - 银泰商业资深算法专家,主要关注视觉和多模态算法在线下零售等行业的应用落地。

以上是提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。 WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨链交易什么意思?跨链交易所有哪些? 跨链交易什么意思?跨链交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括:1.市场需求增加,2.供应量减少,3.利好消息刺激,4.市场情绪乐观,5.宏观经济环境;下降因素包括:1.市场需求减少,2.供应量增加,3.利空消息打击,4.市场情绪悲观,5.宏观经济环境。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议,已为AAVEDAO实现了一个法定人数。AAVE连锁计划(ACI)创始人马克·泽勒(MarcZeller)在X上宣布了这一点,并指出它标志着该协议的新时代。AAVE连锁倡议(ACI)创始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE协议令牌和引入令牌回购,已为AAVEDAO实现了法定人数。根据Zeller的说法,这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议,即在周三以每周100

币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有:1. OKX,适合高频交易者,提供最高100倍杠杆;2. Binance,适用于全球多币种交易者,提供125倍高杠杆;3. Gate.io,适合衍生品专业玩家,提供100倍杠杆;4. Bitget,适用于新手及社交化交易者,提供最高100倍杠杆;5. Kraken,适合稳健型投资者,提供5倍杠杆;6. Bybit,适用于山寨币探索者,提供20倍杠杆;7. KuCoin,适合低成本交易者,提供10倍杠杆;8. Bitfinex,适合资深玩

混合型区块链交易平台有哪些 混合型区块链交易平台有哪些 Apr 21, 2025 pm 11:36 PM

选择加密货币交易所的建议:1. 流动性需求,优先选择币安、Gate.io或OKX,因其订单深度与抗波动能力强。2. 合规与安全,Coinbase、Kraken、Gemini具备严格监管背书。3. 创新功能,KuCoin的软质押和Bybit的衍生品设计适合进阶用户。

币圈行情实时数据免费平台推荐前十名发布 币圈行情实时数据免费平台推荐前十名发布 Apr 22, 2025 am 08:12 AM

适合新手的加密货币数据平台有CoinMarketCap和非小号。1. CoinMarketCap提供全球加密货币实时价格、市值、交易量排名,适合新手与基础分析需求。2. 非小号提供中文友好界面,适合中文用户快速筛选低风险潜力项目。

如何在币安拿下 KERNEL 空投奖励 全流程攻略 如何在币安拿下 KERNEL 空投奖励 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里,新机遇总是不断涌现。当下,KernelDAO (KERNEL) 空投活动正备受瞩目,吸引着众多投资者的目光。那么,这个项目究竟是什么来头?BNB Holder 又能从中获得怎样的好处?别急,下面将为你一一揭晓。

See all articles