通用小样本学习器:适用于各种密集预测任务的解决方案
国际学习表征会议 ICLR(International Conference on Learning Representations),被公认为当前最具影响力的机器学习国际学术会议之一。
在今年的 ICLR 2023 大会上,微软亚洲研究院发表了在机器学习鲁棒性、负责任的人工智能等领域的最新研究成果。
其中,微软亚洲研究院与韩国科学技术院(KAIST)在双方学术合作框架下的科研合作成果,因出色的清晰性、洞察力、创造力和潜在的持久影响获评 ICLR 2023 杰出论文奖。
论文地址:https://arxiv.org/abs/2303.14969
VTM:首个适配所有密集预测任务的小样本学习器
密集预测任务是计算机视觉领域的一类重要任务,如语义分割、深度估计、边缘检测和关键点检测等。对于这类任务,手动标注像素级标签面临着难以承受的巨额成本。因此,如何从少量的标注数据中学习并作出准确预测,即小样本学习,是该领域备受关注的课题。近年来,关于小样本学习的研究不断取得突破,尤其是一些基于元学习和对抗学习的方法,深受学术界的关注和欢迎。
然而,现有的计算机视觉小样本学习方法一般针对特定的某类任务,如分类任务或语义分割任务。它们通常在设计模型架构和训练过程中利用特定于这些任务的先验知识和假设,因此不适合推广到任意的密集预测任务。微软亚洲研究院的研究员们希望探究一个核心问题:是否存在一种通用的小样本学习器,可以从少量标记图像中学习任意段未见过的密集预测任务。
一个密集预测任务的目标是学习从输入图像到以像素为单位注释的标签的映射,它可以被定义为:
其中 H 和 W 分别是图像的高与宽,输入图像一般包含 RGB 三个通道,C_Τ 表示输出通道的数目。不同的密集预测任务可能涉及不同的输出通道数目和通道属性,如语义分割任务的输出是多通道二值的,而深度估计任务的输出是单通道连续值的。一个通用的小样本学习器 F,对于任何这样的任务 Τ,在给定少量标记样本支持集 S_Τ(包含了 N 组样本 X^i 和标注 Y^i)的情况下,可以为未见过的查询图像 X^q 产生预测,即:
如果存在适配任意密集预测任务的通用小样本学习器,那么必须满足以下期望:
- 首先,它必须具备 e 统一的体系结构。该结构能够处理任意密集预测任务,并共享大多数任务所需的参数,以便获取可泛化的知识,从而能以小量样本学习任意未见过的任务。
- 其次,学习器应该灵活地调整其预测机制,以解决具有各种语义的未见过的任务,同时足够高效,以防止过度拟合。
因此,微软亚洲研究院的研究员们设计并实现了小样本学习器视觉token匹配 VTM(Visual Token Matching),其可用于任意的密集预测任务。这是首个适配所有密集预测任务的小样本学习器,VTM 为计算机视觉中密集预测任务的处理以及小样本学习方法打开了全新的思路。该工作获得了 ICLR 2023 杰出论文奖。
VTM 的设计灵感源于类比人类的思维过程:给定一个新任务的少量示例,人类可以根据示例之间的相似性快速将类似的输出分配给类似的输入,同时也可以根据给定的上下文灵活变通输入和输出之间在哪些层面相似。研究员们使用基于图像块(patch)级别的非参数匹配实现了密集预测的类比过程。通过训练,模型被启发出了捕捉图像块中相似性的能力。
给定一个新任务的少量标记示例,VTM 首先会根据给定的示例以及示例的标签调整其对相似性的理解,从示例图像块中锁定与待预测图像块相似的图像块,通过组合它们的标签来预测未见过的图像块的标签。
图1:VTM 的整体架构
VTM 采用分层的编码器-解码器架构,在多个层次上实现了基于图像块的非参数匹配。它主要由四个模块组成,分别为图像编码器 f_Τ、标签编码器 g、匹配模块和标签解码器 h。给定查询图像和支持集,图像编码器首先会独立地提取每个查询和支持图像的图像块级表达。标签编码器也会类似地提取每个支持标签的标记。在每个层次的标记给定后,匹配模块会执行非参数匹配,最终由标签解码器推断出查询图像的标签。
VTM 的本质是一个元学习方法。其训练由多个 episode 组成,每个 episode 模拟一个小样本学习问题。VTM 训练运用到了元训练数据集 D_train,其中包含多种有标签的密集预测任务示例。每个训练 episode 都会模拟数据集中特定任务 T_train 的小样本学习场景,目标是在给定支持集的条件下,为查询图像产生正确的标签。通过多个小样本学习的经验,模型能够学习到通用的知识,以便快速、灵活地适应新的任务。在测试时,模型需要在训练数据集 D_train 中未包含的任意任务 T_test 上进行小样本学习。
在处理任意任务时,由于元训练和测试中的每个任务的输出维度 C_Τ 不同,因此使得为所有任务设计统一的通用模型参数成为了巨大挑战。为了提供一个简单而普适的解决方案,研究员们将任务转换为 C_Τ 个单通道子任务,分别学习每个通道,并使用共享的模型 F 独立地对每个子任务进行建模。
为了测试 VTM ,研究员们还特别构建了 Taskonomy 数据集的一个变种,从而模拟未见过的密集预测任务的小样本学习。Taskonomy 包含各种标注过的室内图像,研究员们从中选择了十个具有不同语义和输出维度的密集预测任务,将其分为五部分用于交叉验证。在每个拆分方式中,两个任务用于小样本评估(T_test),其余八个任务用于训练(T_train)。研究员们仔细构造了分区,使得训练和测试任务彼此有足够的差异,例如将边缘任务(TE,OE)分组为测试任务,以便对新语义的任务进行评估。
表1:在 Taskonomy 数据集上的定量比较( Few-shot 基线在训练了来自其他分区的任务后,在需测试的分区任务上进行了 10-shot 学习,其中完全监督的基线在每个 fold(DPT)或所有 fold(InvPT)上训练和评估了任务)
表1和图2分别定量与定性地展示了 VTM 和两类基线模型在十个密集预测任务上的小样本学习性能。其中,DPT 和 InvPT 是两种最先进的监督学习方法,DPT 可独立地针对每个单一任务进行训练,而 InvPT 则可以联合训练所有任务。由于在 VTM 之前还没有针对通用密集预测任务开发的专用小样本方法,因此研究员们将 VTM 与三种最先进的小样本分割方法,即 DGPNet、HSNet 和 VAT,进行对比,并把它们拓展到处理密集预测任务的一般标签空间。VTM 在训练期间没有访问测试任务 T_test,并且仅在测试时使用了少量(10张)的标记图像,但它却在所有小样本基线模型中表现得最好,并且在许多任务中的表现都具备与全监督基线模型比较的竞争力。
图2:在 Taskonomy 的十个密集预测任务中,在新任务上仅提供十张标记图像的小样本学习方法的定性比较。在其他方法失败的情况下, VTM 成功地学习了所有具有不同语义和不同标签表示的新任务。
在图2中,虚线上方的分别是真实标签和两种监督学习方法 DPT 和 InvPT。虚线下方的是小样本学习方法。值得注意的是,其他小样本基线在新任务上出现了灾难性的欠拟合,而 VTM 成功地学习了所有任务。实验说明,VTM 可以在极少量的标记示例(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。
总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用于任意密集预测任务,因为匹配算法本质上包含所有任务和标签结构(例如,连续或离散)。此外,VTM 仅引入了少量的任务特定参数,就能具备抗过拟合性与灵活性。未来研究员们希望进一步探究预训练过程中的任务类型、数据量、以及数据分布对模型泛化性能的影响,从而帮助我们构建一个真正普适的小样本学习器。
以上是通用小样本学习器:适用于各种密集预测任务的解决方案的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

2024CSRankings全美计算机科学专业排名,刚刚发布了!今年,全美全美CS最佳大学排名中,卡耐基梅隆大学(CMU)在全美和CS领域均名列前茅,而伊利诺伊大学香槟分校(UIUC)连续六年稳定地位于第二。佐治亚理工学院则排名第三。然后,斯坦福大学、圣迭戈加利福尼亚大学、密歇根大学、华盛顿大学并列世界第四。值得注意的是,MIT排名下跌,跌出前五。CSRankings是由麻省州立大学阿姆赫斯特分校计算机与信息科学学院教授EmeryBerger发起的全球院校计算机科学领域排名项目。该排名基于客观的

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
