后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
ImageNet准确率曾是评估模型性能的主要指标,但在当今计算视觉领域,这一指标逐渐显得不够完善。
随着计算机视觉模型变得更加复杂,可用模型种类已显着增加,从ConvNets到Vision Transformers。训练方法也发展到自监督学习和像CLIP这样的图像-文本对训练,不再局限于ImageNet上的监督训练。
ImageNet的准确率虽然是一个重要指标,但并不足以全面评估模型的性能。不同的架构、训练方式和数据集可能会导致模型在不同任务上表现出差异,因此仅仅依靠ImageNet来评判模型可能存在局限性。当模型过度拟合ImageNet数据集并准确率达到饱和时,就可能忽略了模型在其他任务上的泛化能力。因此,需要综合考虑多方面因素来评估模型的性能和适用性。
虽然 CLIP 的 ImageNet 准确率与 ResNet 相似,但其视觉编码器的稳健性和可迁移性较优。这促使研究人员探索 CLIP 的独特优势,而这些优势在仅考虑 ImageNet 指标时并不明显。这突显了分析其他属性有助于发现有用模型的重要性。
除此之外,传统的基准测试无法全面评估模型处理真实世界视觉挑战的能力,如各种相机角度、光线条件或遮挡情况。以ImageNet等数据集训练的模型,通常难以在实际应用中发挥其性能,因为现实世界的条件和场景更为多样化。
这些问题,为领域内的从业者带来了新的困惑:如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?
在最近的一篇论文中,MBZUAI 和 Meta 的研究者对这一问题开展了深入讨论。
- 论文标题:ConvNet vs Transformer, Supervised vs CLIP:Beyond ImageNet Accuracy
- 论文链接:https://arxiv.org/pdf/2311.09215.pdf
研究集中于ImageNet准确性之外的模型行为,分析了计算机视觉领域中主要模型的表现,包括ConvNeXt和Vision Transformer (ViT),这两个模型在监督和CLIP训练范式下的表现。
所选模型的参数数量相似,且在每种训练范式下对 ImageNet-1K 的准确率几乎相同,确保了比较的公平性。研究者深入探讨了一系列模型特性,如预测误差类型、泛化能力、习得表征的不变性、校准等,重点关注了模型在没有额外训练或微调的情况下表现出的特性,为希望直接使用预训练模型的从业人员提供了参考。
在分析中,研究者发现不同架构和训练范式的模型行为存在很大差异。例如,模型在 CLIP 范式下训练的分类错误少于在 ImageNet 上训练。不过,监督模型的校准效果更好,在 ImageNet 稳健性基准测试中普遍更胜一筹。 ConvNeXt 在合成数据上有优势,但比 ViT 更偏重纹理。同时,有监督的 ConvNeXt 在许多基准测试中表现出色,其可迁移性表现与 CLIP 模型相当。
可以看出,各种模型以独特的方式展现了自己的优势,而这些优势是单一指标无法捕捉到的。研究者强调,需要更详细的评估指标来准确选择特定情境下的模型,并创建与 ImageNet 无关的新基准。
基于这些观察,Meta AI 首席科学家 Yann LeCun 转发了这项研究并点赞:
模型选择
对于监督模型,研究者使用了 ViT 的预训练 DeiT3- Base/16,它与 ViT-Base/16 架构相同,但训练方法有所改进;此外还使用了 ConvNeXt-Base。对于 CLIP 模型,研究者使用了 OpenCLIP 中 ViT-Base/16 和 ConvNeXt-Base 的视觉编码器。
请注意,这些模型的性能与最初的 OpenAI 模型略有不同。所有模型检查点都可以在 GitHub 项目主页中找到。详细的模型比较见表 1:
对于模型的选择过程,研究者做出了详细解释:
1、由于研究者使用的是预训练模型,因此无法控制训练期间所见数据样本的数量和质量。
2、为了分析 ConvNets 和 Transformers,之前的许多研究都对 ResNet 和 ViT 进行了比较。这种比较通常对 ConvNet 不利,因为 ViT 通常采用更先进的配方进行训练,能达到更高的 ImageNet 准确率。ViT 还有一些架构设计元素,例如 LayerNorm,这些元素在多年前 ResNet 被发明时并没有纳入其中。因此,为了进行更平衡的评估,研究者将 ViT 与 ConvNeXt 进行了比较,后者是 ConvNet 的现代代表,其性能与 Transformers 相当,并共享了许多设计。
3、在训练模式方面,研究者对比了监督模式和 CLIP 模式。监督模型在计算机视觉领域一直保持着最先进的性能。另一方面,CLIP 模型在泛化和可迁移性方面表现出色,并提供了连接视觉和语言表征的特性。
4、由于自监督模型在初步测试中表现出与监督模型类似的行为,因此未被纳入结果中。这可能是由于它们最终在 ImageNet-1K 上进行了有监督的微调,而这会影响到许多特性的研究。
接下来,我们看下研究者如何对不同的属性进行了分析。
分析
模型错误
ImageNet-X 是一个对 ImageNet-1K 进行扩展的数据集,其中包含对 16 个变化因素的详细人工注释,可对图像分类中的模型错误进行深入分析。它采用错误比例度量(越低越好)来量化模型在特定因素上相对于整体准确性的表现,从而对模型错误进行细致入微的分析。ImageNet-X 的结果表明:
1. 相对于监督模型,CLIP 模型在 ImageNet 准确性方面犯的错误更少。
2. 所有模型都主要受到遮挡等复杂因素的影响。
3. 纹理是所有模型中最具挑战性的因素。
形状 / 纹理偏差
形状 - 纹理偏差会检测模型是否依赖于脆弱的纹理捷径,而不是高级形状线索。这种偏差可以通过结合不同类别的形状和纹理的线索冲突图像来研究。这种方法有助于了解,与纹理相比,模型的决策在多大程度上是基于形状的。研究者对线索冲突数据集上的形状 - 纹理偏差进行了评估,发现 CLIP 模型的纹理偏差小于监督模型,而 ViT 模型的形状偏差高于 ConvNets。
模型校准
校准可量化模型的预测置信度与其实际准确度是否一致,可以通过预期校准误差 (ECE) 等指标以及可靠性图和置信度直方图等可视化工具进行评估。研究者在 ImageNet-1K 和 ImageNet-R 上对校准进行了评估,将预测分为 15 个等级。在实验中,研究者观察到以下几点:
1. CLIP 模型过于自信,而监督模型则略显不足。
2. 有监督的 ConvNeXt 比有监督的 ViT 校准效果更好。
稳健性和可迁移性
模型的稳健性和可迁移性对于适应数据分布变化和新任务至关重要。研究者使用各种 ImageNet 变体对稳健性进行了评估,结果发现,虽然 ViT 和 ConvNeXt 模型的平均性能相当,但除 ImageNet-R 和 ImageNet-Sketch 外,有监督模型在稳健性方面普遍优于 CLIP。在可迁移性方面,通过使用 19 个数据集的 VTAB 基准进行评估,有监督的 ConvNeXt 优于 ViT,几乎与 CLIP 模型的性能相当。
合成数据
PUG-ImageNet 等合成数据集可以精确控制摄像机角度和纹理等因素,是一种很有前景的研究路径,因此研究者分析了模型在合成数据上的性能。PUG-ImageNet 包含逼真的 ImageNet 图像,姿态和光照等因素存在系统性变化,性能以绝对 top-1 准确率为衡量标准。研究者提供了 PUG-ImageNet 中不同因素的结果,发现 ConvNeXt 在几乎所有因素上都优于 ViT。这表明 ConvNeXt 在合成数据上优于 ViT,而 CLIP 模型的差距较小,因为 CLIP 模型的准确率低于监督模型,这可能与原始 ImageNet 的准确率较低有关。
变换不变性
变换不变性是指模型能够产生一致的表征,不受输入变换的影响从而保留语义,如缩放或移动。这一特性使模型能够在不同但语义相似的输入中很好地泛化。研究者使用的方法包括调整图像大小以实现比例不变性,移动 crops 以实现位置不变性,以及使用插值位置嵌入调整 ViT 模型的分辨率。
他们在 ImageNet-1K 上通过改变 crop 比例 / 位置和图像分辨率来评估比例、移动和分辨率的不变性。在有监督的训练中,ConvNeXt 的表现优于 ViT。总体而言,模型对规模 / 分辨率变换的稳健性高于对移动的稳健性。对于需要对缩放、位移和分辨率具有较高稳健性的应用,结果表明有监督的 ConvNeXt 可能是最佳选择。
总结
总体来说,每种模型都有自己独特的优势。这表明模型的选择应取决于目标用例,因为标准性能指标可能会忽略特定任务的关键细微差别。此外,许多现有的基准都来自于 ImageNet,这也会使评估产生偏差。开发具有不同数据分布的新基准对于在更具现实世界代表性的环境中评估模型至关重要。
以下是本文结论的概括:
ConvNet 与 Transformer
1. 在许多基准上,有监督 ConvNeXt 的性能都优于有监督 ViT:它的校准效果更好,对数据转换的不变性更高,并表现出更好的可迁移性和稳健性。
2. ConvNeXt 在合成数据上的表现优于 ViT。
3. ViT 的形状偏差更大。
监督与 CLIP
1. 尽管 CLIP 模型在可转移性方面更胜一筹,但有监督的 ConvNeXt 在这项任务中表现出了竞争力。这展示了有监督模型的潜力。
2. 有监督模型在稳健性基准方面表现更好,这可能是因为这些模型都是 ImageNet 变体。
3. CLIP 模型的形状偏差更大,与 ImageNet 的准确性相比,分类错误更少。
以上是后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
