首页 科技周边 人工智能 CV未来在这68张图上?Google Brain深扒ImageNet:顶级模型全都预测失败

CV未来在这68张图上?Google Brain深扒ImageNet:顶级模型全都预测失败

Apr 12, 2023 pm 11:46 PM
谷歌 模型 cv

过去的十年里,ImageNet基本就是计算机视觉领域的「晴雨表」,看准确率有没有提升,就知道有没有新技术问世。

「刷榜」一直是模型创新的原动力,把模型Top-1准确率推动到90%+,比人类还高。

图片

但ImageNet数据集是否真的像我们想象中的那么有用?

很多论文都曾对ImageNet发出质疑,比如数据的覆盖度、偏见问题、标签是否完善等等。

其中最重要的是,模型90%的准确率是否真的准确?

最近Google Brain团队和加州大学伯克利分校的研究人员重新审视了几个sota模型的预测结果,发现模型真正的准确率还可能被低估了!

CV未来在这68张图上?Google Brain深扒ImageNet:顶级模型全都预测失败

论文链接:https://arxiv.org/pdf/2205.04596.pdf

研究人员通过对一些顶级模型所犯的每一个错误进行人工审查和分类,以便深入了解基准数据集的长尾错误。

其中主要关注ImageNet的多标签子集评估,最好的模型已经能达到97%的Top-1的准确率。

图片


这项研究的分析结果显示,将近一半的所谓的预测错误根本就不是错误,并且还在图片中发现了新的多标签,也就是说,如果没有人工审查过预测结果,这些模型的性能可能都是被「低估」的!

不熟练的众包数据标注员往往会把数据标注错误,在很大程度上也影响了模型准确率的真实性。

为了校准ImageNet数据集,促进未来的良性进展,研究人员在文中提供了一个更新版的多标签评估集,并把sota模型预测存在明显错误的68个例子组合为一个新数据集ImageNet-Major,以方便未来CV研究者攻克这些bad case

还上「技术债」

从文章的标题「什么时候面团成了百吉饼?」就可以看出作者主要关注ImageNet里的标签问题,这也属于是历史遗留问题了。

下图是一个非常典型的标签歧义例子,图片里的标签为「面团」,模型的预测结果为「百吉饼」,错了吗?

图片

这个模型理论上来说并没有预测错误,因为面团正在烤,马上就要成百吉饼了,所以既是面团又是百吉饼。

可以见得模型实际上已经能够预测到这个面团「即将成为」百吉饼,但在准确率上却没有拿到这一分。

实际上,以标准ImageNet数据集的分类任务作为评价标准,缺乏多标签、标签噪声、未指定的类别等问题都在所难免。

图片

 从负责识别此类对象的众包标注员的角度来看,这是一个语义甚至是哲学上的难题,只能通过多标签来解决,所以在ImageNet的衍生数据集中主要改善的就是标签问题。

距ImageNet成立已经过了16年,当时的标注人员、模型开发者对数据的理解肯定不如今天丰富,而ImageNet又是早期的大容量、标注相对良好的数据集,所以ImageNet很自然而然地成了CV刷榜的标准。

但标注数据的预算显然不如开发模型来的多,所以标签问题的改善也成了一种技术债。

为了找出ImageNet中剩下的错误,研究人员使用了一个具有 30 亿参数的标准ViT-3B模型(能够达到 89.5% 的准确度),其中JFT-3B作为预训练模型,并在ImageNet-1K上进行了微调。

使用ImageNet2012_multilabel的数据集作为测试集的情况下,ViT-3B初步达到的准确率为96.3%,其中模型明显错误预测了676个图像,然后对这些例子进行深入研究。

在重新标注数据时,作者没有选择众包,而是组建了一个5名专家评审组成的小组进行标注,因为这类标注错误对于非专业人员来说很难识别出来。

比如图(a),普通的标注人员可能写一个「桌子」就过了,但实际上图片里还有很多其他物体,比如屏幕、显示器、马克杯等等。

图片

 图(b)的主体为两个人,但标签为picket fence(栅栏),显然也是不完善的,可能的标签还有领结、制服等等。

图(c)也是一个明显的例子,如果只标出来「非洲象」,那象牙可能就被忽视掉了。

图(d)的标签为lakeshore(湖岸),但标注成seashore(海滨)实际上也没毛病。

为了增加标注效率,研究者还开发了一个专用的工具,能够同时显示模型预测的类别、预测分数、标签和图像。

图片

 在某些情况下,专家组之间可能还存在标签的争议,这时候就把图片放到谷歌搜索里来辅助标注。

比如说有一个例子里,模型的预测结果里包含出租车,但图片里面除了「一点黄色」之外根本没有出租车的牌子。

这张图片的标注主要是通过谷歌图片搜索发现图像的背景是一个标志性的桥梁,然后研究人员定位到了图片所在的城市,对该城市中的出租车图像进行检索后,认可了这张图片里确实包含出租车而非一辆普通的汽车。并且从车牌的设计上进行对比,也验证了模型的预测是正确的。

在对研究的几个阶段发现的错误进行初步审查后,作者首先根据错误的严重程度将其分为两类:

1. 主要错误(Major):人类能够理解标签的含义,并且模型的预测和标签完全不沾边;

2. 次要错误(Minor):标签的可能是错误的或者不完善导致的预测错误。需要专家审查数据后进行纠正。

图片

 对于ViT-3B模型犯的155个主要错误,研究人员又找了其他三个模型共同预测来提高预测结果的多样性。

四个模型全都预测失败的主要错误有68个,然后分析了所有模型对这些例子的预测,并验证了它们没有一个是正确的新的多标签,即每个模型的预测结果确实都是主要错误。

这68个例子有几个共同特点,首先就是不同方式训练的sota模型都在这个子集上犯了错误、并且专家评审也认为预测结果完全和正确不沾边。

68张图像的数据集也足够小,方便后续研究者进行人工评估,如果未来攻克了这68个例子,那CV模型也许会取得新突破。

通过分析数据,研究者又将预测错误划分为四种类型:

1. 细粒度错误,其中预测的类别跟真实标签相似,但不完全相同;

2. 具有词表外(OOV)的细粒度,其中模型识别其类别正确但在 ImageNet 中不存在该对象的类别;

3. 虚假相关性,其中预测的标签是从图像的上下文中读取的;

4. 非原型,其中标签中的对象与预测标签相似、但并非完全一致。

图片

 在审查了原始 676 个错误后,研究人员发现其中298 个应该是正确的,或者可以确定原始标签是错误或有问题的。

图片

 总的来说,通过文章的研究结果可以得出四个结论:

1. 当一个大型、高精度模型做出其他模型没有的新预测时,大概其中50%都是正确的新多标签;

2. 更高精度的模型在类别和错误严重性之间没有表现出明显的相关性;

3. 如今SOTA模型在人工评估的多标签子集上的表现在很大程度上匹配或超过了最佳专家人类的表现;

4. 有噪音的训练数据和未指定的类别可能是限制有效衡量图像分类改进的一个因素。

或许图像标签问题还得等待自然语言处理技术来解决?

以上是CV未来在这68张图上?Google Brain深扒ImageNet:顶级模型全都预测失败的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1243
24
加密数字资产交易APP推荐top10(2025全球排名) 加密数字资产交易APP推荐top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能着称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

欧易okex账号怎么注册、使用、注销教程 欧易okex账号怎么注册、使用、注销教程 Mar 31, 2025 pm 04:21 PM

本文详细介绍了欧易OKEx账号的注册、使用和注销流程。注册需下载APP,输入手机号或邮箱注册,完成实名认证。使用方面涵盖登录、充值提现、交易以及安全设置等操作步骤。而注销账号则需要联系欧易OKEx客服,提供必要信息并等待处理,最终获得账号注销确认。 通过本文,用户可以轻松掌握欧易OKEx账号的完整生命周期管理,安全便捷地进行数字资产交易。

binance怎么注册详细教程(2025新手指南) binance怎么注册详细教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance币安注册及安全设置的完整指南,涵盖注册前的准备工作(包括设备、邮箱、手机号及身份证明文件准备),详细介绍了官网及APP两种注册方式,以及不同级别的身份验证(KYC)流程。此外,文章还重点讲解了如何设置资金密码、开启双重验证(2FA,包括谷歌身份验证器和短信验证)以及设置防钓鱼码等关键安全步骤,帮助用户安全便捷地注册和使用Binance币安平台进行加密货币交易。 请务必在交易前了解相关法律法规及市场风险,谨慎投资。

如何优化jieba分词以改善景区评论的关键词提取效果? 如何优化jieba分词以改善景区评论的关键词提取效果? Apr 01, 2025 pm 06:24 PM

如何优化jieba分词以改善景区评论的关键词提取?在使用jieba分词处理景区评论数据时,如果发现分词结果不理�...

gate.io手机app使用教程 gate.io手机app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手机app使用教程:1、安卓用户,访问 Gate.io 官方网站,下载安卓安装包,您可能需要在手机设置中允许安装来自未知来源的应用;2、ios用户,在 App Store 中搜索 "Gate.io" 下载。

虚拟币最老的币排行榜最新更新 虚拟币最老的币排行榜最新更新 Apr 22, 2025 am 07:18 AM

虚拟货币“最老”排行榜如下:1. 比特币(BTC),发行于2009年1月3日,是首个去中心化数字货币。2. 莱特币(LTC),发行于2011年10月7日,被称为“比特币的轻量版”。3. 瑞波币(XRP),发行于2011年,专为跨境支付设计。4. 狗狗币(DOGE),发行于2013年12月6日,基于莱特币代码的“迷因币”。5. 以太坊(ETH),发行于2015年7月30日,首个支持智能合约的平台。6. 泰达币(USDT),发行于2014年,是首个与美元1:1锚定的稳定币。7. 艾达币(ADA),发

虚拟币购买app安全靠谱的top10推荐 虚拟币购买app安全靠谱的top10推荐 Mar 18, 2025 pm 12:12 PM

2025年全球虚拟币交易平台Top 10推荐,助您玩转数字货币市场!本文将为您深度解析币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家顶级平台的核心优势和特色功能。无论是追求高流动性、丰富的交易类型,还是注重安全合规、创新功能,都能在此找到适合您的平台。 我们将从交易品种、安全性、特色功能等方面进行全面对比,助您选择最合适的虚拟货币交易平台,把握2025年数字货币投资机遇

okex交易平台官网登录入口 okex交易平台官网登录入口 Mar 18, 2025 pm 12:42 PM

本文详细介绍了欧易OKEx网页版登录的完整步骤,包括准备工作(确保网络连接稳定及浏览器更新)、访问官网(注意网址准确性,避免钓鱼网站)、找到登录入口(点击官网首页右上角的“登录”按钮)、输入登录信息(邮箱/手机号及密码,支持验证码登录)、完成安全验证(滑动验证、谷歌验证或短信验证)等五个步骤,最终成功登录后即可进行数字资产交易等操作。 安全便捷的登录流程,保障用户资产安全。

See all articles