首页 > 科技周边 > 人工智能 > GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误

PHPz
发布: 2023-11-13 20:17:23
转载
663 人浏览过

GPT-4解决网络名梗“吉娃娃or蓝莓松饼”,一度惊艳无数人。

然而,如今它被指控为“作弊”!

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

全用原题中出现的图,只是打乱顺序和排列方式。

最新版本的GPT-4以其全模式合一的特点而闻名。然而,令人惊讶的是,它在识别图片数量方面出现了错误,而且连原本能够正确识别的吉娃娃也出现了识别错误

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

GPT-4在原图上表现出色的原因是什么呢?

根据UCSC助理教授Xin Eric Wang的猜测,搞这项测试的原因是因为互联网上的原图太受欢迎了。他认为GPT-4在训练过程中多次遇到过原始答案,并成功地记住了它们

图灵奖三巨头中的LeCun也关注此事,并表示:

警惕在训练集上测试。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

泰迪和炸鸡也无法区分

原图究竟有多流行呢,不但是网络名梗,甚至在计算机视觉领域也成了经典问题,并多次出现在相关论文研究中。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

针对GPT-4的能力局限在哪个环节,许多网友提出了各自的测试方案,不考虑原图的影响

为了排除排列方式太复杂是否有影响,有人修改成简单3x3排列也认错很多。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

有人把其中一些图拆出来单独发给GPT-4,得到了5/5的正确率。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

Xin Eric Wang认为,将这些容易混淆的图像放在一起正是这个挑战的核心

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

最终,有人成功地同时运用了让人工智能“深呼吸”和“一步一步地思考”的两个关键技巧,并获得了正确的结果

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”,也暴露了原图确实可能存在于训练数据里。重新表述如下:然而,GPT-4在其回答中使用了:“这是一个视觉双关或著名梗图的例子”,这也揭示了原始图片可能确实存在于训练数据中

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

最后也有人测试了经常一起出现的“泰迪or炸鸡”测试,发现GPT-4也不能很好分辨。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

这个“蓝莓或者巧克力豆”实在有点过分……

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

视觉幻觉成热门方向

大模型“胡说八道”在学术界被称为幻觉问题,多模态大模型的视觉幻觉问题,已经成了最近研究的热门方向。

在EMNLP 2023的一项研究中,我们创建了GVIL数据集,其中包含了1600个数据点,并对视觉幻觉问题进行了系统评估

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

研究表明,较大规模的模型更容易受到错觉的影响,并且更接近人类的感知

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

另一项最新研究的重点是评估两种幻觉类型:偏差和干扰

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

  • 偏差指模型倾向于产生某些类型的响应,可能是由于训练数据的不平衡造成的。
  • 干扰则是可能因文本提示的措辞方式或输入图像的呈现方式造成去别的场景。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

研究中指出GPT-4V一起解释多个图像时经常会困惑,单独发送图像时表现更好,符合“吉娃娃or松饼”测试中的观察结果。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

流行的缓解措施,如自我纠正和思维链提示,并不能有效解决这些问题,并且测试显示LLaVA和Bard等多模态模型也存在类似的问题

另外研究还发现,GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。

比如GPT-4V能正确数出七个小矮人+白雪公主,却把七个葫芦娃数成了10个。

GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误图片

参考链接:[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

以上是GPT-4被曝作弊!LeCun呼吁谨慎在训练集上测试,吉娃娃or松饼的顺序混乱导致错误的详细内容。更多信息请关注PHP中文网其他相关文章!

相关标签:
来源:51cto.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板