目录
New Bing 的事实性错误
实例演示里的错误
小结:发现错误将指引我们前进
首页 科技周边 人工智能 别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

May 10, 2023 am 11:07 AM
chatgpt 微软

2 月 8 号美东时间八点半,谷歌发布会在巴黎召开。前一天微软正式推出了新一代 AI 驱动搜索引擎 New Bing,把基于 ChatGPT 技术的生成模型和 Bing 集成在一起。微软副总裁 Yusuf Mehdi 进行了一次完美的演示 [0],当日微软市值暴涨 800 亿美元。即便是在 OpenAI 没有开放注册的中国,朋友圈、微信群里 Yusuf 展示的生成模型如何增强 Bing 搜索引擎和 Edge 浏览器体验的片段也在疯传。汝之蜜糖,彼之砒霜,大家都在等着搜索巨头谷歌怎么应对。

谷歌发布会的现场,大家都在等待传说中跟 New Bing 对标的 Bard 登场。作为有谷歌搜索引擎加持的大语言模型,大家对 Bard 充满了遐想。然而,发布会现场,关于 Bard 的内容并不多。于是大家又把眼光投向了谷歌在推特上发布的 Bard 视频,仔细扒下来,大家突然发现 Bard 在回答问题时犯了事实性错误。

在被问及「关于詹姆斯韦伯望远镜的新发现,有什么可以告诉我九岁孩子的?」时,Bard 回答道:「第一张系外行星照片是由詹姆斯韦伯望远镜拍摄。」而事实却是由欧洲南方天文台的甚大望远镜在 2004 年拍下的,此时距离詹姆斯韦伯望远镜升空还有 18 年之久。这个错误成了谷歌当日股价大跌的导火索。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 1 Bard 关于詹姆斯韦伯望远镜演示截图

而在巴黎发布会的现场,尽管 Bard 的展示部分只有 4 分钟左右,其关于星座最佳观测时间的回答同样存在明显的事实偏差。如下图,Bard 的回答中提到猎户座最佳观测时间是十一月到二月。


别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 2 Bard 关于星系观测时间演示截图

根据不同信息源,猎户座的最佳观测时间不尽相同,但是都明确指出最佳观测时段从每年一月起。教育科技网站 BYJU'S 提供的最佳时间为一月到三月 [1],维基百科提供的最佳时间为一月到四月 [2]。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 3 BYJU‘S 关于猎户座最佳观测时间的解答

由于 Bard 发布会相较于 New Bing 发布会的落差,以及被揪出了事实性错误,当天谷歌市值暴跌近 1000 亿美元,Bard 也因此被戏称为史上最贵发布会。我们不禁好奇,在 New Bing 看似完美的发布会中,是不是也藏着事实性的错误呢

New Bing 的事实性错误

我们发现,New Bing 生成的内容中掺杂了很多事实性错误,包括名人身份信息、财报数字、夜店营业时间,等等。

生成模型的事实性错误分类

对于以 GPT 系列(包括 ChatGPT、InstructGPT 等)、T5 为代表的生成模型,事实性错误可以粗分为以下两类:

  • 生成内容与引用内容冲突。大语言模型在内容生成过程中随着序列增长,容易出现脱离引用内容,造成增加、删减或篡改原文的现象。
  • 生成的内容没有事实依据。这类错误通俗来说就是一本正经得胡说八道。没有事实依据的指引,仅靠模型预训练时候存储的信息很容易使模型在生成过程中不知所云。很大概率会生成与事实不符或是和问题无关的内容。

现在我们来检视 New Bing 发布会 [3] 以及 New Bing 演示 [4] 所展示的例子,是否存在事实性错误以及分别是什么类型。为了行文方便,我们把 New Bing 和集成在 Edge 的 New Bing 插件统称为 New Bing。

日本诗人例子的错误

在 New Bing 发布会视频 29:57 处,当 New Bing 被问到知名日本诗人时,给出的答案包括「Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist」。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 4 New Bing 演示中诗人例子截图

然而根据维基百科和 IMDB 提供的信息 [5, 6, 7],Eriko Kishida 的生卒年分别为 1929 和 2011。同时,她也不是剧作家(playwright)和散文家(essaysit),而是诗人、翻译家和童话作家。被 New Bing 转了业还少活了八年,岸田的家人大概不太能接受。同时不幸被转业的还有 Gackt 同学。据维基百科提供的信息 [8],Gackt 玩过音乐、唱过歌、作过曲也演过戏,就是没作过诗。

财报例子的错误

在 New Bing 发布会视频 35:49 处,Yusuf 展示集成了 New Bing 的 Edge 浏览器,对于打开的服饰公司盖璞 (Gap) 2022 年第三季度的财报,如何进行要点生成。乍眼一看,New Bing 的总结非常实用,用关键点的方式庖丁解牛一般展示了 Gap 三季报的要点,巴菲特看到此或许也会「惊为真人」。然而,当我们找出 Gap 2022 年三季报 [9],仔细阅读过后,发现 New Bing 的总结错漏百出,让人不忍直视

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 5 New Bing 对 Gap 2022 年第三季度财报的摘要

首先,New Bing 给出了 Gap 调整后的运营毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)为 5.9%。然而在财报中,Gap 的运营毛利率是 4.6%,调整后则是 3.9%。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 6 Gap 2022 年第三季度财报截图

New Bing 接下来又给出调整后摊薄每股收益为 0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但财报里的数据则是 0.71 美元。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 7 Gap 2022 年第三季度财报截图

甚至 New Bing 给出了 Gap 全年的销售指引为「预计销售净增长率为低双位数」,而实际是四季度「可能呈中间个位数下降」。是下降而非增长,一词之差,对用户的投资行为将产生严重的误导,这亏钱了算谁的。New Bing 甚至无中生有,给出了更多的全年财务指引「营业毛利为 7%,摊薄每股收益为 1.6 美元到 1.75 美元之间」,而这些数据在 Gap 三季度财报中统统没有提到。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 8 Gap 2022 年第三季度财报截图

视频 36:15 处,Yusuf 又展示了用 New Bing 进行 Gap 和体育休闲服品牌露露乐檬(Lululemon)财报对比的功能。这部分又是错误信息的重灾区。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 9 New Bing 对 Gap 和 Lululemon 财报对比功能

在右侧 New Bing 给出的表格中,除了上文所说的 Gap 营业毛利 5.9% 应为 4.6%(或调整后 3.9%)和 Gap 摊薄每股收益 0.42 美元应为 0.77 美元(或调整后 0.71 美元), New Bing 又给出了 Gap 现金和现金等价物为 14 亿美元的数据,而实际上财报中是 6.79 亿美元。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 10 Lululemon 2022 年第三季度财报截图

同样的情况也出现在 New Bing 给出的 Lululemon 数据中。根据 Lululemon 2022 三季报的数据 [10],New Bing 给出的 Lululemon 毛利率为 58.7%,实际上应为 55.9%。New Bing 提到 Lululemon 营业毛利为 20.6%,实际上应为 19.0%。New Bing 给出 Lululemon 摊薄每股收益为 1.65 美元,实际上应为 2.00 美元。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 11 Lululemon 2022 年第三季度财报截图

我们不禁想问:New Bing 是如何对着 Gap 和 Lululemon 的财报一本正经地胡说八道的?一个合理的推断是,生成出来的这些错误数据,很可能是来自它预训练阶段见过的财报分析数据。ChatGPT 这类大型语言模型的生成,随着生成的序列越长,越容易脱离给定的 Gap 和 Lululemon 的财报数据,放飞自我,生成不着边际的虚假信息。

夜店例子的错误

在 New Bing 发布会视频 29:17 处,New Bing 又为丰富墨西哥城的游客们的夜生活提供了「毫无建设性」的建议。对于其推荐的几个夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到这些酒吧没有客户评价、没有联系方式也没有商店介绍。然而这些信息都可以在谷歌地图或者商店的 Facebook 主页上找到。看来 New Bing 网上冲浪力度还不够

El Almacen 在 New Bing 里的营业时间是周二到周日的下午五点到晚上十一点,然而真实的营业时间是除周一外的下午七点到凌晨三点 [11]。这让五点去吃晚饭的游客还得挨两个小时的饿。Guadalajara de Noche 则是相反,实际营业时间是每天的下午五点半到凌晨一点半或十二点半 [12],而 New Bing 给出的营业时间是下午八点开始。看来游客靠 New Bing 的建议去找餐厅,能不能吃到饭就得看运气了。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 12 New Bing 演示中夜店例子截图

其他错误 

除了上述的信息错误,我们还发现了一系列散布在各个角落的事实错误,比如商品价格误差、商店地址错误、时间错误等。

实例演示里的错误

由于 New Bing 还没有完全开放,我们无法直接在 New Bing 上拿到发布会现场的搜索结果,但是微软提供了几个实例演示 [13],让用户体验。本着打破砂锅问到底的精神,我们也把这几个演示都放到放大镜下进行研究。我们发现,即便是这几个精心挑选的例子,里面还是有不少错误信息

在「What art ideas can I do with my kid? 」中,New Bing 给出了很多手工品制作建议。对于每一个手工品,New Bing 都总结了制作所需的材料。然而每一个手工品的材料总结都是不完整的。比如 New Bing 从引用网站 [14] 中总结制作纸吉他需要纸盒、橡皮筋、颜料和胶水。但却漏掉了引用中提到的海绵刷、胶带和木珠。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 13  New Bing 实例演示 “我可以和孩子一起做什么样的手工?” 截图 

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 14 引用网站中制作纸吉他所需材料截图

在 New Bing 的实例演示中还有一个非常明显和常见的错误,即给的引用链接与生成的内容无关,驴唇不对马嘴

比如以下在「I need a big fast car. 」的例子中,2022 版 Kia Telluride 没有出现在所给的引用 10 [15] 中。同时「时间穿越」问题在该例子中依旧不能避免,New Bing 声称 2022 版 Kia Telluride 获得了 2020 年世界年度汽车奖,实际情况是当年获得该奖项的是 Kia Telluride 2020 版本。2022 年世界年度汽车奖获得者则是 Hyundai IONIQ 5,而引用 7 [16] 也是与「2020 年世界年度汽车奖」毫不相关的文章。我们在所有实例演示中找到了多达 21 处类似的错误。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

图 15 New Bing 演示实例 “我需要一辆大型快车” 截图

小结:发现错误将指引我们前进

从上述的分析可以看出,无论是 New Bing 还是 Bard,他们的回答都容易出现事实性错误。当全世界都惊讶于 ChatGPT 等大型语言模型展现出来的能力时,当 ChatGPT 成为史上最快达到 1 亿用户的应用之际,我们一方面是为 AI 的进步振臂欢呼,一方面也需要冷静地思考怎么解决 AI 目前还存在的诸多问题。

自从 1956 年那群聚在达特茅斯学院的天才们,第一次定义了什么是人工智能之后,AI 经历了几起几落。近 70 年的发展过程中有很多让人感动的坚持:是初代 AI 的稚嫩探索,是专家系统的勇敢尝试,是 Hinton、Bengio、Lecun 这些学者把神经网络的冷板凳坐穿,是 DeepMind 用 AlphaGo 让 AI 出圈,是谷歌、Meta、CMU、斯坦福、清华等一众顶尖研究机构坚持开源,是 OpenAI 顶住压力把 GPT 这个路线走通,是全球几代科研人员的接力,我们才走到今天。

然而,如果我们放任 AI 生成大量不真实的信息,那么不用多久,大众对于 AI 建立的信心就会被摧毁,各种虚假信息也会充斥互联网。我们指出大模型的错误,并不是为了拉踩哪个公司或者哪个模型,相反,我们是要让 AI 变得更好

正如阿根廷诗人博尔赫斯曾经说过:任何命运,无论多么复杂漫长,实际上只反应于一个瞬间,那就是人们彻底醒悟自己究竟是谁的那一刻。在 ChatGPT 等大模型已经具备了媲美人类的文字能力时,我们清楚地知道,下一步的重点是把真实世界的知识更完整准确地融入大模型,让 AI 模型安全地、可靠地、广泛地应用于人们的日常生活。我们从未如此期待,也从未如此接近那一刻的到来。

以上是别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 于 2023 年 9 月正式推出,是比其前身大幅改进的型号。它被认为是迄今为止最好的人工智能图像生成器之一,能够创建具有复杂细节的图像。然而,在推出时,它不包括

Microsoft Edge升级:自动存密码功能遭禁?!用户惊了! Microsoft Edge升级:自动存密码功能遭禁?!用户惊了! Apr 19, 2024 am 08:13 AM

4月18日消息,近日,一些使用Canary频道的MicrosoftEdge浏览器的用户反映,在升级到最新版本后,他们发现自动保存密码的选项被禁用了。经过调查,这是浏览器升级后的一个微调,而非功能被取消。在使用Edge浏览器访问网站前,用户反馈说浏览器会弹出一个窗口询问是否希望保存该网站的登录密码。选择保存后,在下一次登录时,Edge就会自动填充已保存的账号和密码,为用户提供了极大的便利。但最近的更新类似于微调,修改了默认设置。用户需要在选择保存密码后,再手动在设置中开启自动填充已保存的账号和密码

微软发布 Win11 八月累积更新:提高安全、优化锁屏等 微软发布 Win11 八月累积更新:提高安全、优化锁屏等 Aug 14, 2024 am 10:39 AM

本站8月14日消息,在今天的8月补丁星期二活动日中,微软发布了适用于Windows11系统的累积更新,包括面向22H2和23H2的KB5041585更新,面向21H2的KB5041592更新。上述设备安装8月累积更新之后,本站附上版本号变化如下:21H2设备安装后版本号升至Build22000.314722H2设备安装后版本号升至Build22621.403723H2设备安装后版本号升至Build22631.4037面向Windows1121H2的KB5041585更新主要内容如下:改进:提高了

微软 Win11 压缩为 7z、TAR 文件的功能已从 24H2 下放到 23H2/22H2 版本 微软 Win11 压缩为 7z、TAR 文件的功能已从 24H2 下放到 23H2/22H2 版本 Apr 28, 2024 am 09:19 AM

本站4月27日消息,微软本月初向Canary和Dev频道发布了Windows11Build26100预览版更新,预估会成为Windows1124H2更新的候选RTM版本。新版本中最主要的变化在于文件资源管理器、整合Copilot、编辑PNG文件元数据、创建TAR和7z压缩文件等等。@PhantomOfEarth发现,微软已经将24H2版本(Germanium)部分功能下放到23H2/22H2(Nickel)版本中,例如创建TAR和7z压缩文件。如示意图所示,Windows11将支持原生创建TAR

微软全屏弹窗催促:Windows 10用户抓紧时间升级到Windows 11 微软全屏弹窗催促:Windows 10用户抓紧时间升级到Windows 11 Jun 06, 2024 am 11:35 AM

6月3日消息,微软正在积极向所有Windows10用户发送全屏通知,鼓励他们升级到Windows11操作系统。这一举措涉及了那些硬件配置并不支持新系统的设备。自2015年起,Windows10已经占据了近70%的市场份额,稳坐Windows操作系统的霸主地位。然而,市场占有率远超过82%的市场份额,占有率远超过2021年面世的Windows11。尽管Windows11已经推出已近三年,但其市场渗透率仍显缓慢。微软已宣布,将于2025年10月14日后终止对Windows10的技术支持,以便更专注于

微软推出新版Outlook for Windows:日历功能全面升级 微软推出新版Outlook for Windows:日历功能全面升级 Apr 27, 2024 pm 03:44 PM

在4月27日的消息中,微软公司宣布即将发布新版OutlookforWindows客户端的测试。此次更新主要聚焦于优化日历功能,旨在提升用户的工作效率,进一步简化日常工作流程。新版OutlookforWindows客户端的改进点在于其更加强大的日历管理功能。现在,用户能够更便捷地分享个人的工作时间与地点信息,使得会议规划变得更为高效。此外,Outlook还新增了人性化设置,允许用户设定会议自动提前结束或推迟开始,为用户提供了更多的灵活性,无论是换会议室、稍作休息还是享受一杯咖啡,都能轻松安排。根据

微软计划2024年下半年在Windows 11中淘汰NTLM,全面转向Kerberos认证 微软计划2024年下半年在Windows 11中淘汰NTLM,全面转向Kerberos认证 Jun 09, 2024 pm 04:17 PM

2024年下半年,微软安全官方博客发布了一条消息,以回应安全社区的呼吁。公司计划在2024年下半年发布的Windows11中淘汰NTLANManager(NTLM)认证协议,以提升安全性。根据之前的解释,微软此前已经有过类似的动作。去年10月12日,微软在一份官方新闻稿中就已经提出了一个过渡计划,旨在逐步淘汰NTLM身份验证方式,并推动更多企业和用户转向使用Kerberos。为了帮助那些可能在关闭NTLM身份验证后遇到硬连接(hardwired)应用程序和服务问题的企业,微软提供了IAKerb和

微软 Edge 安卓版现已提供 Copilot 翻译功能,Windows 版本小范围测试中 微软 Edge 安卓版现已提供 Copilot 翻译功能,Windows 版本小范围测试中 Apr 27, 2024 am 08:40 AM

本站4月26日消息,众所周知,微软目前想尽了办法去推广其AI助手Copilot,除Windows10/11自带的Copilot外,Edge浏览器和Office中也集成了Copilot功能。目前来看,Copilot相对于GPT等AI工具仍有薄弱之处,不过它提供的一些功能对于Windows用户和Edge用户来说也是非常实用的,例如自带的翻译功能。根据@Leopeva64的发现,微软已经在Android版本的EdgeDev浏览器中添加了这一功能,并且也在为小部分桌面版Edge用户提供测试。本站指出,C

See all articles