苹果公司的一项新研究表明人工智能推理存在严重缺陷
人工智能并不总是能把事情做好,这并不奇怪。有时候,甚至会产生幻觉。然而,苹果研究人员最近的一项研究表明,人工智能用于形式推理的数学模型存在更严重的缺陷。
✕ 删除广告作为研究的一部分,苹果科学家询问了人工智能大型语言模型(法学硕士)一个问题,以略有不同的方式多次提出,当他们发现法学硕士提供了意想不到的答案变化时,他们感到惊讶。当涉及到数字时,这些差异最为突出。
苹果公司的研究表明人工智能的可靠性存在大问题

这项由 arxiv.org 发布的研究得出的结论是,“不同设备之间存在显着的性能差异”。同一问题的不同实例,挑战了当前依赖单点精度指标的 GSM8K 结果的可靠性。” GSM8K 是一个数据集,其中包含 8000 多个不同的小学数学问题和答案。
✕ 删除广告Apple 研究人员发现此性能的差异可能高达 10%。即使提示中的微小变化也可能会导致 LLM 答案的可靠性出现巨大问题。
换句话说,您可能希望在使用 ChatGPT 等工具时随时对您的答案进行事实检查。这是因为,虽然有时人工智能看起来像是在使用逻辑来为您的询问提供答案,但逻辑并不是正在使用的内容。
相反,人工智能依靠模式识别来提供对提示的响应。然而,苹果公司的研究表明,即使改变几个不重要的单词也会改变这种模式识别。
所提出的关键差异的一个例子来自于在几天内收集猕猴桃的问题。苹果研究人员进行了一项对照实验,然后添加了一些有关猕猴桃大小的无关紧要的信息。
✕ 删除广告Meta 和 OpenAI 模型均显示问题

Meta 的 Llama 和 OpenAI 的 o1,然后,尽管猕猴桃大小数据对问题的结果没有实际影响,但他们还是从对照中改变了他们对问题的答案。 OpenAI 的 GPT-4o 在向 LLM 提供的数据中引入微小变化时也存在性能问题。
由于 LLM 在我们的文化中变得越来越重要,这一消息引发了我们是否可以信任 AI 的巨大担忧为我们的询问提供准确的答案。特别是对于财务建议等问题。它还强调了在使用大型语言模型时准确验证收到的信息的必要性。
这意味着您需要进行一些批判性思考和尽职调查,而不是盲目依赖人工智能。话又说回来,如果您是经常使用人工智能的人,您可能已经知道这一点。
✕ 删除广告以上是苹果公司的一项新研究表明人工智能推理存在严重缺陷的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。
