LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证-人工智能-PHP中文网

首页

科技周边

人工智能

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

王林

Oct 25, 2023 pm 02:13 PM

ai 模型

「任何认为自动回归式 LLM 已经接近人类水平的 AI，或者仅仅需要扩大规模就能达到人类水平的人，都必须读一读这个。AR-LLM 的推理和规划能力非常有限，要解决这个问题，并不是把它们变大、用更多数据进行训练就能解决的。」

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

一直以来，图灵奖得主 Yann LeCun 就是 LLM 的「质疑者」，而自回归模型是 GPT 系列 LLM 模型所依赖的学习范式。他不止一次公开表达过对自回归和 LLM 的批评，并产出了不少金句，比如：

「从现在起 5 年内，没有哪个头脑正常的人会使用自回归模型。」

「自回归生成模型弱爆了！（Auto-Regressive Generative Models suck!）」

「LLM 对世界的理解非常肤浅。」

让 LeCun 近日再次发出疾呼的，是两篇新发布的论文：

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

「LLM 真的能像文献中所说的那样自我批判（并迭代改进）其解决方案吗？我们小组的两篇新论文在推理 (https://arxiv.org/abs/2310.12397) 和规划 (https://arxiv.org/abs/2310.08118) 任务中对这些说法进行了调查（并提出了质疑）。」

看起来，这两篇关于调查 GPT-4 的验证和自我批判能力的论文的主题引起了很多人的共鸣。

论文作者表示，他们同样认为 LLM 是了不起的「创意生成器」（无论是语言形式还是代码形式），只是它们无法保证自己的规划 / 推理能力。因此，它们最好在 LLM-Modulo 环境中使用（环路中要么有一个可靠的推理者，要么有一个人类专家）。自我批判需要验证，而验证是推理的一种形式（因此对所有关于 LLM 自我批判能力的说法都感到惊讶）。

同时，质疑的声音也是存在的：「卷积网络的推理能力更加有限，但这并没有阻止 AlphaZero 的工作出现。这都是关于推理过程和建立的 (RL) 反馈循环。我认为模型能力可以进行极其深入的推理（例如研究级数学）。」

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

对此，LeCun 的想法是：「AlphaZero「确实」执行规划。这是通过蒙特卡洛树搜索完成的，使用卷积网络提出好的动作，并使用另一个卷积网络来评估位置。探索这棵树所花费的时间可能是无限的，这就是推理和规划。」

在未来的一段时间内，自回归 LLM 是否具备推理和规划能力的话题或许都不会有定论。

接下来，我们可以先看看这两篇新论文讲了什么。

论文 1：GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇论文引发了研究者对最先进的 LLM 具有自我批判能力的质疑，包括 GPT-4 在内。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

论文地址：https://arxiv.org/pdf/2310.12397.pdf

接下来我们看看论文简介。

人们对大型语言模型（LLM）的推理能力一直存在相当大的分歧，最初，研究者乐观的认为 LLM 的推理能力随着模型规模的扩大会自动出现，然而，随着更多失败案例的出现，人们的期望不再那么强烈。之后，研究者普遍认为 LLM 具有自我批判（ self-critique ）的能力，并以迭代的方式改进 LLM 的解决方案，这一观点被广泛传播。

然而事实真的是这样吗？

来自亚利桑那州立大学的研究者在新的研究中检验了 LLM 的推理能力。具体而言，他们重点研究了迭代提示（iterative prompting）在图着色问题（是最著名的 NP - 完全问题之一）中的有效性。

该研究表明（i）LLM 不擅长解决图着色实例（ii）LLM 不擅长验证解决方案，因此在迭代模式下无效。从而，本文的结果引发了人们对最先进的 LLM 自我批判能力的质疑。

论文给出了一些实验结果，例如，在直接模式下，LLM 在解决图着色实例方面非常糟糕，此外，研究还发现 LLM 并不擅长验证解决方案。然而更糟糕的是，系统无法识别正确的颜色，最终得到错误的颜色。

如下图是对图着色问题的评估，在该设置下，GPT-4 可以以独立和自我批判的模式猜测颜色。在自我批判回路之外还有一个外部声音验证器。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

结果表明 GPT4 在猜测颜色方面的准确率低于 20%，更令人惊讶的是，自我批判模式（下图第二栏）的准确率最低。本文还研究了相关问题：如果外部声音验证器对 GPT-4 猜测的颜色提供可证明正确的批判，GPT-4 是否会改进其解决方案。在这种情况下，反向提示确实可以提高性能。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

即使 GPT-4 偶然猜出了一个有效的颜色，它的自我批判可能会让它产生幻觉，认为不存在违规行为。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

最后，作者给出总结，对于图着色问题：

自我批判实际上会损害 LLM 的性能，因为 GPT-4 在验证方面很糟糕；
来自外部验证器的反馈确实能提高 LLM 的性能。

论文 2：Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在论文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中，研究团队探究了 LLM 在规划（planning）的情境下自我验证 / 批判的能力。

这篇论文对 LLM 批判自身输出结果的能力进行了系统研究，特别是在经典规划问题的背景下。虽然最近的研究对 LLM 的自我批判潜力持乐观态度，尤其是在迭代环境中，但这项研究却提出了不同的观点。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

论文地址：https://arxiv.org/abs/2310.08118

令人意外的是，研究结果表明，自我批判会降低规划生成的性能，特别是与具有外部验证器和 LLM 验证器的系统相比。LLM 会产生大量错误信息，从而损害系统的可靠性。

研究者在经典 AI 规划域 Blocksworld 上进行的实证评估突出表明，在规划问题中，LLM 的自我批判功能并不有效。验证器可能会产生大量错误，这对整个系统的可靠性不利，尤其是在规划的正确性至关重要的领域。

有趣的是，反馈的性质（二进制或详细反馈）对规划生成性能没有明显影响，这表明核心问题在于 LLM 的二进制验证能力，而不是反馈的粒度。

如下图所示，该研究的评估架构包括 2 个 LLM—— 生成器 LLM + 验证器 LLM。对于给定的实例，生成器 LLM 负责生成候选规划，而验证器 LLM 决定其正确性。如果发现规划不正确，验证器会提供反馈，给出其错误的原因。然后，该反馈被传输到生成器 LLM 中，并 prompt 生成器 LLM 生成新的候选规划。该研究所有实验均采用 GPT-4 作为默认 LLM。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

该研究在 Blocksworld 上对几种规划生成方法进行了实验和比较。具体来说，该研究生成了 100 个随机实例，用于对各种方法进行评估。为了对最终 LLM 规划的正确性进行真实评估，该研究采用了外部验证器 VAL。

如表 1 所示，LLM+LLM backprompt 方法在准确性方面略优于非 backprompt 方法。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

在 100 个实例中，验证器准确识别了 61 个（61%）。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

下表显示了 LLM 在接受不同级别反馈（包括没有反馈）时的表现。

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

以上是LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7455

CakePHP 教程

1375

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Vue.js 中字符串转对象用什么方法？ Apr 07, 2025 pm 09:39 PM

Vue.js 中字符串转对象时，首选 JSON.parse() 适用于标准 JSON 字符串。对于非标准 JSON 字符串，可根据格式采用正则表达式和 reduce 方法或解码 URL 编码字符串后再处理。根据字符串格式选择合适的方法，并注意安全性与编码问题，以避免 bug。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种，可以通过检查错误日志进行诊断。常见原因包括端口冲突（检查端口占用情况并修改配置）、权限问题（检查服务运行用户权限）、配置文件错误（检查参数设置）、数据目录损坏（恢复数据或重建表空间）、InnoDB表空间问题（检查ibdata1文件）、插件加载失败（检查错误日志）。解决问题时应根据错误日志进行分析，找到问题的根源，并养成定期备份数据的习惯，以预防和解决问题。

如何设置Vue Axios的超时时间 Apr 07, 2025 pm 10:03 PM

为了设置 Vue Axios 的超时时间，我们可以创建 Axios 实例并指定超时选项：在全局设置中：Vue.prototype.$axios = axios.create({ timeout: 5000 })；在单个请求中：this.$axios.get('/api/users', { timeout: 10000 })。

Laravel的地理空间：互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录，并将其转换为可交互的地图可视化。初始挑战项目需求：利用MySQL数据库中700万条记录，提取有价值的见解。许多人首先考虑编程语言，却忽略了数据库本身：它能否满足需求？是否需要数据迁移或结构调整？MySQL能否承受如此大的数据负载？初步分析：需要确定关键过滤器和属性。经过分析，发现仅少数属性与解决方案相关。我们验证了过滤器的可行性，并设置了一些限制来优化搜索。地图搜索基于城

Vue.js 如何将字符串类型的数组转换为对象数组？ Apr 07, 2025 pm 09:36 PM

总结：将 Vue.js 字符串数组转换为对象数组有以下方法：基本方法：使用 map 函数，适合格式规整的数据。高级玩法：使用正则表达式，可处理复杂格式，但需谨慎编写，考虑性能。性能优化：考虑大数据量，可使用异步操作或高效数据处理库。最佳实践：清晰的代码风格，使用有意义的变量名、注释，保持代码简洁。

mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件，例如innodb_buffer_pool_size参数，并关闭query_cache_size；2.创建合适的索引，避免索引过多，并优化查询语句，例如使用EXPLAIN命令分析执行计划；3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况，定期备份和整理数据库。通过这些步骤，持续优化，才能提升MySQL数据库性能。

偏远的高级后端工程师（平台）需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司：Circle地点：远程办公职位类型：全职薪资：$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发，涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作，并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进，并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程，并确定迭代速度的优先级。要求6年以上复杂Web应用后端

See all articles

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题