CREATOR制造、使用工具，实现LLM「自我进化」-人工智能-PHP中文网

研究背景

CREATOR 研究框架

CREATOR 实验评测

工具创造的其他优势

总结

文章主要作者

首页

科技周边

人工智能

CREATOR制造、使用工具，实现LLM「自我进化」

PHPz

Jun 12, 2023 pm 11:34 PM

框架研究

自古以来，工具的使用被视为区分人与其他物种的一大区别，也被视为是智能的一种根本体现。而当下，人工智能已不再局限于对工具的简单使用，它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上，这代表着当下大模型已经能够掌握更高层次的抽象思维认知，并将其与具象思维划分，共同解决问题；而在能力上，工具创造的出现也意味着模型已经能够从 “学习” 中蜕变，去运用已知 “创造” 未来的无限可能。

CREATOR制造、使用工具，实现LLM「自我进化」

论文链接：https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来，大规模语言模型（Large Language Models）取得了显著的研究进展，包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习（In-Context Learning）、代码生成（Code Generation）和各种其他自然语言处理任务方面表现出色，将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功，其当下仍然存在很多短板，包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性，在题干逻辑复杂时推理能力不稳定等等。针对这些短板，研究者开始致力于向当前模型架构中引入对外部资源的利用能力，例如引入计算器，问答系统，维基百科等等外部知识源，来增强模型能力。这一系列研究奠定了模型工具学习（Tool Learning）能力的基础。

然而，当下研究中利用的外部工具数量仍然有限，而在潜在的新任务类型几乎是无尽的。因此，在面对新的问题类型时，很难找到现有的适合解决问题的工具。此外，即使提供了有效的可利用的工具，模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担，并需要较高的学习成本。

因此，研究团队提出了全新的一种研究范式：工具创造（Tool Creation）。其不再是简单利用大模型使用工具的能力，而是加入了全新的工具创造模块，让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性，超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担，并解耦其进行抽象推理（创建可推广的具有普适性的工具）和具象推理（根据工具实现细节和工具使用文档进行决策）的能力。同时，该框架下模型以代码作为工具创造的媒介，这使得模型对于错误更加敏感，并能根据工具创造与使用中的问题进行回溯与修正。

CREATOR制造、使用工具，实现LLM「自我进化」

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段：

创造（Creation）：运用大模型对于问题的抽象推理能力，通过代码有针对性性地创造所需工具以及其使用说明。
决策（Decision）：运用大模型对于问题的具象推理能力，决策如何调用工具来解决当前问题。
执行（Execution）：根据创造的工具以及决策内容，进行决策的执行，并捕获执行过程中的输出信息。
修正（Rectification）：运用大模型对于错因推理以及自我修复的能力，对执行阶段捕捉到的问题进行修复。

CREATOR制造、使用工具，实现LLM「自我进化」

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明；此后，问题内容以及工具信息将同时再次返回给大模型，用以决策针对本问题的解决方案，以及如何使用这些工具。此后，模型将根据执行情况对工具及决策做出调整，以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力：提取问题关键信息的抽象思维推理，根据任务实施方案决策的具象思维推理，以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链（Chain-of-Thought, CoT）中的思维混乱而导致的失败现象，有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法（CoT），程序推理链方法（Program-of-Thought, PoT）以及没有创造的简单工具使用（Tool Use）进行了比对。同时，为了验证框架中剥离抽象推理与具象推理的有效性，作者还额外引入了整体工具创造（Tool Create - whole）作为基线，该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一，不再进行推理能力上的解耦。

CREATOR制造、使用工具，实现LLM「自我进化」

Creation Challenge 数据集问题，标准工具及决策示例

CREATOR制造、使用工具，实现LLM「自我进化」

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上，作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题，而后者将问题与丰富的数据表结合，二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外，作者还额外引入了全新构建的 Creation Challenge 数据集，其中的问题都无法直接套用现有工具或者代码包解决，从而考验了模型进行工具创造的能力。

CREATOR制造、使用工具，实现LLM「自我进化」

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来，CREATOR 框架的推理结果要明显好于所有基线，尤其相对于标准的推理方法以及程序推理方法，均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上，作者还额外验证了在有创造什么样的工具的提示（hint）的情况下，模型将会对问题有着更强的解决能力。因此，提示与思维解耦这两点也成为了工具创造中的重要影响因素。

CREATOR制造、使用工具，实现LLM「自我进化」

不同方法针对任务难度的准确率统计

CREATOR制造、使用工具，实现LLM「自我进化」

在修正阶段的参与下效果的提升

除此之外，作者还验证了不同方法对于任务难度的变化曲线，以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明，CREATOR 框架面对有难度的问题能够保持更好的鲁棒性，以及修正阶段的参与能够让不仅是 CREATOR 框架，甚至是 PoT 推理方法都能得到大幅度提升，证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外，文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具，那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同，但都涉及相同的核心知识（Core Knowledge），即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景，是否都能够有效解决并提升准确率。

CREATOR制造、使用工具，实现LLM「自我进化」

对于大模型创造的工具在其他问题上迁移，能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景，能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性，对于同类问题也有着良好的普适性。

除此之外，作者还展示了大模型进行工具创造的三个维度：对已有工具进行封装以实现不同目的，将不同工具进行组合实现目标功能，以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力，而这些能力也帮助大模型能够更高效地适应不同场景。

CREATOR制造、使用工具，实现LLM「自我进化」

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦，是继工具学习之后，对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础，继续在工具的使用与创造上不断证明与增强模型潜力，为我们带来更多惊喜。

文章主要作者

CREATOR制造、使用工具，实现LLM「自我进化」

钱成，清华大学大三年级本科生，THUNLP 实验室成员，导师刘知远。目前研究方向包括大模型预训练，大模型高效微调，以及工具学习等领域。曾获清华大学计算机综合优秀奖学金，并以共同一作身份在 EMNLP，ACL 等国际会议中发表论文。

个人主页：https://qiancheng0.github.io/

以上是CREATOR制造、使用工具，实现LLM「自我进化」的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7686

Java教程

1639

CakePHP 教程

1393

Laravel 教程

1287

PHP教程

1229

显示更多

Related knowledge

如何评估Java框架商业支持的性价比 Jun 05, 2024 pm 05:25 PM

评估Java框架商业支持的性价比涉及以下步骤：确定所需的保障级别和服务水平协议(SLA)保证。研究支持团队的经验和专业知识。考虑附加服务，如升级、故障排除和性能优化。权衡商业支持成本与风险缓解和提高效率。

PHP 框架的学习曲线与其他语言框架相比如何？ Jun 06, 2024 pm 12:41 PM

PHP框架的学习曲线取决于语言熟练度、框架复杂性、文档质量和社区支持。与Python框架相比，PHP框架的学习曲线更高，而与Ruby框架相比，则较低。与Java框架相比，PHP框架的学习曲线中等，但入门时间较短。

PHP 框架的轻量级选项如何影响应用程序性能？ Jun 06, 2024 am 10:53 AM

轻量级PHP框架通过小体积和低资源消耗提升应用程序性能。其特点包括：体积小，启动快，内存占用低提升响应速度和吞吐量，降低资源消耗实战案例：SlimFramework创建RESTAPI，仅500KB，高响应性、高吞吐量

Java框架的性能比较 Jun 04, 2024 pm 03:56 PM

根据基准测试，对于小型、高性能应用程序，Quarkus（快速启动、低内存）或Micronaut（TechEmpower优异）是理想选择。SpringBoot适用于大型、全栈应用程序，但启动时间和内存占用稍慢。

golang框架文档最佳实践 Jun 04, 2024 pm 05:00 PM

编写清晰全面的文档对于Golang框架至关重要。最佳实践包括：遵循既定文档风格，例如Google的Go编码风格指南。使用清晰的组织结构，包括标题、子标题和列表，并提供导航。提供全面准确的信息，包括入门指南、API参考和概念。使用代码示例说明概念和使用方法。保持文档更新，跟踪更改并记录新功能。提供支持和社区资源，例如GitHub问题和论坛。创建实际案例，如API文档。

如何为不同的应用场景选择最佳的golang框架 Jun 05, 2024 pm 04:05 PM

根据应用场景选择最佳Go框架：考虑应用类型、语言特性、性能需求、生态系统。常见Go框架：Gin（Web应用）、Echo（Web服务）、Fiber（高吞吐量）、gorm（ORM）、fasthttp（速度）。实战案例：构建RESTAPI（Fiber），与数据库交互（gorm）。选择框架：性能关键选fasthttp，灵活Web应用选Gin/Echo，数据库交互选gorm。

Java框架学习路线图：不同领域中的最佳实践 Jun 05, 2024 pm 08:53 PM

针对不同领域的Java框架学习路线图：Web开发：SpringBoot和PlayFramework。持久层：Hibernate和JPA。服务端响应式编程：ReactorCore和SpringWebFlux。实时计算：ApacheStorm和ApacheSpark。云计算：AWSSDKforJava和GoogleCloudJava。

Golang框架学习过程中常见的误区有哪些？ Jun 05, 2024 pm 09:59 PM

Go框架学习的误区有以下5种：过度依赖框架，限制灵活性。不遵循框架约定，代码难维护。使用过时库，带来安全和兼容性问题。过度使用包，混淆代码结构。忽视错误处理，导致意外行为和崩溃。

See all articles

CREATOR制造、使用工具，实现LLM「自我进化」

研究背景

CREATOR 研究框架

CREATOR 实验评测

工具创造的其他优势

总结

文章主要作者

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题