可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了-人工智能-PHP中文网

首页

科技周边

人工智能

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

王林

Jul 22, 2024 pm 02:25 PM

工程 ai agent 波形智能

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文主要作者来自波形智能、浙江大学、和北京航空航天大学。共同一作中，周王春澍是波形智能的联合创始人和 CTO，欧翌昕是浙江大学硕士二年级，丁盛为为北京航空航天大学四年级本科生。文章的通讯作者为周王春澍和姜昱辰，姜昱辰是波形智能的联合创始人和 CEO。

随着各类大模型 API 的迭代以及各类 AI Agent 框架的开源，基于大模型的智能体在学术界和工业界收获了广泛的关注、研究、和应用。

尽管基于大模型的智能体 (AI Agent) 在很多场景都取得了不错的效果，并且在一些场景下已经能够实际落地应用，AI Agent 的研究和开发的进展仍然局限于 “expert-centric”，或者说 “engineering-centric” 的范式中。也就是说，现在的 Agent 的创建和调优过程还是几乎完全依赖人类专家 (算法工程师) 的人力和经验来设计智能体的 promtps, tools，和 workflow。这样的过程费时费力，并且注定了无法使用海量数据对智能体的这些符号化元素进行学习和训练。而大部分智能体依赖于闭源的 API 调用，无法对大模型基座本身进行优化，即使使用开源大模型，对模型基座本身的优化也在大部分 AI 智能体的应用场景中受到资源、算力、稳定性等原因而无法实际进行。因此现在的智能体还处于 “专家系统” 的发展阶段。

众所周知，神经网络成为机器学习 / 人工智能的基础范式的重要原因正是因为可以高效地使用海量数据进行训练和优化，而不需要手工设计复杂的结构和学习算法。因此，来自波形智能的研究人员们认为，AI Agent 从以专家经验为核心 (expert-centric) 到以数据为核心 (data-centric) 的转变，将会是基于大模型的智能体的一个重要发展方向。

为了实现这个目标，来自波形智能的研究团队借鉴连接主义训练神经网络 (connectionist learning) 的基本方式，即反向传播和梯度下降，将 AI Agent 和神经网络进行类比，使用文本和大模型建模损失函数、梯度、和优化器，模拟反向传播和梯度下降算法，实现对 Agent 的端到端的符号化训练算法，构建了一套可以对 AI 智能体进行端到端训练的算法框架，代码已经开源在 GitHub。

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

论文地址：https://arxiv.org/pdf/2406.18532
代码仓库：https://github.com/aiwaves-cn/agents

具体来说，团队首先将基于大模型的智能体解构为三个主要元素，即 prompts, tools, 和 agent pipeline (workflow)。接着，框架中将一个 Agent 系统看作是一个 “符号化” 神经网络，将 Agent workflow 中的每一个 node 看作是网络中的一个 layer，而将每个节点中的 prompts 和 tools 看作是这个 layer 的 weights，智能体的 workflow/pipeline 则可以看作是网络的计算图。这样下来，智能体系统可以看作是一个权重从数字 / 张量空间变成离散符号空间 (文字，代码都是符号化的表示) 的神经网络，而这种网络的训练自然也就可以参考传统神经网络的优化方式，即反向传播和梯度下降。

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

^{图 1: Agent Symbolic Learning 框架示意图}

要使传统的反向传播和梯度下降能够处理符号化的权重空间，agent symbolic learning 框架中通过文本和大模型 + 提示词的方式建模了损失，损失函数，反向传播的流程，梯度，以及基于梯度的优化器。具体来说，前向传播过程中，框架会将每一层的输入、权重、和输出都保存在计算图中。接下来，通过大模型 + 提示词的方式，在提示词中结合当前样本的输入，输出，和整体任务的描述，之后由大语言模型输出对当前样本任务完成情况的评价和总结。得到的文本形式的评价 / 总结，正如神经网络中的 loss 一样，用来衡量任务完成的好坏，研究团队将其称为 “文本形式的损失”，即 language-based loss。

之后，该研究通过大语言模型和精心设计的提示词工程，来生成智能体流程中对最后一个节点的 “反思”。反思中包括模型的输出应该怎样变化才能更符合要求，以及提示词和工具调用应该如何优化才能使输出朝这样的方向发生变化。这一内容和神经网络优化中梯度的作用刚好一致，都是包含了参数应该如何调整才能最小化整个模型的损失的信息，因此研究团队将这样的反思称作 “文本形式的梯度”，即 language-based gradient。

接下来要做的就是从后向前，得到每一层的梯度，这对于神经网络的优化至关重要。受到神经网络中基于链式法则的公式的反向传播的启发，波形智能的研究人员通过文本和大模型，用一套精心设计的 prompt 来模拟了传统神经网络优化的链式法则。具体来说，这套 prompts 让大模型基于上一层的梯度信息 (即对上一层执行任务的反思) 以及本层的输入、输出、以及权重 (这些输入和反向传播公式中的参数完全对应)，输出对当前节点的 prompt/tool usage 的反思，即当前层的 language-based gradient。这样基于文本的反向传播的方案使得该研究能够得到一个包含多个节点和复杂 workflow 的智能体中每一节点 / 层的参数的梯度，也就可以直接优化每一个 prompt 和 tool 对整个智能体性能的作用，从而实现 end-to-end 的 joint optimization。

最后，得到了每组参数的 language-based gradient 之后，框架中使用基于大模型的 optimizer，使用精心设计的 prompt，以每一层的提示词和工具调用，以及基于文本的梯度作为输入，输出优化过后的 prompts 和 tools，从而实现对智能体参数的更新。

除此之外，框架中还支持了对网络结构，即 agent workflow 的优化。具体来说，框架中将 agent workflow 以特定的编程语言进行表示，这样就将智能体网络的 “计算图” 也处理成了符号化的权重。之后通过一个单独设计的基于大模型的优化器，以当前智能体的工作流和工作流中的各个节点的文本形式的梯度为输入来对智能体的工作流进行更新。这在神经网络中训练中可以类比自动网络结构搜索相关的研究。

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

^{图 2: Agent Symbolic Learning 算法流程}

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

^{图 3 大模型评测任务上的实验结果}

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

^{图4 智能体级别评测任务的实验结果}

波形智能的研究人员在大模型和智能体的一系列benchmark 上对该算法进行了评估，如图3 和图4 所示，agent symbolic learning 相比DSpy 和传统的没有学习能力的智能体框架相比，在各类任务上都有了明显的提升，在一些任务上什至使用GPT-3.5 也能和其他智能体框架使用GPT-4 的表现类似。而简单的对智能体中每一个节点中的提示词使用局部的基于大语言模型的提示词自动优化算法 (AutoPE) 则无法取得很明显的效果。另外，如图5 所示，该算法在创意写作任务中，从初始的只基于一个提示词进行写作的单节点智能体，自主进化到了支持写作+ 编辑的工作流，并且将写作节点的提示词进行了更新和优化。

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

^{图5 Agent Symbolic Learning 框架学习效果展示(以创意写作任务为例)}

波形智能的研究团队介绍了Agent Symbolic Learning 的两种应用场景。首先，该框架可以用于开发者或研究人员创建和调优智能体系统中。像神经网络的训练一样，开发者和研究人员可以对指定的任务收集（或者使用框架中提供的自动生成）大量的样本，之后使用该框架在大量数据上完成“data-centric” 的智能体的训练和优化，在之后像普通智能体的部署一样，在产品生产环境中以静态的方式部署优化过后的智能体。

除此之外，该框架的另一个重要应用场景是支持能够在环境 / 交互中自主进化的 Agent。具体来说，因为该训练框架本身只需要调用大模型的能力而不需要复杂的基于GPU 的训练和部署，因此一个Agent 可以将该训练框架作为其自身可以调用的一个工具，通过在环境中探索或者和人类进行交互的过程中，不断收集新的训练样本，定期或者主动调用智能体训练的算法工具，对自身的prompts, tools, 和workflow 进行更新。波形智能在 AIWaves Agents 的开源代码库中也支持了这样的部署逻辑，实现了首个可以在被部署到实际产品和生产环境中之后，依然可以不断自主进化、自我迭代的智能体系统。

Agent Symbolic Learning 框架将AI Agent 视作由复杂workflow 中的prompts 和tools 连接而成的符号化“神经网络”，通过基于自然语言模拟反向传播和梯度下降，使得基于大模型的智能体可以自主对自身的“网络参数”，即prompts 和tools，以及“网络结构”，即agent workflow，进行优化，从而实现了能够高效利用大量数据和经验，进行“data-centric learning” 的智能体框架，让能够持续自主进化的智能体系统变成了可能。目前，该框架已经在波形智能的多个产品和应用中发挥作用，解决了 Agent 人工优化和评测困难的问题。为了推进“Data-centric Agent” 和“Agent Learning” 的发展和研究，波形智能的研究团队也将算法的全部代码开源，期待智能体领域学术界和工业界一起探索更多更有趣的算法和应用。

以上是可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1671

CakePHP 教程

1428

Laravel 教程

1331

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题