「以史为鉴,可以知兴替。」人类的进步史是一个不断吸取过去经验、推进能力边界的自我演化过程。我们从过去的失败中吸取教训,纠正错误;借鉴成功经验,提升效率和效果。这种自我进化贯穿生活方方面面:总结经验解决工作问题,利用规律预测天气,我们持续从过去学习和进化。
成功从过去的经验中提取知识并将其应用于未来的挑战,这是人类进化之路上重要的里程碑。那么在人工智能时代,AI 智能体是否也可以做到同样的事情呢?
近年来,GPT和LLaMA等语言模型展示了在解决复杂任务时的惊人能力。然而,虽然它们可以利用工具解决具体任务,但本质上缺乏对过去成功和失败经历的洞见和汲取。这就像一个只能完成特定任务的机器人,虽然在当前任务中表现出色,但面对新的挑战时却无法调用过去的经验提供帮助。因此,我们需要进一步发展这些模型,使其能够积累知识和经验,并将其应用于新的情境中。通过引入记忆和学习机制,我们可以使这些模型具备更全面的智能,能够在不同任务和情境中灵活应对,并从过去的经验中获得启示。这将使得语言模型更加强大和可靠,并有助于推动人工智能的发展。
针对这一难题,近期来自清华大学、香港大学、人民大学以及面壁智能的联合团队提出了一种全新的智能体自我演化策略:探索 - 固化 - 利用(Investigate-Consolidate-Exploit,ICE)。它旨在通过跨任务的自我进化来提升 AI 智能体的适应性和灵活性。其不仅能提升智能体处理新任务时的效率和效果,还能显著降低对智能体基座模型能力的需求。
这个策略的出现,确实开启了智能体自我进化的新篇章,也标志着我们朝着实现完全自主的智能体又迈进了一步。
智能体任务间经验迁移以实现自我进化概览图
当前的复杂智能体主要可分为任务规划和任务执行两个方面。在任务规划方面,智能体通过逻辑推理将用户需求分解并制定详细的目标策略。而在任务执行方面,智能体利用各种工具与环境进行交互,以完成相应的子目标。
为了更好地促进以往经验的重复利用,作者在该论文中首先将进化策略解耦为两个方面。具体地,作者以XAgent智能体架构中的树状任务规划结构和ReACT链式工具执行为例,分别详细介绍了ICE策略的实现方法。
智能体任务规划的 ICE 自我演化策略
对于任务规划,自我进化依照 ICE 被分为以下三个阶段:
智能体任务执行的 ICE 自我演化策略
任务执行的自我演化策略依然分为 ICE 三个阶段,其中:
作者在 XAgent 框架中对提出的 ICE 自我演化策略进行了测试,并总结了以下四点发现:
在探索 - 固化进行经验存储后,测试集任务在不同智能体 ICE 策略下的表现
同时,作者还进行了额外的消融实验:在存储经验逐渐增加的情况下,智能体的表现是否越来越好?答案是肯定的。从零经验,半经验,到满经验,基座模型的调用次数逐渐减少,而子任务完成度逐渐提升,同时复用率也有升高。这表明更多的过往经验能够更好地促进智能体执行,实现规模效应。
在不同经验存储量下,测试集任务表现的消融实验结果统计
畅想一下,在人人都能够部署智能体的世界中,成功经验的数量会随着智能体个体任务执行不断累积,而用户也可以将这些经验在云端中、社区里进行分享。这些经验将促使智能体不断汲取能力,自我进化,逐渐达到完全自主。我们向这样的时代又迈进了一步。
以上是向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」的详细内容。更多信息请关注PHP中文网其他相关文章!