打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym-人工智能-PHP中文网

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

AI通用智能体的自我进化能力，并非遥不可及。

LLM-based Agent，已经不再需要人类监督者的帮助，开始实现「自我进化」！

这个智能体在学习了专家轨迹以后，获得了基础的通用能力，能够在更广泛、更真实的未知环境与任务上进行探索和学习，在外部的反馈下不断提升自己。

最近，复旦大学语言与视觉团队推出的 AgentGym 平台，打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法，首次探索了通用智能体的自我进化能力，并在多项智能体任务上表现非凡，与 GPT-4、Claude 等 SOTA 模型比肩。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

论文链接：https://arxiv.org/abs/2406.04151
AgentGym代码仓库：https://github.com/WooooDyy/AgentGym

研究背景

开发一个能够解决和适应复杂工作的多任务通用智能体，一直是人工智能社区长久以来的重要目标。

类似于人类的学习过程，通用智能体首先通过模仿，开始学习最基础的知识和技能。

随着基础能力的掌握，我们不仅期望智能体可以通过与不同环境的交互，持续学习和适应许多先前未见的任务，还能从自身经验以及外部反馈中汲取丰富的智慧，发展出一定程度的泛化能力（图1）。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{图1：基础通用智能体实现「自我进化」的示意图。该智能体首先在人类监督下进行行为克隆，随后在不同的外部环境和任务中进行探索和学习，以实现自我进化。}

大语言模型凭借其卓越的通用能力，被视为构建此类智能体的重要基础之一。目前的研究领域正沿着两个主要方向进行探索，以推动智能体技术的进一步发展。

依赖于人类监督的行为克隆（Behavior Cloning）方法，需要智能体逐步模仿专家提供的轨迹数据。这种方法虽然有效，但由于标注资源的限制，难以扩展。对环境的探索也较为有限，容易遇到性能或泛化性的瓶颈。
允许智能体根据环境反馈，不断提高能力的自我改进（Self Improving）方法，减少了对人类监督的依赖，同时丰富对环境的探索深度。然而，它们通常在特定任务的孤立环境中进行训练，得到一批无法有效泛化的专家智能体。

面对上述挑战，作者首次探讨了一个具备基础能力的通用智能体——在多种环境和任务中——自我进化的潜力。

为了实现这一研究目标，作者确定了推动智能体自我进化的「三大关键支柱」，这些支柱是研究的核心要素。

多样化的环境和任务，允许智能体动态且全面地进行交互、训练，而不是被局限于某个孤立的环境。
一个适当大小的轨迹数据集，帮助智能体配备基本的指令遵循能力和基础任务知识。
一种有效且可扩展的进化算法，激发智能体在不同难度环境中的泛化能力。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{图2：AgentGym 平台示意图。平台共涵盖了 14 个跨越不同类别的环境，每个环境都作为 HTTP 服务部署。客户端为智能体提供封装好的统一接口，便于与环境互动。通过 AgentEvol 方法，作者探索了智能体在不同环境和任务中的自我进化。此外，平台提供了测试集 AgentEval 对智能体进行全面的能力评估。}

围绕这三大支柱，作者的研究工作体现在以下几个方面：

「AgentGym」，一个包含 14 种具体环境，89 种具体任务类型的交互平台（图2），为大语言模型智能体训练提供支持。该平台基于 HTTP 服务，为不同环境提供了一个统一的 API 接口，支持轨迹采样、多轮交互、在线评估和实时反馈。
「AgentEval」，一个具有挑战性的智能体测试基准。「AgentTraj」和「AgentTraj-L」，通过指令增强和众包 / SOTA 模型标注构建的专家轨迹数据集。经过格式统一和数据过滤，帮助智能体学习基本的复杂任务解决能力。
「AgentEvol」，一种激发智能体跨环境自我进化的全新算法。该算法的动机在于，期望智能体在面对先前未见的任务和指令时进行自主探索，从新的经验中进行学习与优化。

AgentGym 平台，是一个全新的，支持大语言模型智能体轨迹采样、自我进化、能力评测的框架，特点是提供多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地探索具备通用能力的 LLM-based 智能体。

AgentGym——交互式训练与评测一体化的智能体平台

AgentGym 集成了多种环境、丰富的轨迹数据和全面的基准测试。它通过统一的环境操作接口，简化了环境配置过程。具体而言，AgentGym 拥有以下特点：

多样化的环境：

AgentGym 包含 14 种环境和 89 项任务，涵盖了网页导航、文字游戏、具身控制、工具使用和代码等类别。无论是致力于构建 Task-specific Agent，还是通用型的 Generally-capable Agent，AgentGym 框架均能提供对应的支持。

其中，每个环境独立部署，避免了不同环境间的依赖冲突，确保了平台的可扩展性。例如，WebShop 环境，一个用于网络购物任务的交互式平台，仅通过一行命令，即可轻松完成部署。

数据驱动：

AgentGym 的轨迹数据采用了统一的 ReAct 格式，该格式通过「Thought-Action」对将推理步骤和行动序列结合，图 2左上方提供了一个轨迹数据的示例。

平台通过广泛收集和增强指令，构建了具有 20509 条指令的集合，并从中挑选出 1160 条具有多样性的指令，构建了基准测试集 AgentEval，用于全面评估基于 LLM 的智能体。

同时，作者使用 GPT-4-Turbo 和众包标注收集轨迹数据，并基于奖励或正确性严格筛选，构建了 6130 条高质量轨迹的集合 AgentTraj。为了展现行为克隆方法的性能潜力，研究者进一步扩展，得到包含 14485 条轨迹的 AgentTraj-L。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{圖3：AgentGym 平台 14 種環境中的統計資料（涵蓋任務類型數量、指令圖3：AgentGym 平台 14 種環境中的統計資料（涵蓋任務類型數量、指令圖3：AgentGym 平台 14 種環境中的統計資料（涵蓋任務類型數量、指令圖3：AgentGym 平台 14 種環境的統計資料集數規模集數。}

模組化的架構與高效的Pipeline：

AgentGym 平台採用模組化設計，開發者可以輕鬆新增或更改環境。環境部署在不同的伺服器（EnvServers）上，透過 HTTP 服務實現靈活、高效的互動。客戶端（EnvClients）封裝了與環境互動所需的函數，提供了對應的操作介面。

而核心元件AgentController 作為智能體和環境的中間媒介，提供了優化智能體策略的訓練器（Trainer），以及支援多環境的效能評估器（ Evaluator）。統一的操作介面簡化了智能體與環境的交互，使用戶能夠專注於演算法優化和智能體訓練。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{圖4中：AgentGym 平台架構。}

獨特優勢：

與其他框架相比，AgentGym 的優點在於它不僅提供了廣泛的環境集合，還透過互動平台為智能體提供即時的環境回饋，支援智能體的訓練與評估。同時，AgentGym 支援在多個環境中實現智能體的「全面進化」，這大大增強了智能體的泛化能力，使其在不同任務和環境中都能表現出色。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{圖中：AgentGym 與其他代理架構的比較進行比較。}

AgentEvol—通用智能體演化演算法

基於AgentGym 套件，研究者可以輕鬆地對智能體進行取樣、訓練與評測。而復旦語言與視覺團隊為了探究具有通用智能體的在「自我進化」的潛力，提出了 AgentEvol 演算法（圖6），幫助智能體在多環境、多任務下實現了各項能力的提升。這項演算法的核心思想是讓智能體透過探索和學習來提升自己的效能，特別是在面對先前未見過的任務和指令時。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{圖6：AgentEvol 演算法架構為}##Egent##Agent#vol:#Agent#Agent#vol:#Agent#Agent#Vagent一樣的軌跡上所收集到的軌跡上。透過「行為克隆（behavioral cloning）」的形式訓練一個「基礎通用智能體（base generally-capable agent）」，使其具備基本的指令遵循能力和必要的先驗知識。在這個過程中，智能體一步一步地模仿專家的軌跡，包括思考過程（thought）和行動（action）。

接著，這個基礎通用智能體與不同的環境交互，完成自我進化。它面對來自不同環境的、更多樣化的指令與查詢（Instructions and queries），逐漸提升自己完成各項任務的能力。

這個過程受到機器學習中 RL as Inference 方法的啟發，它將互動強化學習視為一個機率推斷問題（具體推導與解釋見原文）。這種方法與傳統的強化學習方法不同，它不是直接尋找最大化期望回報的軌跡，而是先定義一個關於軌蹟的最優策略分佈，然後透過迭代過程來優化這個分佈。

具體而言，該過程包括兩個交替進行的步驟：

「
探索步驟（Exploration Step

）」：在這一步驟中，智能體在當前策略下與環境進行交互，產生新的軌跡並評估其獎勵，形成一個估計的最優策略分佈。具體而言，智能體與多個環境進行交互，產生一系列的行為軌跡。每條軌跡都是智能體根據當前策略與環境互動的產物，包括智能體的思考，智能體的行為，以及環境的觀測。然後，環境端會根據軌跡與任務目標的匹配程度，為每個軌跡給予獎勵訊號。

「學習步驟（Learning Step）
」：在這一步驟中，智能體會根據估計的最優策略分佈更新參數，使其更接近最優策略。具體而言，智能體利用在探索步驟中收集到的軌跡與獎勵數據，透過一個基於軌跡獎勵加權的最佳化目標函數來優化自己。請注意，在學習步驟中，為了減少過擬合，作者優化的總是“基礎通用智能體”，而不是上一輪優化得到的智能體。

實驗介紹

#任務概述：

#本研究透過AgentGym 框架對智能體進行了一系列的跨環境探索和演化實驗。實驗旨在評估基礎智能體在

多樣化環境

中進行自我探索和進化的能力。為此，作者採用更廣泛的指令集來擴展智能體的探索空間。

主要結果：

#在11 個不同環境中，使用AgentTraj 資料集訓練的智能體

展現了良好的基礎互動能力。

進一步，在更大的AgentTraj-L 資料集上實作行為克隆，智能體

實現了顯著的效能提升。

而本文提出的AgentEvol 方法，儘管在初始階段

僅基於有限的專家資料

，但透過
交替的探索和學習步驟

，智能體能夠在未見過的探索集上做出正確決策，實現自我進化。在多個智能體任務上，AgentEvol 方法超越了

和其他 SOTA 模型。打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

這項發現揭示了智能體具有適應和解決更複雜任務的潛力，為開發更高階的通用智能體提供了堅實的基礎。

^{圖7：多任務環境下各種模型和智能體的性能對比}

分析實驗：

團隊也從四個角度展開了一系列的消融實驗：(1) 資料合併策略；(2) 演化迭代次數；(3) 探索範圍；(4) 採樣次數。

實驗發現，將智能體目前產生的軌跡與初始專家軌跡集合並，能帶來更穩定的效能提升。相對地，利用前一迭代的探索軌跡，可能導致過擬合，出現表現的波動。

隨著演化過程中迭代次數 M 增加，效能提升，但最終會趨於穩定和收斂。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

^{圖8中使用資料符號與迭代次數的實驗}

例如例如 X

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym 例如類別！

#在AgentEvol 探索過程中，透過對每個指令執行取樣，產生多樣化的軌跡^{促進了智慧體的學習。}

而將智能體的探索範圍限制在

已知的指令集內

，也就是進行

有限空間

的探索，可能會限制AgentEvol 的性能進一步提升。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

圖9：取樣數目與範圍範圍的消融實驗

此外，研究者也正在不同的基座模型上進行實驗。結果表明， AgentEvol 方法在不同規模的模型上均表現出色。

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

## 圖10：不同尺寸上的表現比較中的表現比較

文章也探討了在通用智能體的演化過程中，成功與失敗的經驗軌跡是否都能發揮作用。

實驗採用直接偏好最佳化 DPO (Direct Preference Optimization) 方法，基於探索過程中的「成功-失敗」軌跡進行訓練。結果表明，智能體能夠在多任務的場景下，從錯誤經驗中學習，但其整體性能仍然不如 AgentEvol 方法。

############ 圖11：基於成功與失敗軌跡上的DPO 訓練顯示### 圖11：基於成功與失敗軌跡上的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖。 ######復旦大學自然語言處理實驗室，是由復旦大學首席教授吳立德先生創建，是我國最早進行自然語言處理和資訊檢索研究的實驗室之一。在國家自然科學基金、國家863/973/重點研發計劃、省部會基金的支持下，發表了大量高水準國際期刊和會議論文。實驗室在學術帶頭人黃萱菁教授的帶領下，圍繞大模型前沿方向，在語言大模型、多模態大模型、大模型對齊、智能體等方面開展系統深入的研究，產生了MOSS、眸思等一系列具有較大學術影響的工作，並與國內外科技領導者建立密切的合作關係。 ############復旦大學視覺與學習實驗室由薑育剛教授創立，現有教師7人，在讀碩博士研究生80餘人，已畢業研究生30餘人。 ######實驗室主要從事電腦視覺和多模態人工智慧理論與應用的研究，###旨在研發準確、快速、可擴展和值得信賴的AI 演算法，讓機器具備像人一樣的學習、感知和推理的能力。實驗室承接了科技創新2030—「新一代人工智慧」重大計畫、國家自然科學基金重點基金、國家重點研發計畫課題、上海市科技創新行動計畫等國家和地方的重要科學研究項目，以及華為、騰訊、百度等企業的技術攻關需求。 ############

以上是打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym的详细内容。更多信息请关注PHP中文网其他相关文章！