打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

PHPz

Jun 13, 2024 pm 06:25 PM

產業 AI通用智能體 AgentGym

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

AI通用智能體的自我進化能力，並非遙不可及。

LLM-based Agent，已經不再需要人類監督者的幫助，開始實現「自我進化」！

這個智能體在學習了專家軌跡以後，獲得了基礎的通用能力，能夠在更廣泛、更真實的未知環境與任務上進行探索和學習，在外部的回饋下不斷提升自己。

最近，復旦大學語言與視覺團隊推出的AgentGym 平台，打通了大語言模型智能體「資料取樣、訓練微調、自我進化、能力評測”全流程。基於該平台提出的 AgentEvol 演算法，首次探討了通用智能體的自我進化能力，並在多項智能體任務上表現非凡，與 GPT-4、Claude 等 SOTA 模型比肩。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

論文連結：https://arxiv.org/abs/2406.04151
#AgentGym程式碼倉庫：https://github.com/WooooDyy/AgentGym

研究背景

#開發一個能夠解決和適應複雜工作的多任務通用智能體，一直是人工智慧社群長久以來的重要目標。

類似於人類的學習過程，通用智能體首先透過模仿，開始學習最基礎的知識和技能。

隨著基礎能力的掌握，我們不僅期望智能體可以透過與不同環境的互動，持續學習並適應許多先前未見的任務，還能從自身經驗以及外部回饋中汲取豐富的智慧，發展出一定程度的泛化能力（圖1）。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

^{圖1：基礎通用智能體實現「自我進化」的示意圖。這個智能體首先在人類監督下進行行為克隆，然後在不同的外在環境和任務中進行探索和學習，以實現自我進化。}

大語言模型憑藉其卓越的通用能力，被視為建構此類智能體的重要基礎之一。目前的研究領域正沿著兩個主要方向進行探索，以推動智能體技術的進一步發展。

依賴人類監督的行為複製（Behavior Cloning）方法，需要智能體逐步模仿專家提供的軌跡資料。這種方法雖然有效，但由於標註資源的限制，難以擴展。 對環境的探索也較為有限，容易遇到效能或泛化性的瓶頸。
允許智能體根據環境回饋，不斷提高能力的自我改進（Self Improving）方法，減少了對人類監督的依賴，同時豐富對環境的探索深度。然而，它們通常在特定任務的孤立環境中進行訓練，得到一群無法有效泛化的專家智能體。

面對上述挑戰，作者首次探討了一個具備基礎能力的通用智能體——在多種環境和任務中－自我進化的潛力。

為了實現這一研究目標，作者確定了推動智能體自我進化的「三大關鍵支柱」，這些支柱是研究的核心要素。

多樣化的環境和任務，允許智能體動態且全面地進行互動、訓練，而不是被局限於某個孤立的環境。
一個適當大小的軌跡資料集，幫助智能體配備基本的指令遵循能力和基礎任務知識。
一種有效且可擴展的演化演算法，激發智能體在不同難度環境中的泛化能力。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

^{圖2：AgentGym 平台示意圖。平台共涵蓋了 14 個跨越不同類別的環境，每個環境都作為 HTTP 服務部署。客戶端為智能體提供封裝好的統一接口，方便與環境互動。透過 AgentEvol 方法，作者探索了智能體在不同環境和任務中的自我進化。此外，平台提供了測試集 AgentEval 對智能體進行全面的能力評估。}

圍繞這三大支柱，作者的研究工作體現在以下幾個方面：

#“AgentGym”，一個包含14 個具體環境，89 個具體任務類型的互動平台（圖2），為大語言模型智能體訓練提供支援。該平台基於 HTTP 服務，為不同環境提供了一個統一的 API 接口，支援軌跡採樣、多輪互動、線上評估和即時回饋。
“AgentEval”，一個具有挑戰性的智能體測試基準。「AgentTraj」和「AgentTraj-L」，透過指令增強和眾包 / SOTA 模型標註建構的專家軌跡資料集。經過格式統一和資料過濾，幫助智能體學習基本的複雜任務解決能力。
“AgentEvol”，一種激發智能體跨環境自我進化的全新演算法。此演算法的動機在於，期望智能體在面對先前未見的任務和指令時進行自主探索，從新的經驗中學習與最佳化。

AgentGym 平台，是一個全新的，支援大語言模型智能體軌跡取樣、自我進化、能力評測的框架，特點是提供多樣、即時、並發和統一格式的回饋。旨在幫助人工智慧社群更方便地探索具備通用能力的 LLM-based 智能體。

AgentGym－互動式訓練與評測整合的智能體平台

AgentGym 整合了多種環境、豐富的軌跡數據和全面的基準測試。它透過統一的環境操作介面，簡化了環境配置過程。具體而言，AgentGym 擁有以下特點：

##的多樣化環境：

## AgentGym 包含14 種環境和89 項任務，涵蓋了網頁導航、文字遊戲、具身控制、工具使用和程式碼等類別。無論是致力於建構 Task-specific Agent，或是通用型的 Generally-capable Agent，AgentGym 框架都能提供對應的支援。

其中，每個環境

獨立部署

，避免了不同環境間的依賴衝突，確保了平台的可擴展性。例如，WebShop 環境，一個用於網路購物任務的互動式平台，僅透過一行指令，即可輕鬆完成部署。

資料驅動：

#AgentGym 的軌跡資料採用了統一的ReAct 格式，此格式透過「Thought-Action」對將推理步驟和行動序列結合，圖2左上方提供了一個軌跡資料的範例。

平台透過廣泛收集和增強指令，建構了具有

20509

條指令的集合，並從中挑選出1160 條具有多樣性的指令，建構了基準測試集 AgentEval，用於全面評估基於LLM 的智能體。

同時，作者使用GPT-4-Turbo 和眾包標註收集軌跡數據，並基於獎勵或正確性嚴格篩選，建構了

6130

條高品質軌跡的集合AgentTraj。為了展現行為克隆方法的表現潛力，研究者進一步擴展，得到包含 14485 條軌跡的 AgentTraj-L。

^{圖3：AgentGym 平台 14 種環境中的統計資料（涵蓋任務類型數量、指令圖3：AgentGym 平台 14 種環境中的統計資料（涵蓋任務類型數量、指令圖3：AgentGym 平台 14 種環境中的統計資料（涵蓋任務類型數量、指令圖3：AgentGym 平台 14 種環境的統計資料集數規模集數。}

模組化的架構與高效的Pipeline：

AgentGym 平台採用模組化設計，開發者可以輕鬆新增或更改環境。環境部署在不同的伺服器（EnvServers）上，透過 HTTP 服務實現靈活、高效的互動。客戶端（EnvClients）封裝了與環境互動所需的函數，提供了對應的操作介面。

而核心元件AgentController 作為智能體和環境的中間媒介，提供了優化智能體策略的訓練器（Trainer），以及支援多環境的效能評估器（ Evaluator）。統一的操作介面簡化了智能體與環境的交互，使用戶能夠專注於演算法優化和智能體訓練。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

^{圖4中：AgentGym 平台架構。}

獨特優勢：

與其他框架相比，AgentGym 的優點在於它不僅提供了廣泛的環境集合，還透過互動平台為智能體提供即時的環境回饋，支援智能體的訓練與評估。同時，AgentGym 支援在多個環境中實現智能體的「全面進化」，這大大增強了智能體的泛化能力，使其在不同任務和環境中都能表現出色。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

^{圖中：AgentGym 與其他代理架構的比較進行比較。}

AgentEvol—通用智能體演化演算法

基於AgentGym 套件，研究者可以輕鬆地對智能體進行取樣、訓練與評測。而復旦語言與視覺團隊為了探究具有通用智能體的在「自我進化」的潛力，提出了 AgentEvol 演算法（圖6），幫助智能體在多環境、多任務下實現了各項能力的提升。這項演算法的核心思想是讓智能體透過探索和學習來提升自己的效能，特別是在面對先前未見過的任務和指令時。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

^{圖6：AgentEvol 演算法架構為}##Egent##Agent#vol:#Agent#Agent#vol:#Agent#Agent#Vagent一樣的軌跡上所收集到的軌跡上。透過「行為克隆（behavioral cloning）」的形式訓練一個「基礎通用智能體（base generally-capable agent）」，使其具備基本的指令遵循能力和必要的先驗知識。在這個過程中，智能體一步一步地模仿專家的軌跡，包括思考過程（thought）和行動（action）。

接著，這個基礎通用智能體與不同的環境交互，完成自我進化。它面對來自不同環境的、更多樣化的指令與查詢（Instructions and queries），逐漸提升自己完成各項任務的能力。

這個過程受到機器學習中 RL as Inference 方法的啟發，它將互動強化學習視為一個機率推斷問題（具體推導與解釋見原文）。這種方法與傳統的強化學習方法不同，它不是直接尋找最大化期望回報的軌跡，而是先定義一個關於軌蹟的最優策略分佈，然後透過迭代過程來優化這個分佈。

具體而言，該過程包括兩個交替進行的步驟：

「
探索步驟（Exploration Step

）」：在這一步驟中，智能體在當前策略下與環境進行交互，產生新的軌跡並評估其獎勵，形成一個估計的最優策略分佈。具體而言，智能體與多個環境進行交互，產生一系列的行為軌跡。每條軌跡都是智能體根據當前策略與環境互動的產物，包括智能體的思考，智能體的行為，以及環境的觀測。然後，環境端會根據軌跡與任務目標的匹配程度，為每個軌跡給予獎勵訊號。

「學習步驟（Learning Step）
」：在這一步驟中，智能體會根據估計的最優策略分佈更新參數，使其更接近最優策略。具體而言，智能體利用在探索步驟中收集到的軌跡與獎勵數據，透過一個基於軌跡獎勵加權的最佳化目標函數來優化自己。請注意，在學習步驟中，為了減少過擬合，作者優化的總是“基礎通用智能體”，而不是上一輪優化得到的智能體。

實驗介紹

#任務概述：

#本研究透過AgentGym 框架對智能體進行了一系列的跨環境探索和演化實驗。實驗旨在評估基礎智能體在

多樣化環境

中進行自我探索和進化的能力。為此，作者採用更廣泛的指令集來擴展智能體的探索空間。

主要結果：

#在11 個不同環境中，使用AgentTraj 資料集訓練的智能體

展現了良好的基礎互動能力。

進一步，在更大的AgentTraj-L 資料集上實作行為克隆，智能體

實現了顯著的效能提升。

而本文提出的AgentEvol 方法，儘管在初始階段

僅基於有限的專家資料

，但透過
交替的探索和學習步驟

，智能體能夠在未見過的探索集上做出正確決策，實現自我進化。在多個智能體任務上，AgentEvol 方法超越了

和其他 SOTA 模型。打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

這項發現揭示了智能體具有適應和解決更複雜任務的潛力，為開發更高階的通用智能體提供了堅實的基礎。

^{圖7：多任務環境下各種模型和智能體的性能對比}

分析實驗：

團隊也從四個角度展開了一系列的消融實驗：(1) 資料合併策略；(2) 演化迭代次數；(3) 探索範圍；(4) 採樣次數。

實驗發現，將智能體目前產生的軌跡與初始專家軌跡集合並，能帶來更穩定的效能提升。相對地，利用前一迭代的探索軌跡，可能導致過擬合，出現表現的波動。

隨著演化過程中迭代次數 M 增加，效能提升，但最終會趨於穩定和收斂。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

^{圖8中使用資料符號與迭代次數的實驗}

例如例如 X

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym 例如類別！

#在AgentEvol 探索過程中，透過對每個指令執行取樣，產生多樣化的軌跡^{促進了智慧體的學習。}

而將智能體的探索範圍限制在

已知的指令集內

，也就是進行

有限空間

的探索，可能會限制AgentEvol 的性能進一步提升。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

圖9：取樣數目與範圍範圍的消融實驗

此外，研究者也正在不同的基座模型上進行實驗。結果表明， AgentEvol 方法在不同規模的模型上均表現出色。

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

## 圖10：不同尺寸上的表現比較中的表現比較

文章也探討了在通用智能體的演化過程中，成功與失敗的經驗軌跡是否都能發揮作用。

實驗採用直接偏好最佳化 DPO (Direct Preference Optimization) 方法，基於探索過程中的「成功-失敗」軌跡進行訓練。結果表明，智能體能夠在多任務的場景下，從錯誤經驗中學習，但其整體性能仍然不如 AgentEvol 方法。

############ 圖11：基於成功與失敗軌跡上的DPO 訓練顯示### 圖11：基於成功與失敗軌跡上的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖11：基於成功與失敗軌跡的DPO 訓練####圖。 ######復旦大學自然語言處理實驗室，是由復旦大學首席教授吳立德先生創建，是我國最早進行自然語言處理和資訊檢索研究的實驗室之一。在國家自然科學基金、國家863/973/重點研發計劃、省部會基金的支持下，發表了大量高水準國際期刊和會議論文。實驗室在學術帶頭人黃萱菁教授的帶領下，圍繞大模型前沿方向，在語言大模型、多模態大模型、大模型對齊、智能體等方面開展系統深入的研究，產生了MOSS、眸思等一系列具有較大學術影響的工作，並與國內外科技領導者建立密切的合作關係。 ############復旦大學視覺與學習實驗室由薑育剛教授創立，現有教師7人，在讀碩博士研究生80餘人，已畢業研究生30餘人。 ######實驗室主要從事電腦視覺和多模態人工智慧理論與應用的研究，###旨在研發準確、快速、可擴展和值得信賴的AI 演算法，讓機器具備像人一樣的學習、感知和推理的能力。實驗室承接了科技創新2030—「新一代人工智慧」重大計畫、國家自然科學基金重點基金、國家重點研發計畫課題、上海市科技創新行動計畫等國家和地方的重要科學研究項目，以及華為、騰訊、百度等企業的技術攻關需求。 ############

以上是打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1677

CakePHP 教程

1430

Laravel 教程

1333

PHP教程

1278

C# 教程

1257

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿：Agent Day，強化學習之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展，人工智慧成為了推動社會進步的重要力量。在這個時代，我們有幸見證並參與分散式人工智慧（DistributedArtificialIntelligence，DAI）的創新與應用。分散式人工智慧是人工智慧領域的重要分支，這幾年引起了越來越多的關注。基於大型語言模型（LLM）的智能體（Agent）異軍突起，透過結合大模型的強大語言理解和生成能力，展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型，成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

打通智能體「自我進化」全流程！復旦推出通用智能體平台AgentGym

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題