AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
LLM-based Agent,已經不再需要人類監督者的幫助,開始實現「自我進化」! 這個智能體在學習了專家軌跡以後,獲得了基礎的通用能力,能夠在更廣泛、更真實的未知環境與任務上進行探索和學習,在外部的回饋下不斷提升自己。 最近,復旦大學語言與視覺團隊推出的AgentGym 平台,打通了大語言模型智能體「資料取樣、訓練微調、自我進化、能力評測”全流程。基於該平台提出的 AgentEvol 演算法,首次探討了通用智能體的自我進化能力,並在多項智能體任務上表現非凡,與 GPT-4、Claude 等 SOTA 模型比肩。
- 論文連結:https://arxiv.org/abs/2406.04151
- #AgentGym程式碼倉庫:https://github.com/WooooDyy/AgentGym
#開發一個能夠解決和適應複雜工作的多任務通用智能體,一直是人工智慧社群長久以來的重要目標。 類似於人類的學習過程,通用智能體首先透過模仿,開始學習最基礎的知識和技能。 隨著基礎能力的掌握,我們不僅期望智能體可以透過與不同環境的互動,持續學習並適應許多先前未見的任務,還能從自身經驗以及外部回饋中汲取豐富的智慧,發展出一定程度的泛化能力(圖1)。 #圖1:基礎通用智能體實現「自我進化」的示意圖。這個智能體首先在人類監督下進行行為克隆,然後在不同的外在環境和任務中進行探索和學習,以實現自我進化。 大語言模型憑藉其卓越的通用能力,被視為建構此類智能體的重要基礎之一。目前的研究領域正沿著兩個主要方向進行探索,以推動智能體技術的進一步發展。
- 依賴人類監督的行為複製(Behavior Cloning)方法,需要智能體逐步模仿專家提供的軌跡資料。這種方法雖然有效,但由於標註資源的限制,難以擴展。 對環境的探索也較為有限,容易遇到效能或泛化性的瓶頸。
- 允許智能體根據環境回饋,不斷提高能力的自我改進(Self Improving)方法,減少了對人類監督的依賴,同時豐富對環境的探索深度。然而,它們通常在特定任務的孤立環境中進行訓練,得到一群無法有效泛化的專家智能體。
面對上述挑戰,作者首次探討了一個具備基礎能力的通用智能體——在多種環境和任務中-自我進化的潛力。 為了實現這一研究目標,作者確定了推動智能體自我進化的「三大關鍵支柱」,這些支柱是研究的核心要素。
- 多樣化的環境和任務,允許智能體動態且全面地進行互動、訓練,而不是被局限於某個孤立的環境。
- 一個適當大小的軌跡資料集,幫助智能體配備基本的指令遵循能力和基礎任務知識。
- 一種有效且可擴展的演化演算法,激發智能體在不同難度環境中的泛化能力。
圖2:AgentGym 平台示意圖。平台共涵蓋了 14 個跨越不同類別的環境,每個環境都作為 HTTP 服務部署。客戶端為智能體提供封裝好的統一接口,方便與環境互動。透過 AgentEvol 方法,作者探索了智能體在不同環境和任務中的自我進化。此外,平台提供了測試集 AgentEval 對智能體進行全面的能力評估。 圍繞這三大支柱,作者的研究工作體現在以下幾個方面:
- #“AgentGym”,一個包含14 個具體環境,89 個具體任務類型的互動平台(圖2),為大語言模型智能體訓練提供支援。該平台基於 HTTP 服務,為不同環境提供了一個統一的 API 接口,支援軌跡採樣、多輪互動、線上評估和即時回饋。
- “AgentEval”,一個具有挑戰性的智能體測試基準。 「AgentTraj」和「AgentTraj-L」,透過指令增強和眾包 / SOTA 模型標註建構的專家軌跡資料集。經過格式統一和資料過濾,幫助智能體學習基本的複雜任務解決能力。
- “AgentEvol”,一種激發智能體跨環境自我進化的全新演算法。此演算法的動機在於,期望智能體在面對先前未見的任務和指令時進行自主探索,從新的經驗中學習與最佳化。
AgentGym 平台,是一個全新的,支援大語言模型智能體軌跡取樣、自我進化、能力評測的框架,特點是提供多樣、即時、並發和統一格式的回饋。旨在幫助人工智慧社群更方便地探索具備通用能力的 LLM-based 智能體。 AgentGym-互動式訓練與評測整合的智能體平台 AgentGym 整合了多種環境、豐富的軌跡數據和全面的基準測試。它透過統一的環境操作介面,簡化了環境配置過程。具體而言,AgentGym 擁有以下特點:
## AgentGym 包含14 種環境和89 項任務,涵蓋了網頁導航、文字遊戲、具身控制、工具使用和程式碼等類別。無論是致力於建構 Task-specific Agent,或是通用型的 Generally-capable Agent,AgentGym 框架都能提供對應的支援。 獨立部署
,避免了不同環境間的依賴衝突,確保了平台的可擴展性。例如,WebShop 環境,一個用於網路購物任務的互動式平台,僅透過一行指令,即可輕鬆完成部署。 資料驅動:
#AgentGym 的軌跡資料採用了統一的ReAct 格式,此格式透過「Thought-Action」對將推理步驟和行動序列結合,圖2左上方提供了一個軌跡資料的範例。 20509
條指令的集合,並從中挑選出1160 條具有多樣性的指令,建構了基準測試集 AgentEval,用於全面評估基於LLM 的智能體。
同時,作者使用GPT-4-Turbo 和眾包標註收集軌跡數據,並基於獎勵或正確性嚴格篩選,建構了 6130
條高品質軌跡的集合AgentTraj。為了展現行為克隆方法的表現潛力,研究者進一步擴展,得到包含 14485 條軌跡的 AgentTraj-L。 圖3:AgentGym 平台 14 種環境中的統計資料(涵蓋任務類型數量、指令 圖3:AgentGym 平台 14 種環境中的統計資料(涵蓋任務類型數量、指令 圖3:AgentGym 平台 14 種環境中的統計資料(涵蓋任務類型數量、指令 圖3:AgentGym 平台 14 種環境的統計資料集數規模集數。 AgentGym 平台採用模組化設計,開發者可以輕鬆新增或更改環境。環境部署在不同的伺服器(EnvServers)上,透過 HTTP 服務實現靈活、高效的互動。客戶端(EnvClients)封裝了與環境互動所需的函數,提供了對應的操作介面。 而核心元件AgentController 作為智能體和環境的中間媒介,提供了優化智能體策略的訓練器(Trainer),以及支援多環境的效能評估器( Evaluator)。統一的操作介面簡化了智能體與環境的交互,使用戶能夠專注於演算法優化和智能體訓練。 與其他框架相比,AgentGym 的優點在於它不僅提供了廣泛的環境集合,還透過互動平台為智能體提供即時的環境回饋,支援智能體的訓練與評估。同時,AgentGym 支援在多個環境中實現智能體的「全面進化」,這大大增強了智能體的泛化能力,使其在不同任務和環境中都能表現出色。 圖 中:AgentGym 與其他代理架構的比較進行比較。 基於AgentGym 套件,研究者可以輕鬆地對智能體進行取樣、訓練與評測。而復旦語言與視覺團隊為了探究具有通用智能體的在「自我進化」的潛力,提出了 AgentEvol 演算法(圖6),幫助智能體在多環境、多任務下實現了各項能力的提升。這項演算法的核心思想是讓智能體透過探索和學習來提升自己的效能,特別是在面對先前未見過的任務和指令時。 # 圖6:AgentEvol 演算法架構為##Egent##Agent#vol:#Agent#Agent#vol:#Agent#Agent#Vagent一樣的軌跡上所收集到的軌跡上。透過「行為克隆(behavioral cloning)」的形式訓練一個「基礎通用智能體(base generally-capable agent)」,使其具備基本的指令遵循能力和必要的先驗知識。在這個過程中,智能體一步一步地模仿專家的軌跡,包括思考過程(thought)和行動(action)。 接著,這個基礎通用智能體與不同的環境交互,完成自我進化。它面對來自不同環境的、更多樣化的指令與查詢(Instructions and queries),逐漸提升自己完成各項任務的能力。 這個過程受到機器學習中 RL as Inference 方法的啟發,它將互動強化學習視為一個機率推斷問題(具體推導與解釋見原文)。這種方法與傳統的強化學習方法不同,它不是直接尋找最大化期望回報的軌跡,而是先定義一個關於軌蹟的最優策略分佈,然後透過迭代過程來優化這個分佈。 )」:在這一步驟中,智能體在當前策略下與環境進行交互,產生新的軌跡並評估其獎勵,形成一個估計的最優策略分佈。具體而言,智能體與多個環境進行交互,產生一系列的行為軌跡。每條軌跡都是智能體根據當前策略與環境互動的產物,包括智能體的思考,智能體的行為,以及環境的觀測。然後,環境端會根據軌跡與任務目標的匹配程度,為每個軌跡給予獎勵訊號。
-
」:在這一步驟中,智能體會根據估計的最優策略分佈更新參數,使其更接近最優策略。具體而言,智能體利用在探索步驟中收集到的軌跡與獎勵數據,透過一個基於軌跡獎勵加權的最佳化目標函數來優化自己。請注意,在學習步驟中,為了減少過擬合,作者優化的總是“基礎通用智能體”,而不是上一輪優化得到的智能體。
透過交替探索和學習步驟,AgentEvol 演算法逐步優化智能體,顯著提升其在多環境下的能力,實現「自我進化」的目標。
實驗介紹
#任務概述:
#本研究透過AgentGym 框架對智能體進行了一系列的跨環境探索和演化實驗。實驗旨在評估基礎智能體在多樣化環境
中進行自我探索和進化的能力。為此,作者採用更廣泛的指令集來擴展智能體的探索空間。
主要結果:
#在11 個不同環境中,使用AgentTraj 資料集訓練的智能體展現了良好的基礎互動能力。
進一步,在更大的AgentTraj-L 資料集上實作行為克隆,智能體 實現了顯著的效能提升。
而本文提出的AgentEvol 方法,儘管在初始階段僅基於有限的專家資料
,智能體能夠在未見過的探索集上做出正確決策,實現自我進化。在多個智能體任務上,AgentEvol 方法超越了
和其他 SOTA 模型。 這項發現揭示了智能體具有適應和解決更複雜任務的潛力,為開發更高階的通用智能體提供了堅實的基礎。 團隊也從四個角度展開了一系列的消融實驗:(1) 資料合併策略;(2) 演化迭代次數;(3) 探索範圍;(4) 採樣次數。 實驗發現,將智能體目前產生的軌跡與初始專家軌跡集合並,能帶來更穩定的效能提升。相對地,利用前一迭代的探索軌跡,可能導致過擬合,出現表現的波動。 隨著演化過程中迭代次數 M 增加,效能提升,但最終會趨於穩定和收斂。 例如例如 X
例如類別!
#在AgentEvol 探索過程中,透過對每個指令執行取樣,產生多樣化的軌跡促進了智慧體的學習。 已知的指令集內
有限空間
的探索,可能會限制AgentEvol 的性能進一步提升。 此外,研究者也正在不同的基座模型上進行實驗。結果表明, AgentEvol 方法在不同規模的模型上均表現出色。 文章也探討了在通用智能體的演化過程中,成功與失敗的經驗軌跡是否都能發揮作用。
實驗採用直接偏好最佳化 DPO (Direct Preference Optimization) 方法,基於探索過程中的「成功-失敗」軌跡進行訓練。結果表明,智能體能夠在多任務的場景下,從錯誤經驗中學習,但其整體性能仍然不如 AgentEvol 方法。
############ 圖11:基於成功與失敗軌跡上的DPO 訓練顯示### 圖11:基於成功與失敗軌跡上的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖11:基於成功與失敗軌跡的DPO 訓練####圖。 ######復旦大學自然語言處理實驗室,是由復旦大學首席教授吳立德先生創建,是我國最早進行自然語言處理和資訊檢索研究的實驗室之一。在國家自然科學基金、國家863/973/重點研發計劃、省部會基金的支持下,發表了大量高水準國際期刊和會議論文。實驗室在學術帶頭人黃萱菁教授的帶領下,圍繞大模型前沿方向,在語言大模型、多模態大模型、大模型對齊、智能體等方面開展系統深入的研究,產生了MOSS、眸思等一系列具有較大學術影響的工作,並與國內外科技領導者建立密切的合作關係。 ############復旦大學視覺與學習實驗室由薑育剛教授創立,現有教師7人,在讀碩博士研究生80餘人,已畢業研究生30餘人。 ######實驗室主要從事電腦視覺和多模態人工智慧理論與應用的研究,###旨在研發準確、快速、可擴展和值得信賴的AI 演算法,讓機器具備像人一樣的學習、感知和推理的能力。實驗室承接了科技創新2030—「新一代人工智慧」重大計畫、國家自然科學基金重點基金、國家重點研發計畫課題、上海市科技創新行動計畫等國家和地方的重要科學研究項目,以及華為、騰訊、百度等企業的技術攻關需求。 ############
以上是打通智能體「自我進化」全流程!復旦推出通用智能體平台AgentGym的詳細內容。更多資訊請關注PHP中文網其他相關文章!