向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」

PHPz
發布: 2024-02-07 09:31:14
轉載
1310 人瀏覽過

「以史為鑑,可以知興替。」人類的進步史是一個不斷吸取過去經驗、推進能力邊界的自我演化過程。我們從過去的失敗中學習,糾正錯誤;借鏡成功經驗,提升效率和效果。這種自我進化貫穿生活各個層面:總結經驗解決工作問題,利用規律預測天氣,我們持續從過去學習和進化。

成功從過去的經驗中提取知識並將其應用於未來的挑戰,這是人類進化之路上重要的里程碑。那麼在人工智慧時代,AI 智能體是否也可以做到同樣的事情呢?

近年來,GPT和LLaMA等語言模型展現了在解決複雜任務時的驚人能力。然而,雖然它們可以利用工具解決具體任務,但本質上缺乏對過去成功和失敗經驗的洞見和汲取。這就像一個只能完成特定任務的機器人,雖然在當前任務中表現出色,但面對新的挑戰時卻無法調用過去的經驗提供幫助。因此,我們需要進一步發展這些模型,使其能夠累積知識和經驗,並將其應用於新的情境中。透過引入記憶和學習機制,我們可以使這些模型具備更全面的智能,能夠在不同任務和情境中靈活應對,並從過去的經驗中獲得啟示。這將使得語言模型更加強大和可靠,並有助於推動人工智慧的發展。

針對這個難題,近期來自清華大學、香港大學、人民大學以及面壁智能的聯合團隊提出了一種全新的智能體自我演化策略:探索-固化- 利用(Investigate-Consolidate-Exploit,ICE)。它旨在透過跨任務的自我進化來提升 AI 智能體的適應性和靈活性。其不僅能提升智能體處理新任務時的效率與效果,還能顯著降低智能體基座模型能力的需求。

這個策略的出現,確實開啟了智能體自我進化的新篇章,也標誌著我們朝著實現完全自主的智能體又邁進了一步。

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」

  • 論文標題:Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
  • #論文連結:https://arxiv.org/abs/2401.13996

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」智能體任務間經驗遷移以實現自我進化概覽圖

智能體自我進化的兩個面向:規劃與執行

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」

########### ####目前的複雜智能體主要可分為任務規劃和任務執行兩個面向。在任務規劃方面,智能體透過邏輯推理將使用者需求分解並制定詳細的目標策略。而在任務執行方面,智能體利用各種工具與環境交互,以完成對應的子目標。 ############為了更好地促進以往經驗的重複利用,作者在論文中首先將演化策略解耦為兩個面向。具體地,作者以XAgent智能體架構中的樹狀任務規劃結構和ReACT鍊式工具執行為例,分別詳細介紹了ICE策略的實作方法。 ###############智能體任務規劃的ICE 自我演化策略############對於任務規劃,自我進化依照ICE 被分成以下三個階段:######
  • 在探索階段,智能體記錄下整個樹狀任務規劃結構,並同時動態偵測各個子目標的執行狀態;
  • 在固化階段,智能體首先剔除所有失敗的目標結點,之後對於每個成功完成的目標,智能體將以該目標為子樹的所有葉子結點依次排開形成一條規劃鏈(Workflow );
  • 在利用階段,這些規劃鏈將被當作新任務目標分解細化的參考依據,以利用這些過往的成功經驗。

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」智能體任務執行的ICE 自我演化策略

任務執行的自我演化策略仍分為ICE 三個階段,其中:

  • 在探索階段,智能體動態記錄每個目標執行的工具呼叫鏈,並對工具呼叫中出現的可能問題進行簡單的偵測歸類;
  • 在固化階段,工具呼叫鏈將被轉換為類似自動機的管線(Pipeline)結構,工具調用順序與調用之間的轉移關係將被固定,同時還會去除重複調用,增加分支邏輯等等讓自動機自動化執行流程更加穩健;
  • 在利用階段,對於相似的目標,智能體將直接自動化執行管線,提升任務完成效率。

XAgent 框架下的自我進化實驗

#作者在XAgent 框架中對提出的ICE 自我演化策略進行了測試,並總結了以下四點發現:

  • ICE 策略能夠大幅降低模型的呼叫次數,從而提升效率,減少開銷。
  • 儲存的經驗在 ICE 策略下有著較高的複用率,證明了 ICE 的有效性。
  • ICE 策略能夠提升子任務完成率同時減少規劃返修的次數。
  • 透過以往經驗的加持,任務執行對模型能力的要求顯著下降。具體來看,使用 GPT-3.5 搭配上之前的任務規劃與執行經驗,效果可以直接媲美 GPT-4。

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」在探索- 固化進行經驗儲存後,測試集任務在不同智能體ICE 策略下的表現

同時,作者也進行了額外的消融實驗:在儲存經驗逐漸增加的情況下,智能體的表現是否越來越好?答案是肯定的。從零經驗,半經驗,到滿經驗,基座模型的呼叫次數逐漸減少,而子任務完成度逐漸提升,同時復用率也有升高。這顯示更多的過往經驗能夠更好地促進智能體執行,並實現規模經濟。

向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」在不同經驗儲存量下,測試集任務表現的消融實驗結果統計

結語

暢想一下,在人人都能夠部署智能體的世界中,成功經驗的數量會隨著智能體個體任務執行不斷累積,而用戶也可以將這些經驗在雲端、社群中進行分享。這些經驗將促使智能體不斷汲取能力,自我進化,逐漸達到完全自主。我們又向這樣的時代邁進了一步。

以上是向完全自主性更進一步,清華、港大全新跨任務自我進化策略讓智能體學會「以經驗為鑑」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!