用AI自動設計智能體,數學提分25.9%,遠超手工設計

WBOY
發布: 2024-08-22 22:37:32
原創
276 人瀏覽過

基於 ADAS 所發現的智能體的性能大大優於最先進的手工設計的基線。

基礎模型 (FM) 如 GPT 和 Claude ,正在成為通用智能體的強有力支持,被越來越多的用於多種推理和規劃任務。

然而,在解決問題時,所需的智能體通常是具有多個組件的複合智能體系統,而不是單片模型查詢 。此外,為了使智能體能夠解決複雜的現實世界任務,它們通常需要存取外部工具,例如搜尋引擎、程式碼執行和資料庫查詢。

因此,人們提出了許多有效的智能體系統構建塊,例如思維鏈規劃和推理、記憶結構、工具使用和自我反思。儘管這些智能體已經在各種應用中取得了顯著的成功,但開發這些構建塊並將它們組合成複雜的智能體系統通常需要特定領域的手動調整以及研究人員和工程師的大量努力。

然而,機器學習的歷史告訴我們,手工設計的解決方案最終會被模型學習到的解決方案所取代。

本文,來自不列顛哥倫比亞大學、非營利人工智慧研究機構Vector Institute 等的研究者制定了一個新的研究領域,即智能體系統的自動化設計(ADAS,Automated Design of Agentic Systems),並提出了一種簡單但有效的ADAS 演算法,名為元智能體搜尋(Meta Agent Search),以證明智能體可以透過程式碼程式發明新穎且強大的智能體設計。

該研究旨在自動創建強大的智能體系統設計,包括開發新的構建塊並以新的方式組合它們。

實驗表明,基於 ADAS 所發現的智能體的性能大大優於最先進的手工設計的基線。例如,本文設計的智能體在 DROP 的閱讀理解任務中將 F1 分數提高了 13.6/100(與基線比),在 MGSM 的數學任務中將準確率提高了 14.4%。此外,在跨域遷移後,它們在 GSM8K 和 GSM-Hard 數學任務上的準確率分別比基線提高了 25.9% 和 13.2%。

與手工設計的解決方案相比,本文演算法表現出色,這說明 ADAS 在自動化智能體系統設計方面的潛力。此外,實驗表明,所發現的智能體不僅在跨相似領域遷移時表現良好,而且在跨不同領域遷移時也表現出色,例如從數學到閱讀理解。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

  • 論文地址:https://arxiv.org/pdf/2408.08435

  • 專案網址:https://github.com/ShengranH3/ADAS

    www.shengranhu.com/ADAS/
  • 論文標題:Automated Design of Agentic Systems
  • 新研究領域:智能體系統的自動化設計(ADAS)

該研究領域:智能體系統的自動化設計(ADAS)

該研究提出了一個新的研究領域提出了一個新的研究領域—— 智慧型體系統的自動化設計(Automated Design of Agentic Systems,ADAS),並描述了ADAS 演算法的三個關鍵組成部分——搜尋空間、搜尋演算法、評估函數。 ADAS 使用搜尋演算法跨搜尋空間來發現智能體系統。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

搜尋空間:搜尋空間定義了哪些智能體系統可以在 ADAS 中被表徵並被發現。例如,像 PromptBreeder (Fernando et al., 2024) 這樣的工作只會改變智能體的文字提示,而其他元件(例如控制流)則保持不變。因此,在搜尋空間中,無法表徵具有與預定義控制流不同控制流的智能體。

搜尋演算法:搜尋演算法定義了 ADAS 演算法如何探索搜尋空間。由於搜尋空間通常非常大甚至無界,因此應考慮探索與利用的權衡(Sutton & Barto,2018)。理想情況下,此演算法既可以快速發現高效能智能體系統,又可以避免陷入局部最優。現有方法包括使用強化學習(Zhuge et al., 2024)或迭代產生新解決方案的 FM(Fernando et al., 2024)作為搜尋演算法。

評估函數:根據 ADAS 演算法的應用,可能需要考慮不同的最佳化目標,例如智能體的效能、成本、延遲或安全性。評估函數定義如何評估候選智能體的這些指標。例如,為了評估智能體在未見過的資料上的表現,一個簡單的方法是計算任務驗證資料的準確率。

該研究提出的簡單但有效的ADAS 演算法——元智能體搜尋的核心概念是指示元智能體迭代地創建有趣的新智能體,評估它們,將它們添加到智能體存儲庫中,並使用此儲存庫幫助元智能體在後續迭代中創建更有趣的新智能體。與現有的利用人類興趣概念的開放式演算法類似,該研究鼓勵元智能體探索有趣的、有價值的智能體。

元智能體搜尋的核心思想是採用 FM 作為搜尋演算法,基於不斷增長的智慧體儲存庫來迭代程式設計有趣的新智慧體。該研究為元智能體定義了一個簡單的框架(100 行程式碼以內),為其提供了一組基本功能,例如查詢 FM 或格式化提示。

因此,元智能體只需要寫一個「前向」函數來定義一個新的智能體系統,類似於 FunSearch 中的做法(Romera-Paredes et al., 2024)。此函數接收任務訊息並輸出智能體對任務的反應。

如圖 1 所示,元智能體搜尋的核心思想是讓元智能體在程式碼中迭代地編程新的智能體。下面顯示了元智能體程式新智能體程式的主要提示,其中提示中的變數高亮顯示。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

用AI自動設計智能體,數學提分25.9%,遠超手工設計

實驗

所有實驗結果表明本文發現的智能體大大優於基線最先進的手工設計的智能體。值得注意的是,研究發現的智能體在 DROP 閱讀理解任務上比基線提高了 13.6/100(F1 分數),在 MGSM 數學任務上比基線提高了 14.4%(準確率)。此外,研究者發現的智能體在從GPT-3.5 遷移到GPT-4 後,在ARC 任務上的表現比基線提高了14%(準確率),在從MGSM 數學任務遷移到GSM8K 和GSM-Hard 中的held-out 數學任務後,準確率分別提高了25.9% 和13.2%。

案例研究:ARC 挑戰

如圖 3a 所示,元智能體搜尋可以有效且逐步地發現性能優於最新手工設計的智能體。文字方塊中突出顯示了重要的突破。

此外,圖 3b 顯示了發現最好的智能體,其中採用了複雜的反饋機制來更有效地細化答案。仔細觀察搜尋進度就會發現,這種複雜的回饋機制並不是突然出現的。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

推理和問題 - 解決域

跨多個域的結果表明,元智能體搜尋可以發現表現優於 SOTA 手工設計的智能體(表 1)。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

泛化性以及可遷移性

研究者進一步展示了所發現智能體的可遷移性和可泛化性。

如表 2 所示,研究者觀察到搜尋到的智能體(searched agent)始終優於手工設計的智能體,且差距很大。值得注意的是,研究者發現 Anthropic 最強大的模型 Claude-Sonnet 在所有測試模型中表現最佳,使基於該模型的智能體在 ARC 上實現了近 50% 的準確率。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

如表 3 所示,研究者觀察到元智能體搜尋的表現與基準相比具有類似的優勢。值得注意的是,與基準相比,本文的智能體在 GSM8K 和 GSM-Hard 上的準確率分別提高了 25.9% 和 13.2%。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

更令人驚訝的是,研究者觀察到在數學領域發現的智能體可以遷移到非數學領域(表 4)。

用AI自動設計智能體,數學提分25.9%,遠超手工設計

以上是用AI自動設計智能體,數學提分25.9%,遠超手工設計的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板