用AI自動設計智能體,數學提分25.9%,遠超手工設計
基於 ADAS 所發現的智能體的性能大大優於最先進的手工設計的基線。
基礎模型 (FM) 如 GPT 和 Claude ,正在成為通用智能體的強有力支持,被越來越多的用於多種推理和規劃任務。
然而,在解決問題時,所需的智能體通常是具有多個組件的複合智能體系統,而不是單片模型查詢 。此外,為了使智能體能夠解決複雜的現實世界任務,它們通常需要存取外部工具,例如搜尋引擎、程式碼執行和資料庫查詢。
因此,人們提出了許多有效的智能體系統構建塊,例如思維鏈規劃和推理、記憶結構、工具使用和自我反思。儘管這些智能體已經在各種應用中取得了顯著的成功,但開發這些構建塊並將它們組合成複雜的智能體系統通常需要特定領域的手動調整以及研究人員和工程師的大量努力。
然而,機器學習的歷史告訴我們,手工設計的解決方案最終會被模型學習到的解決方案所取代。
本文,來自不列顛哥倫比亞大學、非營利人工智慧研究機構Vector Institute 等的研究者制定了一個新的研究領域,即智能體系統的自動化設計(ADAS,Automated Design of Agentic Systems),並提出了一種簡單但有效的ADAS 演算法,名為元智能體搜尋(Meta Agent Search),以證明智能體可以透過程式碼程式發明新穎且強大的智能體設計。
該研究旨在自動創建強大的智能體系統設計,包括開發新的構建塊並以新的方式組合它們。
實驗表明,基於 ADAS 所發現的智能體的性能大大優於最先進的手工設計的基線。例如,本文設計的智能體在 DROP 的閱讀理解任務中將 F1 分數提高了 13.6/100(與基線比),在 MGSM 的數學任務中將準確率提高了 14.4%。此外,在跨域遷移後,它們在 GSM8K 和 GSM-Hard 數學任務上的準確率分別比基線提高了 25.9% 和 13.2%。
與手工設計的解決方案相比,本文演算法表現出色,這說明 ADAS 在自動化智能體系統設計方面的潛力。此外,實驗表明,所發現的智能體不僅在跨相似領域遷移時表現良好,而且在跨不同領域遷移時也表現出色,例如從數學到閱讀理解。
論文地址:https://arxiv.org/pdf/2408.08435
-
專案網址:https://github.com/ShengranH3/ADAS
www.shengranhu.com/ADAS/ - 論文標題:Automated Design of Agentic Systems
- 新研究領域:智能體系統的自動化設計(ADAS)
該研究領域:智能體系統的自動化設計(ADAS)
該研究提出了一個新的研究領域提出了一個新的研究領域—— 智慧型體系統的自動化設計(Automated Design of Agentic Systems,ADAS),並描述了ADAS 演算法的三個關鍵組成部分——搜尋空間、搜尋演算法、評估函數。 ADAS 使用搜尋演算法跨搜尋空間來發現智能體系統。
搜尋空間:搜尋空間定義了哪些智能體系統可以在 ADAS 中被表徵並被發現。例如,像 PromptBreeder (Fernando et al., 2024) 這樣的工作只會改變智能體的文字提示,而其他元件(例如控制流)則保持不變。因此,在搜尋空間中,無法表徵具有與預定義控制流不同控制流的智能體。
搜尋演算法:搜尋演算法定義了 ADAS 演算法如何探索搜尋空間。由於搜尋空間通常非常大甚至無界,因此應考慮探索與利用的權衡(Sutton & Barto,2018)。理想情況下,此演算法既可以快速發現高效能智能體系統,又可以避免陷入局部最優。現有方法包括使用強化學習(Zhuge et al., 2024)或迭代產生新解決方案的 FM(Fernando et al., 2024)作為搜尋演算法。
評估函數:根據 ADAS 演算法的應用,可能需要考慮不同的最佳化目標,例如智能體的效能、成本、延遲或安全性。評估函數定義如何評估候選智能體的這些指標。例如,為了評估智能體在未見過的資料上的表現,一個簡單的方法是計算任務驗證資料的準確率。
該研究提出的簡單但有效的ADAS 演算法——元智能體搜尋的核心概念是指示元智能體迭代地創建有趣的新智能體,評估它們,將它們添加到智能體存儲庫中,並使用此儲存庫幫助元智能體在後續迭代中創建更有趣的新智能體。與現有的利用人類興趣概念的開放式演算法類似,該研究鼓勵元智能體探索有趣的、有價值的智能體。
元智能體搜尋的核心思想是採用 FM 作為搜尋演算法,基於不斷增長的智慧體儲存庫來迭代程式設計有趣的新智慧體。該研究為元智能體定義了一個簡單的框架(100 行程式碼以內),為其提供了一組基本功能,例如查詢 FM 或格式化提示。
因此,元智能體只需要寫一個「前向」函數來定義一個新的智能體系統,類似於 FunSearch 中的做法(Romera-Paredes et al., 2024)。此函數接收任務訊息並輸出智能體對任務的反應。
如圖 1 所示,元智能體搜尋的核心思想是讓元智能體在程式碼中迭代地編程新的智能體。下面顯示了元智能體程式新智能體程式的主要提示,其中提示中的變數高亮顯示。
實驗
所有實驗結果表明本文發現的智能體大大優於基線最先進的手工設計的智能體。值得注意的是,研究發現的智能體在 DROP 閱讀理解任務上比基線提高了 13.6/100(F1 分數),在 MGSM 數學任務上比基線提高了 14.4%(準確率)。此外,研究者發現的智能體在從GPT-3.5 遷移到GPT-4 後,在ARC 任務上的表現比基線提高了14%(準確率),在從MGSM 數學任務遷移到GSM8K 和GSM-Hard 中的held-out 數學任務後,準確率分別提高了25.9% 和13.2%。
案例研究:ARC 挑戰
如圖 3a 所示,元智能體搜尋可以有效且逐步地發現性能優於最新手工設計的智能體。文字方塊中突出顯示了重要的突破。
此外,圖 3b 顯示了發現最好的智能體,其中採用了複雜的反饋機制來更有效地細化答案。仔細觀察搜尋進度就會發現,這種複雜的回饋機制並不是突然出現的。
推理和問題 - 解決域
跨多個域的結果表明,元智能體搜尋可以發現表現優於 SOTA 手工設計的智能體(表 1)。
泛化性以及可遷移性
研究者進一步展示了所發現智能體的可遷移性和可泛化性。
如表 2 所示,研究者觀察到搜尋到的智能體(searched agent)始終優於手工設計的智能體,且差距很大。值得注意的是,研究者發現 Anthropic 最強大的模型 Claude-Sonnet 在所有測試模型中表現最佳,使基於該模型的智能體在 ARC 上實現了近 50% 的準確率。
如表 3 所示,研究者觀察到元智能體搜尋的表現與基準相比具有類似的優勢。值得注意的是,與基準相比,本文的智能體在 GSM8K 和 GSM-Hard 上的準確率分別提高了 25.9% 和 13.2%。
更令人驚訝的是,研究者觀察到在數學領域發現的智能體可以遷移到非數學領域(表 4)。
以上是用AI自動設計智能體,數學提分25.9%,遠超手工設計的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
