全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent
近日,國內領先的人工智慧大模型公司面壁智能又放大招,聯合清華大學NLP 實驗室共同研發並推出大模型“超級英雄」——XAgent。
透過任務測試,XAgent 在真實複雜任務的處理能力已全面超越 AutoGPT。
- 現已在GitHub 正式開源,網址https://github.com/OpenBMB/XAgent
- ##案例展示網址:https ://x-agent.net/
- 部落格網址:https://blog.x-agent.net
#XAgent 何許「人」也?
#XAgent 是可以自主解決複雜任務的全新AI 智能體,以LLM 為核心,能夠理解人類指令、制定複雜計劃並自主採取行動。
傳統智能體通常受到人類自訂規則的限制,只能在限定範圍內解決問題。它們更像是人類所用的「工具」,而不是真正的「自主智能體」,難以自主解決複雜問題。
相反,XAgent 被賦予了自主規劃和決策的能力,使它能夠獨立運行,發現新的策略和解決方案,不受人類預設的束縛。
它的能力已全面超越AutoGPT,在眾多場景任務上展示出了驚人的自主性和複雜任務的求解能力,將AI 智能體的智能水平提升到了一個全新高度。
那麼問題又來了:它是如何實現的呢?
「左右腦」協同,雙循環機制
#正如人類具備「左腦」 和「右腦」,在處理複雜任務時通常從「 宏觀」和「微觀」 兩個視角進行考慮,既要針對全局進行統籌和規劃,也要從執行層面來考慮。
相較於AutoGPT,面壁智慧和清華大學在XAgent 的設計中創新地引入了一種「雙循環機制」:
- 外循環:負責全域任務規劃,將複雜任務分解為可操作的簡單任務。
- 內部循環:負責局部任務執行,專注於細節。
透過雙循環機制的協作,XAgent 如同大模型領域的「超級英雄」,它在應對複雜任務的不同環節時,展現出超強的專業度和豐富的技能。
就像漫威宇宙中的「美隊」,XAgent 既有全局觀的領導力,也有細緻入微的執行力。
在外循環中,XAgent 展現出作為一個「規劃」(PlanAgent)的領導力,它會把複雜任務拆分成若干簡單任務,並監督問題解決的完整過程。
首先,它將給定的複雜任務分解成更小、更易於管理的「子任務」,產生“初始規劃”,形成任務序列。
隨後,它將逐次把每個子任務傳遞給內部循環解決。在這個過程中,外循環會不斷監督任務的進度和狀態,並根據回饋對後續規劃進行「迭代優化」。
在內循環中,XAgent 快速轉變身份,展現出作為一個高效「執行者」(ToolAgent)的專業度,確保外循環傳遞的子任務達到預期。
根據子任務性質的不同,它可以從外部系統中檢索工具,並針對子任務進行一步步求解。
在子任務完成後,它將產生目前子任務執行過程的反思,回饋給外循環,指示目前任務是否完成,以及任務執行中的潛在最佳化點。
如圖所示,使用者給 XAgent 提交了 iris.zip 文件,讓 XAgent 對資料進行分析。
可以看到,XAgent 先透過外迴圈將這個任務分解變成4 個子任務:
- 檢查資料與理解;
- 檢查系統的Python 環境,查看相關資料分析庫是否存在;
- 撰寫資料分析程式碼,對資料進行處理與分析;
- 根據python 程式碼執行結果撰寫分析報告。
隨後,在執行每一個子任務時,XAgent 透過內循環熟練地使用檔案讀取寫入、 shell 指令、python notebook 及對應pandas、sci-kit learn、 seaborn、matplotlib 等資料分析函式庫,甚至會對資料進行視覺化分析。
#AutoGPT 在執行相同任務時,並沒有製定檢查python 環境與相關函式庫的規劃,而是直接開始寫程式碼執行,導致使用相關函式庫時失敗報錯,最終也沒有完成資料的複雜分析。
人機協作:智能體互動新範式
#雖然AutoGPT 在一定程度上突破了傳統GPT 模型的局限性,但它仍有死循環、錯誤調用等執行出錯的現象,需要人工幹預才能解決。
而XAgent 在設計之初就針對相關問題進行了考量,並引入了專為增強人機協作的交互機制:它可以自主與用戶進行交互,並向人類發出乾預和指導的請求。
對於一個智能體而言,「是否能夠與人類協作」也是體現其智慧程度的重要指標。
首先,XAgent 具備直覺的介面,使用者可以直接涵蓋或修改它提出的建議,從而將AI 效率與人類的直覺和專業知識有效結合。
其次,在面臨陌生挑戰的情況下,XAgent 具備「向人類尋求幫助」能力,它會向使用者徵求即時回饋、建議或指導,確保即使在不確定的領域,智能體也能發揮最佳效果。
圖片
#這種互動範式,將AI 的自主性與人類的智慧有機融合,展現了人與XAgent 之間的全新的協作關係。
如圖所示,用戶想讓 XAgent 幫忙推薦一些好吃的餐廳來和朋友聚會,但卻沒有提供具體詳細的資訊。
這時候XAgent 可以意識到目前使用者所提供的資訊不夠充足,難以進行推薦,於是向人類提出請求,詢問使用者的傾向地點、預算範圍、口味喜好、有哪些忌口等等,在得到用戶的回饋後從而提供了推薦的餐廳。
而 AutoGPT 則直接開始到網路上搜尋餐廳資訊進行推薦,最終推薦的結果地點不對,也沒有考慮用戶的預算,沒有符合用戶的需求。
高效能通訊語言,超強工具呼叫
無論「雙循環」的運作機制,或是「人機協作」 的互動能力,在XAgent 的整體設計中,面壁智能和清華團隊著重考慮的是智能體的穩定、高效和安全等核心特性。
而結構化的通訊方式同樣是建立強大、穩定智能體的重要因素之一。
XAgent 採用 Function Call 作為其內部的通訊語言,具備結構化、標準化、統一化等優勢。
- 結構化:Function Call 具備清晰嚴謹的格式,可以明確表述所需內容,從而最小化了潛在的錯誤。
- 標準化:Function Call 可以將與外部工具的互動過程標準化,提供一種通用語言,使智能體具備使用和整合多種工具的能力,解決複雜任務。
- 統一化:透過將資訊摘要、任務規劃、工具執行等所有環節轉化為特定的Function Call 形式,確保每個環節均以統一的方式進行處理,從而簡化系統設計。
此外,工具呼叫也是評估 AI Agent 是否具備解決複雜問題的重要能力之一。
XAgent 在設計中原創了工具執行引擎 ToolServer,可實現更安全、高效、可擴充的工具執行能力。
它在隔離的 Docker 環境中運行,確保工具執行不會危及主系統的穩定性或安全性。
這種設計帶來多重好處:
- 「安全性
- ##:在Docker 容器內執行工具可以保護主系統免受潛在危害。 高效率
:系統可以根據需求和使用模式啟動、停止和重新啟動節點,以實現最佳資源使用。
可擴充
:方便管理程式碼,除錯和擴充性更強。
ToolServer 的關鍵元件包括:ToolServerNode、ToolServerMonitor、ToolServerManager,在執行操作、節點檢查、週期管理等方面提供強大的能力。
XAgent 不僅可以幫我們做一些簡單的任務,它甚至可以幫助我們訓練模型。
例如,使用者希望能夠對電影評論進行分析,判斷大眾對電影評價的好壞。這時候 XAgent 會先下載 imdb 資料集去訓練一個 BERT 模型,並使用訓練好的 BERT 模型對電影評論進行預測。
################## 釋放大模型潛力,全面超越AutoGPT############經過在一系列任務中的測試可以看到(如下圖a、b 所示),基於GPT-4 的XAgent 表現效果在所有基準測試中都超過了原始的GPT-4,並且全面超越了AutoGPT。 ############這些任務需要Agent 推理規劃和使用外部工具的能力,包括:用搜尋引擎回答問題的能力(FreshQA HotpotQA)、Python 程式設計能力(MBPP)、數學推理能力( MATH)、互動式程式設計能力(InterCode)、具身推理能力(ALFWorld)、真實複雜任務等。 ######
圖a:XAgent 在真實複雜任務處理中全面超越AutoGPT
圖b:超越AutoGPTXAgent 在六大AI Agent 基準測試中全面領先GPT-4
可以看出,XAgent 的系統設計能夠充分釋放GPT-4 的基礎能力,並達到極高的測試效果和人類傾向(Human Preference)。
這不僅表明XAgent 在需要推理規劃的傳統AI 測試中表現出色,而且在處理複雜的實際指令時具有更高的性能
拓展應用邊界,堅實技術基礎
AI Agent 的出現讓整個產業看到了大模型技術的重要落地方向,無需進行複雜的prompt 探索,就可以實現整套工作流程的任務執行。
作為具有無限潛力的大模型「超級英雄」,XAgent 可以成為每個普通的人的「個人助理」。它可以幫助我們規劃日程,安排行程,管理生活和工作的時間和資源分配。
它還可以自主使用多種資料收集、處理和分析工具,全自動地完成對大量資料的分析並形成報告,幫助使用者有效率地取得重要資訊。
此外,XAgent 還能結合外部工具與自主規劃演算法,根據環境資訊做出決策,以實現更有效率且精確的任務執行。
XAgent 的研發團隊是由來自面壁智慧和清華大學 THUNLP 實驗室的多位大模型領域的專家和學者組成。他們更像是大模型領域的「超級英雄」。
這項創新成果之所以能夠成功推出,正是團隊在長期的科學研究工作過程中建構了一系列前沿創新的大模型Infra,堅實技術基礎,拓展創新和研發的邊界。
面壁智慧聯合清華大學NLP 實驗室、OpenBMB 開源社群打造了一個「三位一體」 的大模型產學研生態佈局,提出並發布了多個大模型工具使用框架和引擎:
- Tool Learning:大模型工具學習範式,將專業工具與大模型的優勢相融合,在問題解決方面達到更高的準確性、效率和自主性。
- BMTools:大模型學習引擎,是讓語言模型使用擴充工具的開源倉庫,同時也是開源社群建構和共享工具平台。
- ToolLLM,大模型工具學習框架,給大模型存取 16000 真實 API,讓大模型可以透過呼叫外部工具來完成更複雜的使用者指令任務。
- WebCPM,中文領域首個支援聯網搜尋的模型框架,填補國產大模型該領域的空白,讓大模型能像人類一樣在網頁上即時搜尋答案,提高了AIGC 的即時性和準確性。
XAgent 拓展了 AI 智能體在執行複雜任務中的能力上限,讓我們看到大模型技術融入生產和生活的前沿趨勢和無限潛力。
以上是全面超越AutoGPT,面壁智慧聯合清華NLP實驗室開源大模型「超級英雄」XAgent的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。
