AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%
按照大語言模型的持續進化和自我革新,性能、準確度、穩定性都有了大幅的提升,這已經被各個基準問題集驗證過了。
但是,對於現有版本的 LLM 來說,它們的綜合能力似乎並不能完全支撐得起 AI 智能體。
多模態、多任務、多領域推論成為AI 智能體在公共傳媒空間內的必須要求,但是在具體的功能實踐中所展現的真實效果卻差異強烈。這似乎再次提醒各個 AI 智能體新創公司以及大型科技巨頭認清現實:腳踏實地一點,先別把攤子鋪得太大,從 AI 增強功能開始做起。
近日,一篇關於AI智能體在宣傳和真實表現上的差距的部落格中,強調了一個觀點:「AI智能體在宣傳上是個巨人,而現實卻很不妙。隨著科技的不斷進步,AI被賦予了許多令人矚目的特點和能力,然而實際應用中卻經常出現一些問題和
自主AI 智能體能夠夠執行複雜任務的背景已經引起極大的興奮。透過與外部工具和功能的交互,LLMs 可以在沒有人為幹預的情況下完成多步驟的工作流程。
但現實證明,這比預期的要更具挑戰性。
WebArena排行榜是一個真實可重複的網路環境,用於評估實用智能體的效能。對LLM智能體在現實任務中的表現進行了基準測試,結果顯示即使是表現最好的模型,成功率也只有35.8%。
WebArena 排行榜對LLM 智能體在現實任務中的表現進行的基準測試結果:SteP 模型在成功率指標上表現最為良好,達到了35.8%,而知名的GPT-4 的成功率僅達到了14.9%。
什麼是 AI 智能體?
「AI 智能體」這個術語並沒有真正被定義,對智能體究竟是什麼也存在著很多的爭議。
AI 智能體可以定義為「一個被賦予行動能力的LLM(通常在RAG 環境中進行函數呼叫),以便在環境中對如何執行任務做出高層次的決策。模型處理整個任務,並基於其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的湧現能力,避免了將任務分解所帶來資訊的遺失。
多智能體系統:將任務分解為子任務,每個子任務由一個更小、更專業的智能體處理。與嘗試使用一個難以控制和測試的大型通用智能體相比,人們可以使用許多較小的智能體來為特定子任務選擇正確的策略。由於上下文視窗長度的限製或不同技能組合的需要等實際約束,這種方法有時是必要的。
- 理論上,具有無限上下文長度和完美注意力的單一智能體是理想的。由於上下文較短,在特定問題上,多智能體系統總是比單一系統效果差。
- 實踐中的挑戰
在見證了許多AI 智能體的嘗試之後,作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智能體新創公司似乎在等待一個模型突破,以開啟智能體產品化的競賽。
AI 智能體在實際運用上的表現並不夠成熟,這體現在輸出不精確、效能差強人意、成本較高、賠償風險、無法獲得使用者信任等問題:
- 可靠性:眾所周知,LLMs 容易產生幻覺和不一致性。將多個 AI 步驟連接起來會加劇這些問題,尤其是對於需要精確輸出的任務。
- 效能和成本:GPT-4、Gemini-1.5 和Claude Opus 在使用工具/ 函數呼叫方面表現不錯,但它們仍然較慢且成本高,特別是如果需要進行循環和自動重試時。
- 法律問題:公司可能需要對其智能體的錯誤負責。最近的一個例子是,加拿大航空被命令向一位被航空公司聊天機器人誤導的客戶賠償。
- 使用者信任:AI 智能體的「黑箱」性質以及類似範例使得使用者難以理解和信任其輸出。在涉及付款或個人資訊的敏感任務中(如支付帳單、購物等),贏得用戶信任將會很困難。
現實世界中的嘗試
#目前,以下幾家新創公司正在涉足AI 智能體領域,但大多數仍處於實驗階段或僅限邀請使用:
- adept.ai - 融資3.5 億美元,但存取權限仍然非常有限。
- MultiOn - 融資情況未知,他們的 API 優先方法看起來很有前景。
- HypeWrite - 融資 280 萬美元,起初是一個 AI 寫作助手,後來擴展到智能體領域。
- minion.ai - 最初引起了一些關注,但現在已經沉寂,僅有等候名單。
它們中似乎只有 MultiOn 在追求「給予指令並觀察其執行」的方法,這與 AI 智能體的承諾更為一致。
其他所有公司都在走記錄和重播的 RPA(record-and-replay)路線,這在現階段可能是為保證可靠性所必需的。
同時,一些大公司也在將 AI 功能帶到桌面和瀏覽器,看起來將會在系統層面上獲得本地的 AI 整合。
OpenAI 宣布了他們的 Mac 桌面應用程序,可以與作業系統螢幕互動。
在 Google I/O 大會上,Google 示範了 Gemini 自動處理購物退貨。
微軟宣布了 Copilot Studio,它將允許開發人員建立 AI 智能體機器人。
這些技術演示令人印象深刻,人們可以拭目以待這些智能體功能在公開發布並在真實場景中測試時的表現,而不是僅限於精心挑選的演示案例。
AI 智能體將走向哪條路?
作者強調:「AI 智能體被過度炒作了,大多數還沒有準備好用於關鍵任務。」
然而,隨著基礎模型和架構迅速進步,他表示人們仍可以期待看到更多成功的實際應用。
AI 智能體最有前途的前進道路可能是這樣的:
- 近期的重點應放在利用AI 增強現有工具,而不是提供廣泛的全自主獨立服務。
- 人機協同的方法,讓人類參與監督和處理邊緣案例。
- 根據目前的能力和限制,設定不脫離現實的期望。
透過結合嚴格約束的LLMs、良好的評估數據、人機協同監督和傳統工程方法,就可以在自動化等複雜任務方面實現可靠且良好的結果。
對於 AI 智能體是否會自動化乏味重複的工作,例如網頁抓取、填表和資料輸入?
作者:「是的,絕對會。」
那AI 智能體是否會在沒有人們幹預的情況下自動預訂假期?
作者:「至少在近期內不太可能。」
以上是AI智能體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

AI在Composer中主要通過依賴推薦、依賴衝突解決和代碼質量提升來提高開發效率和代碼質量。 1.AI可以根據項目需求推薦合適的依賴包。 2.AI提供智能解決方案來處理依賴衝突。 3.AI審查代碼並提供優化建議,提升代碼質量。通過這些功能,開發者可以更專注於業務邏輯的實現。

幣圈十大加密貨幣交易所排名:1. Binance:全球領先,提供高效交易和多種金融產品。 2. OKX:創新多樣,支持多種交易類型。 3. Huobi:穩定可靠,服務優質。 4. Coinbase:新手友好,界面簡潔。 5. Kraken:專業交易者首選,工具強大。 6. Bitfinex:高效交易,交易對豐富。 7. Bittrex:安全合規,監管合作。 8. Poloniex等等。

幣圈十大虛擬幣交易所app:1. Binance,2. OKX,3. Huobi,4. Coinbase,5. Kraken,6. Bitfinex,7. Bybit,8. KuCoin,9. Gemini,10. Bitstamp,這些平台因其交易量、安全性和用戶體驗而備受歡迎。

您想了解如何在WordPress網站上使用cookie嗎? Cookie是在用戶瀏覽器中存儲臨時信息的有用工具。您可以使用此信息通過個性化和行為定位來增強用戶體驗。在本終極指南中,我們將向您展示如何像專業人士一樣設置、獲取和刪除WordPresscookie。注意:這是一個高級教程。它要求您精通HTML、CSS、WordPress網站和PHP。什麼是Cookie? Cookie是用戶訪問網站時創建並存儲在用戶瀏覽

火幣APKV10.50.0下載指南:1、點擊文中直達鏈接;2、選擇正確的下載包;3、填寫註冊信息;4、開始火幣交易流程。

火幣APKV10.50.0下載指南:1、點擊文中直達鏈接;2、選擇正確的下載包;3、填寫註冊信息;4、開始火幣交易流程。

幣圈是加密貨幣市場的俗稱,涵蓋比特幣、以太坊等數字貨幣的交易、投資、項目開發及衍生金融活動。這一領域以區塊鏈技術為基礎,具有高波動性、全球化、去中心化等特點,吸引了大量投資者和創業者參與。以下是 2025 年全球十大加密貨幣交易所的詳細分析,結合市場動態、合規性及中國政策進行說明:

對於那些好奇Cardano(ADA)是否仍有潛力以驚人的增長震撼市場的人來說,這張圖表可能會改變您的看法。關注Cardano(ADA)價格走勢的人可能會對某一特定技術模式的持續存在感到驚訝,因為它表明,重大變動可能仍在醞釀中。如果Cardano繼續遵循長期的幾何路徑,那麼上行空間可能非常大。一個預期的目標是13美元,可能的收益率是當前價格的18倍,其交易價格約為0.45美元。這張圖表使用了一種稱為GannAngle共振網格的幾何圖表。這是一種技術工具,可以根據價格和時間繪製傾斜的通道。令人驚訝的
