將人工智慧代理連接到網路:開發者的旅程和電腦使用的興起
過去兩年人工智慧代理開發的一個主要障礙是可靠地授予網路存取權限。 考慮一個旨在發送電子郵件的 AI 代理:如何將其連接到 Gmail 或 Outlook? API、網站或自治網路代理?本文探討了各種方法。
API 和 SDK:有限的方法
許多開發人員使用 API 和 SDK。這提供了低延遲和強大的身份驗證,但存在限制:
幸運的是,有幾個服務提供 API 呼叫函式庫:
但是,為了實現通用 Web 服務訪問,我們必須超越 API。
網站互動:人性化的方法
可靠的人工智慧代理網站互動可實現任何基於網路的人工任務的自動化。 但如何呢?
許多開發人員最初使用 Selenium 或 Playwright 等瀏覽器測試框架。 然而,這種方法面臨挑戰:
為了解決這些問題,我們嘗試了一個瀏覽器 SDK:
get_element("find the login button")
)而不是脆弱的 CSS 選擇器。 這項工作現已開源(Dendrite SDK),不再處於積極開發階段,但仍可供研究和改編。 類似的替代方案包括:
電腦使用:網路人工智慧代理的未來?
Rich Sutton 的「慘痛教訓」強調了可透過運算增加進行擴展的通用人工智慧解決方案的主導地位。 Anthropic的Computer Use體現了這項原則,允許法學碩士使用滑鼠和鍵盤輸入直接控制電腦/瀏覽器,無需腳本和API呼叫。 他們的方法強調通用電腦技能而不是特定任務的工具。這與痛苦的教訓完美契合,表明最通用的人工智慧代理將像人類一樣直接與網路互動。 早期結果顯示,使用精心設計的提示(通常透過 Anthropic 的提示改進器來增強)在複雜任務中具有很高的可靠性。
結論:擁抱未來
雖然 API 仍然有價值,但未來可能有利於大多數 AI 代理程式使用類似電腦的方法。 如果代理可以登入並使用網站的搜尋功能,從熱門結果中提取結論,為什麼還要透過 API 依賴整個資料庫? 人工智慧開發人員面臨的問題是否接受這種通用方法,還是面臨更專業方法的限制。
注意:這是我的第一個開發貼文。 歡迎提供有關改進未來貼文的回饋。 也鼓勵提出有關人工智慧代理或人工智慧驅動的任務自動化的問題。
以上是如何建立可以使用任何網站的人工智慧代理的詳細內容。更多資訊請關注PHP中文網其他相關文章!