在今年大型模型的爆發之後,目前的人工智慧技術仍處於第二代系統階段,並尚未達到人工通用智慧(AGI)的水平。不過,在某些領域中,已經可以利用AI Agent來處理。作為典型的B端方向應用,如何設計符合業務需求的AI Agent呢?
隨著人工智慧的快速發展,各種先進的大型模型、產品和工具層出不窮。身為B端產品經理,我們需要積極 embrace 這種變革的人工智慧技術,並將其應用於我們自身的業務,以確保企業的效率不會落後於產業的發展
一般來說,如果企業沒有自主研發大型模型,就需要依賴第三方的大型模型能力來開發AI能力,從而建構適用於企業本身的AI產品或工具。
如下圖所示,常見的大型模型方向包括自然語言處理(NLP)、多模態(multimodal)和語音辨識。大型模型廠商基於特定方向的能力進行AI訓練,從而使得AI能夠在某些領域上替代人類進行「可重複的」和「可標準化的」任務。
圖片引用於開放隱私運算的《百模大戰! AI大模型你更看好哪一家? 》
為了確定我們業務所需的AI能力,我們需要對相應的AI模型進行調查,並評估大型模型的輸出能力。我們可以從召回率、準確率、安全性、可解釋性、穩定性、成本和發展潛力等多個維度對大型模型進行評估,以最終選擇適合我們需求的大型模型。關於這個主題,我在之前的文章中有詳細介紹如何選擇適合自己的大型模型。
然而,目前的AI技術仍處於第二代系統階段,尚未達到AGI水準。目前可存取的大型模型仍存在一些問題,主要包括以下幾個方面:
1. AI幻覺:
AI幻覺是指人工智慧在知識記憶、理解能力、訓練方式和模型技術等方面存在的限制,導致其在輸出結果時表現不準確或不可靠。常見的問題包括數據偏差和解釋性差
由於AI幻覺的存在,即使我們期望AI能夠穩定輸出可靠的解決方案,仍然會有一定比例的錯誤答案產生。例如,如果AI在某個領域的準確率為50%,那麼在50個答案中會有25個錯誤答案。對於需要高精準度的業務來說,AI無法直接應用。
2. 合規問題的答案
AI的本質是基於統計的結果預測,缺乏明確的是非判斷能力。因此,在涉及道德、法律等問題時,AI無法進行準確的判斷或區分,可能對企業帶來負面影響
3. 不夠原生:
目前,人工智慧的互動方式主要是透過輸入-輸出進行的。使用者輸入內容,人工智慧輸出結果。然而,這個過程並不適合所有業務人員的使用習慣
以翻譯場景為例,翻譯人員的業務流程通常包含以下步驟:
然而,如果要使用AI進行翻譯,以節省人力成本,直接使用大型語言模型的對話輸入互動方式會帶來以下問題:
1)中斷現有的工作流程,難以培養使用習慣:
使用大型語言模型的對話方塊會打斷原有翻譯工作的業務流程。原本只需要在翻譯工具或文件上完成工作,加入大型模型對話後,每個翻譯文字都需要在輸入框上進行輸入互動。
2)操作成本增加的上限問題:
大型語言模型存在對話長度的限制,如果翻譯內容量很大,就需要分批次進行交互,這會增加人力成本。
3)滿足特殊翻譯需求的操作成本增加:
如果存在特定的翻譯需求,例如術語翻譯或指定翻譯風格,每次都需要進行交互,這進一步佔用人力。
以上問題導致AI無法有效提高業務的翻譯效率。由於操作繁瑣,使用者很難形成使用習慣,他們往往會下意識地認為直接自己翻譯比使用AI更好,因此替換成本較高。
此外,AI翻譯存在幻覺問題,無法提供超出預期的使用者體驗。
由此,【(新體驗-舊體驗)-替換成本】 並沒有大於0,直接使用AI 的原生的交互方式並不能有效地提高業務率,因此需要一些更native的方式。
一、什麼是AI Agent
鑑於目前人工智慧面臨的挑戰,我們需要思考如何在B端建立自己的應用。其中一個可行的方式是嘗試建立專為業務量身定制的AI Agent
所謂AI Agent,又稱人工智慧代理,是指能夠理解、學習和執行任務的自動化程式。可以將其比喻為」將AI視為實習生,讓其承擔瑣事,而我們則負責指導這位實習生,確保其產出符合預期的結果」。
與大型模型不同,AI Agent的互動方式並不僅限於與人進行提示。它是一個系統,基於特定的工作目標,並輸出符合需求的結果。 AI Agent的核心是一個大型模型,同時還包括感知模組、計劃模組和行動模組的擴展
那麼怎麼設計符合業務需求的 AI Agent ?
1. 找到合適的業務場景
首先,我們需要確定適合AI Agent 的場景,透過模擬資料輸入和收集輸出結果的方式來評估所選場景的適宜程度。在判斷輸出結果的同時,需要考察是否符合預期。若結果不符合預期,則需要評估誤差的嚴重程度,以及準確率和召回率是否有改善空間。若存在改進空間,可以透過優化提示詞,或透過引入感知、行動和規劃模組的構建,使得AI符合我們的場景需求。
2. 梳理輸入與輸出預期
我們需要明確對於AI Agent的’目標’和’要求’,以確定我們輸入什麼,Agent需要輸出什麼。
基於這些’目標’和’要求’,我們應該思考如何選擇合適的輸入輸出方式來滿足業務需求並為業務賦能。這將有助於我們設計後續的輸出流程,並在設計驗證階段進行評估,以確定是否符合要求。
3. 梳理輸出流程
當我們面臨複雜的輸出要求時,需要設計多個AI會話流程,以使各個AI之間相互協作,最終實現符合要求的輸出結果。例如,在文字分類場景中,我們可以先使用3.5版本的大模型進行準確的一級分類,以滿足需求。
由於4.0版本的成本是3.5版本的數十倍,而3.5版本在第一級分類上已經足夠使用,因此可以選擇使用3.5版本以節省成本。接著,我們可以使用4.0版本進行二級分類,以獲得更好的分類效果,確保我們輸出所需的內容。
在設計流程時,需要考慮以下幾個因素:
在綜合考慮成本和效果的因素後,我們最終確定了一個適合的方案
4. 輸出檢定機制
為了避免AI輸出結果中存在誤導性內容對業務產生影響,我們需要建立一套有效的驗證機制。常見的驗證方法包括詞庫匹配、正規表示式匹配和人工檢驗。透過使用詞庫或人工方式攔截具有誤導性的內容。此外,我們也可以建構質檢Agent,讓AI本身對輸出進行質檢,以過濾出有問題的內容,提高誤導性內容的偵測率。
5. 幻覺兜底方案
幻覺的產生是無法完全根除的現象。為了避免對業務造成不良影響,我們需要製定兜底方案,例如:
1)人工檢驗:在AI輸出傳遞給使用者之前,引入人工檢驗環節。只有在人工檢驗通過後,才將結果輸出給使用者。如此一來,我們能夠完美地防止AI幻覺對業務產生負面影響,也能夠利用AI的輸出結果提升效率。然而,這種方法需要人力審核,因此會增加一定的人力成本。
2)合理包裝:考慮到我們是面向B端的AI應用,我們可以採用包裝輸出應用為「AI助理」等方式,直接向使用者明確表示:「這裡的輸出結果由AI生成,僅供參考」。透過這種方式,我們能夠讓使用者形成合理的心理預期,避免在出現幻覺輸出時產生不良反應。
三、總結
基於以上思路,我們便可以建構B端的翻譯Agent、資料分類Agent、智慧客服Agent等等業務了,當然這僅僅是我個人的一些思考,歡迎大家交流討論。
請投給我
我在參加人人都是產品經理2023年度評選,希望喜歡我的文章的朋友都能來支持我一下~
點擊下方連結進入我的個人參選頁面,點擊紅心即可為我投票。
每人每天最多可投30票,投票即可獲得抽獎機會,抽取書籍、人人都是產品經理紀念週邊&起點課堂會員等好禮哦!
請點選以下連結進行投票:https://996.pm/7d9yE
#專欄作家
檸檬餅乾淨又衛生,公眾號:檸檬餅乾淨又衛生,人人都是產品經理專欄作家。一名遊戲產業的B端產品,負責過遊戲產業內CRM 、風控、BI、SDK、AI相關的內容,定期輸出個人思考或總結文章~
本文原文發佈於人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基於CC0協定
以上是AI Agent在企業級設計中的思考方式的詳細內容。更多資訊請關注PHP中文網其他相關文章!