今天我們要介紹一篇論文《REACT: 在語言模型中結合推理和行為》,這篇論文是由谷歌研究院和普林斯頓大學的研究人員合作完成的。他們在探索語言模型中結合推理和行為的潛力時,發布了這篇論文。雖然大型語言模型(LLM)的推理能力和行動能力已經分別進行了研究,但這是第一次將這兩種能力結合到一個系統中。因此,我認為這篇論文非常重要。 ReAct框架允許虛擬代理使用各種工具,如連接到web和SQL資料庫,從而提供幾乎無限的擴展性
人類智慧的特徵是將以任務為導向的行動和關於下一步行動的推理無縫結合。這種能力使我們能夠快速學習新任務並做出可靠的決定,並且可以適應不可預見的情況。 ReAct的目標就是在語言模型中複製這種協同作用,使它們能夠以交錯的方式產生推理步驟和特定於任務的操作
ReAct提示大型語言模型為給定任務產生口語推理歷史步驟和操作。這些提示由少量的上下文範例組成,這些範例指導模型的思考和操作生成。下面的圖中給出了一個上下文範例。這些例子引導代理人經歷一個循環過程:產生一個想法,採取一個行動,然後觀察行動的結果。透過結合推理追蹤和操作,ReAct允許模型執行動態推理,這樣可以產生高級計劃,還可以與外部環境互動以收集額外的資訊
研究人員將ReAct應用於多種語言推理和決策任務,包括問題回答、事實驗證、基於文本的遊戲和網頁導航。結果非常出色,ReAct在可解釋性和可信賴性方面始終優於其他最先進的基線
在問答和事實驗證任務中,ReAct利用與簡單的Wikipedia API的交互,成功克服了推理過程中常見的幻覺和錯誤傳播問題。它產生了類似人類解決任務的步驟,比沒有推理痕跡的基準模型更容易解釋。在互動式決策基準測試中,即使只有一兩個上下文範例,ReAct的表現也明顯優於模仿學習和強化學習方法
儘管推理、行動和觀察步驟相互交織,提高了ReAct的可靠性和可信度,但這種結構也限制了其推理步驟的靈活性,導致在某些任務上的推理錯誤率高於思維鏈提示
研究人員也進行了消融實驗,以了解在不同任務中推理和行動的重要性。他們發現,將ReAct的內部推理和外部行為結合起來始終優於專注於推理或單獨行動的基線。這凸顯了整合這兩個過程以獲得更有效決策的價值
儘管ReAct已經取得了良好的成果,但仍有改進的空間。研究人員建議擴大ReAct的規模,以訓練和操作更多的任務,並將其與強化學習等互補範例結合。此外,還可以使用更多的手動註釋資料對模型進行微調,以進一步提高效能
ReAct在開發更智能、更通用的AI系統方面邁出了一大步,並且它還支援Langchain庫中一些非常有用的代理功能。透過將推理和行為結合在語言模型中,已經證明在一系列任務中表現得到了提升,同時也增強了可解釋性和可信度。隨著人工智慧的不斷發展,推理和行為的整合將在創造更具能力和適應性的人工智慧系統方面起到關鍵作用
請提供論文的連結:
以上是實現更聰明的AI:將推理和行為融合於語言模型中的ReAct技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!