端側設備AI代理優化框架問世，領域內準確率可達97%-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

文章由NEXA AI團隊聯合MIT-IBM Watson AI Lab一起開發。一作Wei Chen（陳偉）是NEXA AI共同創辦人，CEO兼首席科學家，史丹佛大學博士，擁有豐富的人工智慧研究經驗。共同一作Zhiyuan Li（李志遠）是NEXA AI聯合創始人兼CTO，史丹佛大學校友，並在Google和Amazon Lab126實驗室擁有多年端側AI的一線研發經驗。另外兩位共同一作分別來自 MIT 和 IBM 的Zhen Guo和Yikang Shen。

AI 代理得越來越重要，能夠實現自主決策和解決問題。為了有效運作，這些代理人需要一個確定最佳行動方案的規劃過程，然後執行計畫的行動。

在本文中，我們提出了一種高效的設備端計劃-行動框架，將計劃和行動執行分為兩個組件：一個優化用於邊緣設備的計劃代理，或稱為Octo-planner，以及一個使用Octopus 模型執行函數的行動代理。 Octo-planner 首先透過將任務分解為一系列子步驟來回應使用者查詢，然後由 Octopus 行動代理執行這些子步驟。為了優化資源受限設備上的效能，我們採用模型微調而不是上下文學習，減少運算成本和能耗，同時提高回應時間。

我們的方法包括使用 GPT-4 產生基於可用函數的多樣化規劃查詢和回應，並進行後續驗證以確保資料品質。我們在精心整理的資料集上微調 Phi-3 Mini 模型，在域內測試環境中實現了 97% 的成功率。

為了解決多域規劃挑戰，我們開發了一種多 LoRA 訓練方法，將在不同函數子集上訓練的 LoRA 權重合併。此方法在保持資源受限設備上的運算效率的同時，靈活處理複雜的多域查詢。

Paper：https://arxiv.org/pdf/2406.18082
Demo：https://www.nexa4ai.com/ocingolvido
//huggingface.co/NexaAIDev/octopus-planning

人工智慧（AI）代理透過實現自主決策和提高操作效率顯著改變了各個行業。這些代理依賴於一個關鍵的規劃過程，該過程包括確定最佳行動方案，執行計劃的行動，以及總結結果。大型語言模型（LLM）如 Gemini-Pro 和 GPT-4 在這一領域顯示出潛力。端側設備AI代理優化框架問世，領域內準確率可達97%

雖然這些模型在執行複雜的規劃任務時面臨挑戰，難以達到與人類表現相當的水平，但它們在處理簡單任務方面仍然有效，從而促進實際應用。其中一個這樣的應用是來自 MultiOn、Simular AI 和 Adept AI 等公司的 AI 助理工具，它們利用 LLM 的能力在各個領域提供智慧助理。

此外，消費者導向的 AI 硬體產品，如 Rabbit R1、Humane AI Pin 和 Limitless Pendant，將 LLM 整合到用戶友好的設備中，使智慧助理更易於訪問，並推動顯著的吸引力。 AI 代理的成功取決於基礎 LLM 的效能。使用預訓練模型而未在任務示範上進行微調的代理，其成功率相對較低，從桌面應用的12% 到行動應用的46% 不等，而利用微調模型的代理在類似於其訓練資料的任務上可達到高達80% 的成功率。

然而，使用 LLM 的 AI 代理由於高運算需求和基礎設施費用而成本高昂，限制了廣泛採用。缺乏設備端 AI 代理限制了需要即時處理、離線函數或增強隱私的應用。設備端 AI 代理提供了包括降低延遲、離線操作、降低成本和改善資料安全性等優勢。雖然如 Octopus V2 的行動模型在函數呼叫上實現了 95% 以上的準確率，但仍缺乏一個裝置端規劃模型。通用代理框架使用單模型上下文學習，需要在每個提示中包含冗長的函數描述和規劃說明。這種方法對於上下文長度有限的設備端模型而言不切實際，導致高延遲和邊緣設備上的電池消耗。

在本文中，我們介紹了 Octo-planner，一個設備端規劃代理，解決了效率、適應性和資源限制的關鍵挑戰。我們的計畫 - 行動框架將計畫和行動執行分為兩個元件：一個最佳化用於邊緣設備的計畫代理，或稱為 Octo-planner，以及一個使用 Octopus 模型執行函數的行動代理。

透過優先考慮微調而不是少樣本提示，我們減少了計算成本，並最小化了鍵值（KV）快取需求。我們的方法使用 GPT-4 產生和驗證規劃數據，然後用於微調 Phi-3 Mini 以進行裝置端部署。在域內測試中表明，這種微調提高了規劃成功率至 97%。為了解決多域規劃挑戰，我們開發了一種多 LoRA 訓練方法，將在不同函數子集上訓練的 LoRA 權重合併。這種方法在維持資源受限設備上的運算效率的同時，靈活處理複雜的多域查詢。

透過專注於簡單任務的預定義函數和利用微調，我們旨在使 AI 代理在實際應用中更加實用、可訪問和經濟高效。

這項工作旨在為使 AI 更加可訪問和實用的持續努力做出貢獻。透過彌合 AI 代理潛力與邊緣運算限制之間的差距，我們希望促進智慧型裝置端助理在各個領域的採用。透過開源我們的方法，我們希望激發設備端 AI 的進一步創新，擴展先進規劃能力的應用範圍。

2 相關工作

計劃代理：語言模型已成為計劃代理系統中的關鍵。 OpenAI 的助理 API 等專有模型在基於使用者查詢和可用函數產生策略方面表現出色。最近的進展進一步擴展了語言模型在計劃中的能力。 ReAct 框架將計畫和行動整合在有限的動作空間中，而阿里巴巴集團的研究強調了單獨的計畫和行動模式在複雜任務中的有效性。在機器人技術中，語言模型也越來越多地應用於任務層級的計劃。值得注意的例子包括 SayCan，它使用 LLM 將高層任務分解為具體的子任務，以及視訊語言計劃（VLP），透過文字到視訊動態模型增強了長時間計劃。語言模型在計劃系統中的廣泛應用，從一般策略到特定的機器人任務，突顯了其在各種決策過程中日益重要和適應性的地位。

微調替代長上下文：微調語言模型以內部化特定的提示或上下文資訊可以減少輸入長度並提高效率。這種方法包括在精心整理的特定任務資料集上訓練模型。對於上下文視窗有限的模型，這種技術尤其有價值，因為它可以在不犧牲回應品質的情況下提高查詢處理效率。微調的成功在很大程度上取決於使用多樣化、高品質的數據集，以確保模型可以在各種提示措辭中進行概括。如果實施得當，微調可以簡化特定應用的交互，解決實際部署中的上下文長度限制和計算挑戰。

LoRA 和 Multi-LoRA: 低秩適應（LoRA）可以有效地將預訓練語言模型適應特定任務。與微調不同，微調更新所有參數，而 LoRA 則凍結預訓練權重並在每一層中添加可訓練的低秩矩陣，顯著減少了可訓練參數和計算需求。 Multi-LoRA 擴展了這個概念，使多個特定任務的適配器可以訓練、組合或在推理時切換，允許單一基礎模型高效處理各種任務。在這些方法的基礎上，研究人員開發了幾種相關變體，以解決模型適應的不同方面：LoRA + 優化學習率，VeRA 使用隨機投影，AdaLoRA 實現了自適應秩，DoRA 分解權重，Delta-LoRA更新預訓練權重。這些變體旨在在特定場景下進一步提高效率或性能。

3 方法

本節介紹我們用於設備端計劃 - 行動代理的框架。我們首先描述計劃和行動代理的集成，以實現高效的問題解決。然後詳細說明我們用於規劃代理的資料集設計和訓練過程，包括對廣泛函數的支援以及附加函數集的即插即用能力。最後，我們概述了用於評估代理性能的基準測試。

3.1 計劃和行動代理框架

我們的計劃 - 行動方法透過將計劃和行動執行過程分為兩個組件來區別於通用代理框架。這種分離提高了模組化，使每個組件的專門優化成為可能。該框架的操作如下：

計劃階段：給定使用者查詢 q，我們的計劃模型 πplan 將任務分解為一系列子步驟。形式上：

{τ1, τ2, ..., τn} - πplan (q;F )

其中 F 是可用函數描述的集合，τi 是第 i 個執行步驟。 πplan 在指令微調期間內部化 F。

行動階段：對於執行序列中的每一步，我們採用行動模型 πaction。在步驟 i，給定當前狀態的觀察 Oi，行動模型執行：

Oi+1 = πaction (τi, Oi)，(2)

其中 Oi+1 和 τi+1 傳遞給下一步以繼續執行。這個迭代過程確保任務子步驟的連貫進展。

對於行動模型，我們使用專為裝置端函數呼叫設計的 Octopus 模型。圖 2 展示了我們計劃 - 行動框架與單模型 LLM 代理的區別。

^{圖 2：單 LLM 代理和計劃 - 行動代理框架的比較。（左）單 LLM 代理：統一模型執行任務規劃與行動執行。（右）計畫 - 行動代理：專門的計畫模型將任務分解為子任務，而單獨的行動模型依序執行每個子任務。}

我們的框架模組化設計提供了幾個優勢：

專業化：將計劃和行動執行分開，使每個模型針對其特定角色進行優化，從而提高複雜任務的性能。
可擴展性：獨立擴展計劃和行動能力，能高效適應不同任務的複雜性。
可解釋性：顯式分離階段，提高了決策過程的透明度。
適應性：更容易將領域特定知識或限制整合到任一階段，而無需系統範圍內的變更。

3.2 計畫資料集

我們的框架使用 Octopus 模型作為行動模型，只需訓練計畫代理。我們使用以下資料集格式微調計畫代理：

用於聊天模型預訓練的特殊標記如和是可選的。我們設定 n 為 1-5，根據我們的發現，大多數行動應用程式上的任務由少於 5 步組成。資料集產生和整理過程包括：

1. 資料集收集：給定可用函數 F，我們使用大型語言模型（GPT-4）產生由這些函數回答的多樣化查詢。我們增加模型的溫度設定以確保查詢多樣性。然後按指定的資料集格式產生回應。重要的是，在生成過程中使用函數描述，但在最終資料集中不包括它們。相反，計劃模型在訓練期間內部化此函數資訊。

2. 資料驗證：我們使用相同的語言模型作為驗證工具來評估查詢 - 回應對的正確性。儘管初始生成過程中存在一些錯誤，但我們發現模型有效地將生成的內容分類為有效或無效，從而使我們能夠過濾出錯誤的輸出並保持資料集品質。

下面顯示了不同子步驟數量的範例資料點：

有關資料集收集的可視化，請參見圖 3。範例函數描述在附錄 7.1 中。

3.3 基準設計

我們的評估依賴於精心構建的測試資料集。此資料集旨在代表現實世界規劃的複雜性，採用多階段方法，結合自動產生、專家驗證和實證測試。

過程始於使用 GPT-4 自動產生的包含 1000 個資料點的初始資料集。然後這些數據點經歷嚴格的品質保證過程，以確保其完整性和相關性。品質評估標準如下：

每個步驟必須對應現有函數；
步驟的順序必須正確。

為了確保評估的可靠性，我們加入了一個額外的人工驗證階段。此階段涉及選擇子集範例進行端到端模型執行，從而驗證結果的準確性，並對模型效能進行全面評估。

為了評估我們提出的計劃模型，我們使用 GPT-4 作為 Oracle 來確定生成計劃的正確性。這個選擇是基於經驗觀察，顯示 GPT-4 在我們的特定用例中表現出高效率。

4 實驗設計

我們的實驗設計評估了 Octo-planner 在設備端 AI 代理規劃中的表現。我們的目標是確定在資源受限設備上部署高效、準確的規劃模型的最佳配置，同時保持對新領域和函數的適應性。我們的實驗主要集中在四個關鍵領域：

全微調與 LoRA 之間的效能和效率權衡。
Multi-LoRA 在同時處理不同函數集時的準確性。
各種基礎模型和規模的效能比較。
資料集大小對準確度的影響，範圍從 100 到 1000 個訓練範例。

我們在精心整理的資料集上進行監督微調，使用 Phi-3 Mini 和其他一些替代品作為基礎模型。訓練包括全微調和 LoRA 技術。對於所有實驗，我們將資料集大小設定為可用函數數量的 800 倍，並在 NVIDIA A100 GPU 上進行微調。我們在兩種技術上使用最佳化的超參數：學習率為 5×10-6，批量大小為 4，預熱比例為 0.2，訓練 2 個週期。對於 LoRA，我們將 target_modules 設定為所有線性。

5 結果

5.1 全微調與 LoRA

表 1 展示了我們的計劃模型在全微調和 LoRA 方法上的詳細比較。我們的實驗顯示了這些方法在性能上的顯著差異。全微調在 98.1% 的準確率上實現了最高性能，表現出優越的性能。相較之下，LoRA 的表現取決於秩大小。在秩 64 和 alpha 256 下，LoRA 達到 85.1% 的準確率，而減少到秩 16 和 alpha 32 時，準確率降至 72.9%。這些結果突顯了使用 LoRA 時模型效能與計算效率之間的權衡。儘管全微調提供了更好的準確率，LoRA 在資源效率方面提供了更具吸引力的替代方案，性能取決於秩配置。

^{1：全鍵時與其中一起訓練與基準測試時合併 575 時相接}

儘管基於LoRA 的訓練在特定函數集上有效，現實世界的應用通常需要處理新的或擴充的函數集。為了解決這個挑戰，我們提出將每個在不同函數子集上訓練的 LoRA 權重合併到同一個基礎模型中的方法。這種方法創建了一個組合模型，結合了各種函數集的知識，為資源受限環境中的複雜多域查詢提供了可擴展的解決方案。

為了評估此方法，我們建立了一個基準資料集，透過隨機選擇每個 LoRA 領域的函數並將它們組合成工作流程。查詢和計劃由 GPT-4 產生。例如，在測試兩個合併的 LoRA 時，查詢可能涉及 Android 函數、電子商務函數或兩者，機率相等。

以下程式碼區塊顯示了我們的基準資料集中的範例查詢及多 LoRA 合併模型的對應推理結果：

表 2 展示了我們多 LoRA 合併技術的效能結果。每個獨立的 LoRA 都使用一致的超參數進行訓練：秩 64，lora_alpha 256，target_modules 設定為 “all-linear”。單域 Android 函數集 LoRA 達到 85.1% 的準確率。當合併兩個網域（Android 和電子商務）的 LoRA 時，準確率略降至 82.2%。進一步合併的準確率下降如下：三個領域（增加視訊串流）的準確率為 78.9%，四個領域（增加旅行）的準確率為 69.7%。這些結果揭示了隨著我們整合更多函數集，準確率逐漸下降的趨勢，尤其是在添加第三個域後下降更明顯。

端側設備AI代理優化框架問世，領域內準確率可達97%

表 3 展示了在全微調後使用不同基礎模型的基準準確率。 Google Gemma 2b 實現了 85.6% 的準確率，而更大的 Gemma 7b 以 99.7% 的準確率表現出色。微軟 Phi-3 Mini 也表現強勁，達到 98.1% 的準確率。這些結果表明我們的框架適應各種設備端 LLM，較大的模型通常實現更高的準確率。

5.4 使用不同資料集規模的全微調

我們的預設訓練資料集包含1000 個資料點，均勻分佈在1-5 步序列中（每個200 個），以代表不同任務的複雜性。我們研究了資料集規模對模型效能的影響，以優化函數集整合效率並解決合成資料生成成本。表 4 展示了不同訓練資料集規模的基準準確率：

結果顯示資料集規模與準確率之間有明顯的相關性。完整的 1000 點資料集達到 98.1% 的準確率，而減少到 500 個資料點的準確率下降至 92.5%。進一步減少到 250 和 100 個數據點，準確率分別為 85.3% 和 78.1%。這些發現表明，為了達到最佳效能，建議使用超過 1000 個資料點的訓練資料集。

6 結論

本文介紹了 Octo-planner，一個設計用於與 Octopus V2 等行動代理協作的設備端規劃代理。

透過分離計畫和行動執行，我們提高了專業化和適應性。我們的方法微調了 Phi-3 Mini（一種 38 億參數的 LLM），使其能夠在邊緣設備上本地運行，在域內測試中達到 97% 的成功率。我們減少了運算需求，提高了延遲和電池壽命，並實現了多 LoRA 技術，用於在不進行完全再訓練的情況下擴展模型能力。 Octo-planner 為解決 AI 部署問題做出了貢獻，包括資料隱私、延遲和離線函數。它代表了向實用、複雜的個人設備 AI 代理的進步。

透過開源我們的模型權重，我們旨在推動設備端 AI 的創新，促進高效、尊重隱私的應用程式的開發，增強日常生活，而不影響效能或安全性。

7. 限制和未來工作

儘管我們的當前模型在特定的手機使用案例中表現有效，但在更廣泛的適用性方面存在局限性。

與 ReAct 等框架不同，它們基於即時回饋在計劃步驟和執行行動之間交替，我們的模型在前進行所有計劃。這種事先規劃的方法在處理簡單任務方面效率較高，但在條件可能在執行過程中變化的複雜或不可預測的場景中可能不那麼適應。

未來的工作將著重於探索基於即時觀察的迭代規劃方法，以改善對動態環境的適應性。我們還計劃研究將我們的計劃模型與多樣化的行動模型集成，將其能力擴展到行動應用之外的領域，如物聯網、機器人技術和智慧家庭系統。這些進展將解決當前的局限性，擴展我們設備端規劃模型的多函數性，以彌合高效、本地化 AI 處理與複雜的現實世界需求之間的差距。

以上是端側設備AI代理優化框架問世，領域內準確率可達97%的詳細內容。更多資訊請關注PHP中文網其他相關文章！