目錄
#Gorilla
首頁 科技週邊 人工智慧 最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

Jun 10, 2023 am 11:41 AM
ai 模型

繼羊駝之後,又來了個以動物命名的模型,這次是大猩猩(Gorilla)。

雖說目前LLM風頭正旺,進展頗多,在各種任務中的表現表現也可圈可點,但這些模型透過API調用有效使用工具的潛力還亟待挖掘。

即使對於今天最先進的LLM,例如GPT-4,API呼叫也是一項具有挑戰性的任務,主要是由於它們無法產生準確的輸入參數,並且LLM容易對API呼叫的錯誤使用產生幻覺。

這不,研究人員搞了個Gorilla,一個經過微調的基於LLaMA的模型,它在編寫API呼叫上的效能甚至超過了GPT-4。

而當與文件檢索器結合時,Gorilla同樣展現出了強大的效能,使用戶更新或版本變更變得更加靈活。

此外,Gorilla也大大緩解了LLM會經常遇到的幻覺問題。

為了評估模型的能力,研究人員也引入了API基準,一個由HuggingFace、TorchHub和TensorHub API組成的綜合資料集

#Gorilla

LLMs的各項強大的能力不用再多介紹,包括自然對話能力、數學推理能力,以及程式合成在能力什麼的。

然而,儘管性能強大,LLM仍然會受到一些限制。並且,LLM也需要重新訓練以及時更新他們的知識庫,以及推理能力。

透過授權LLM可使用的工具,研究人員可以允許LLM存取龐大的、不斷變化的知識庫,完成複雜的運算任務。

透過提供對搜尋技術和資料庫的訪問,研究人員可以增強LLM的能力,以處理更大和更動態的知識空間。

同樣,透過提供計算工具的使用,LLM也可以完成複雜的計算任務。

因此,科技巨頭已經開始嘗試整合各類插件,讓LLM能夠透過API呼叫外部工具。

從一個規模較小的手動編碼的工具,到能夠呼叫一個巨大的、不斷變化的雲端API空間,這種轉變可以將LLM轉變為運算基礎設施,以及網路所需的主要介面。

從預訂整個假期到舉辦一次會議的任務,可以變得像與能夠訪問航班、汽車租賃、酒店、餐飲和娛樂網絡API的LLM交談一樣簡單。

然而,許多先前的工作將工具整合到LLM中,考慮的是一小套有據可查的API,可以輕鬆地註入提示中。

支援一個由潛在的數百萬個變化的API組成的網路規模的集合,需要重新思考研究人員如何整合工具的方法。

現在已經不可能在單一的環境中描述所有的API了。許多API會有重疊的功能,有細微的限制和限制。在這種新的環境中簡單地評估LLM需要新的基準。

在本文中,研究人員探索了使用自我結構微調和檢索的方法,以使LLM能夠準確地從使用其API和API文件表達的大量、重疊和變化的工具集中進行選擇。

研究人員透過從公共模型中心刮取ML API(模型)來建構API Bench,這是一個具有複雜且經常重疊功能的大型API語料庫。

研究人員選擇了三個主要的模型中心來建立資料集:TorchHub、TensorHub和HuggingFace。

研究人員詳盡地包含了TorchHub(94個API呼叫)和TensorHub(696個API呼叫)中的每一個API呼叫。

對於HuggingFace,由於模型的數量很大,所以研究人員選擇了每個任務類別中下載最多的20個模型(總共925個)。

研究人員也使用Self-Instruct為每個API產生了10個使用者問題的prompt。

因此,資料集中的每個條目都成為了一個指令參考API對。研究人員採用常見的AST子樹匹配技術來評估產生的API的功能正確性。

研究人員首先將產生的程式碼解析成AST樹,然後找到一個子樹,其根節點是研究人員關心的API調用,然後使用它來索引研究人員的數據集。

研究人員檢查LLMs的功能正確性和幻覺問題,回饋相應的準確性。然後,研究人員再對Gorilla進行微調,這是一個基於LLaMA-7B的模型,使用研究人員的資料集進行文件檢索的操作。

研究人員發現,Gorilla在API功能準確性以及減少幻覺錯誤方面明顯優於GPT-4。

研究者在圖1中展示了一個實例。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

此外,研究人員對Gorilla進行的檢索感知訓練使得該模型能夠適應API文件的變化。

最後,研究者也展現了Gorilla理解和推理限制的能力。

另外,在幻覺方面,Gorilla也表現出色。

下圖是精確度和幻覺在四種情況下的對比,零樣本(即,沒有任何檢索器)以及使用BM25、GPT和Oracle的檢索器。

其中BM25和GPT是常用的檢索器,而Oracle檢索器則會以100%的相關性返回相關文檔,表示一種上限。

圖中準確度較高、幻覺較少的即為效果較好。

在整個資料集中,Gorilla在提高準確性的同時減少了幻覺。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

為了收集資料集,研究人員細緻地記錄了HuggingFace的The Model Hub、PyTorch Hub和TensorFlow Hub模型的所有線上模型。

HuggingFace平台託管和服務有總共203681個型號。

然而,其中許多模型的文檔都不咋樣。

為了過濾掉這些品質不高的模型,研究人員最後從每個領域中挑選出前20個模型。

研究人員考慮了多模態資料的7個領域,CV的8個領域,NLP的12個領域,音訊的5個領域,表格資料的2個領域,以及強化學習的2個領域。

過濾後,研究人員從HuggingFace得到了總共925個模型。 TensorFlow Hub的版本分為v1和v2。

最新的版本(v2)總共有801個模型,研究人員處理了所有的模型。在過濾掉幾乎沒有資訊的模型後,剩下了626個模型。

與TensorFlow Hub類似,研究者從Torch Hub得到95個模型。

在self-instruct範式的指導下,研究者採用GPT-4來產生合成指令資料。

研究人員提供了三個脈絡中的例子,以及一個參考的API文檔,並責成模型產生呼叫API的真實用例。

研究人員特別指示模型在建立指令時不要使用任何API名稱或提示。研究者為三個模型中心的每一個建構了六個例子(指令-API對)。

這18個點,是唯一手動產生或修改過的資料。

而Gorilla,則是檢索感知的LLaMA-7B模型,專門用於API呼叫。

如圖3所示,研究者採用自我建構來產生{指令,API}對。

為了對LLaMA進行微調,研究人員將其轉換為用戶——代理的聊天式對話,其中每個數據點都是一個對話,用戶和代理輪流交談。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

然後研究人員在基礎的LLaMA-7B模型上進行標準的指令微調。在實驗中,研究人員在有和沒有檢索器的情況下分別訓練了Gorilla。

在研究中,研究人員關注的是旨在為提高LLM針對特定任務準確識別適當的API的能力的技術——這是該技術發展中至關重要,但經常被忽略的面向。

由於API的功能是一種通用語言,使不同的系統之間能夠進行有效地溝通,正確使用API​​可以提高LLM與更廣泛的工具進行互動的能力。

在研究人員收集的三個大規模資料集中,Gorilla的性能超過了最先進的LLM(GPT-4)。 Gorilla產生了可靠的API呼叫ML模型,且沒有產生幻覺,並能在挑選API時滿足約束條件。

由於希望找到一個具有挑戰性的資料集,研究人員選擇了ML APIs,因為它們的功能相似。專注於ML領域的API的潛在缺點是,如果在有傾向的資料上進行訓練,它們就有可能產生有偏見的預測,可能對某些子群體不利。

為了消除這種顧慮並促進對這些API的深入了解,研究人員正在發布更廣泛的資料集,其中包括超過11,000個指令——API對。

在下圖這個範例中,研究人員使用抽象語法樹(AST)子樹匹配來評估API呼叫的正確性。

最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4

抽象語法樹是原始碼結構的樹形表示,有助於更好地分析和理解程式碼。

首先,研究人員從Gorilla回傳的API呼叫(左邊)建立相關的API樹。然後將其與資料集進行比較,以查看API資料集是否具有子樹匹配。

在上面的範例中,相符的子樹以棕色突出顯示,表示API呼叫確實是正確的。其中Pretrained=True是一個可選參數。

這項資源將為更廣泛的社群提供服務,作為研究和衡量現有API的寶貴工具,為更公平和優化使用機器學習做出貢獻。

以上是最強API呼叫模型來了!基於LLaMA微調,性能超過GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles