社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 300美元平替ChatGPT！斯坦福130億參數'小羊駝”誕生

300美元平替ChatGPT！斯坦福130億參數'小羊駝”誕生

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-04-04 11:20:46

轉載

1485 人瀏覽過

繼Alpaca 後，史丹佛聯手CMU、UC伯克利等機構的學者再次發布了130億參數模型駱馬（Vicuna），只需300美元就能實現ChatGPT 90%的性能。

繼Meta的LLaMA模型開源後，AI界研究人員就在這個模型基礎上衍生出許多版本。

前段時間，史丹佛發布了Alpaca，是由Meta的LLaMA 7B微調而來，僅用了52k數據，性能可以與GPT-3.5匹敵。

今天，史丹佛學者聯手CMU、UC柏克萊等，再次推出全新模型－130億參數的Vicuna，俗稱「小羊駝」（駱馬）。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

Vicuna是透過在ShareGPT收集的用戶分享對話上對LLaMA進行微調訓練而來，訓練成本近300美元。

研究人員設計了8個問題類別，包括數學、寫作、編碼，對Vicuna-13B與其他四個模型進行了效能測試。

測試過程使用GPT-4作為評判標準，結果顯示Vicuna-13B在超過90%的情況下實現了與ChatGPT和Bard相匹敵的能力。

同時，在超過90%的情況下勝過了其他模型，如LLaMA和史丹佛的Alpaca。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

團隊成員來自加州大學柏克萊分校、卡內基美隆大學、史丹佛大學、加州大學聖地牙哥分校和本·扎耶德人工智慧大學。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

90%匹敵ChatGPT

研究人員讓史丹佛的Alpaca和Vicuna來了一輪大比拼，分別對基準問題回答進行了演示。

在使用70K用戶共享的ChatGPT對話資料對Vicuna進行微調後，研究發現Vicuna能夠產生比Alpaca更詳細、結構更合理的答案。

問：寫一篇關於最近去夏威夷旅行的有趣的旅遊部落格文章，強調文化體驗和必看景點。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

Alpaca的答案可以說是濃縮版，短短幾行就寫完了，沒有按照要求完成任務。它只是提到了自己寫了一篇博客，並對博客內容做了一個概述。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

再來看Vicuna，撰寫了一篇詳細且引人入勝的旅遊部落格文章，不僅內容有趣，還詳細地介紹了夏威夷的文化體驗和必看景點。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

由此，讓GPT-4給評分，Alpaca7分，Vicuna滿分。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

那麼跟ChatGPT對打，Vicuna的表現又如何呢？

兩者雙雙得了9分！

可以看到，這兩個模型提供一次夏威夷之旅的文章不僅引人入勝，而且文筆流暢。

另外，兩個回答中的詳細程度和準確性都很出色，而且兩個模型都有效地傳達了夏威夷之旅的興奮和美麗。

此外，研究人員還將Vicuna與LLaMA，以及Google的Bard模型進行了測試，測試結果顯示，LLaMA表現最差（1分），幾乎沒有回應。

Bard回答的準確性和相關性也是比較高，有9分的成績，但是在更具吸引力回答方面，略低於Vicuna。

除了寫作，研究人員在編碼、數學、角色扮演、常識等方面分別對Vicuna模型與其他四個模型的能力進行了對比，總共80題。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

最後，研究者基於GPT-4的初步評估總結如圖所示。可以看到，Vicuna達到了Bard/ChatGPT的90%以上的能力。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

GPT-4評估的相對反應品質

有趣的是，在這次Vicuna的demo中，團隊也加入了Alpaca和LLaMA的試用，而前者剛關閉不久。

Demo網址：https://chat.lmsys.org/

#

模型介紹

ChatGPT橫空出世讓人興奮不已，但OpenAI不Open的事實讓圈內人實在懊惱。

恰恰，Meta的LLaMA模型開源，為許多研究人員動手研發自己的模型提供了選擇。

Vicuna-13B誕生正是受到LLaMA和史丹佛Alpaca計畫的啟發。這是一個基於增強資料集和易於使用、可擴展的基礎架構的開源聊天機器人。

此模型的訓練資料來自於ShareGPT收集的使用者分享的對話，然後研究人員透過對LLaMA基本模型進行微調，Vicuna-13B就誕生了。

Vicuna-13B展示了與其他開源模型（如斯坦福Alpaca）相媲美的性能。

研究人員對Vicuna-13B的性能進行了初步評估，並描述了其訓練和服務基礎設施。

同時，這個模型演示demo已經上線，所有研究人員都能參與線上演示互動，以測試這個聊天機器人的能力。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

工作流程概述

對於Vicuna-13B訓練流程，具體如下：

首先，研究人員從ChatGPT對話分享網站ShareGPT上，收集了大約70K對話。

接下來，研究人員優化了Alpaca提供的訓練腳本，使模型能夠更好地處理多輪對話和長序列。之後利用PyTorch FSDP在8個A100 GPU上進行了一天的訓練。

在模型的品質評估方面，研究人員創建了80個不同的問題，並用GPT-4對模型輸出進行了評估。

為了比較不同的模型，研究者將每個模型的輸出組合成一個單獨的提示，然後讓GPT-4評估哪個模型給出的答案會更好。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

LLaMA、Alpaca、Vicuna和ChatGPT的對比

訓練

Vicuna是透過使用來自ShareGPT公共API收集的約70K用戶分享對話資料微調創建的。

為了確保資料質量，研究人員將HTML轉換回markdown，並過濾掉一些不適當或品質較低的樣本。

另外，研究人員將較長的對話分成較小的片段，以適應模型的最大上下文長度。

Vicuna的訓練方法建立在史丹佛的Alpaca基礎上，並進行了以下改進：

##記憶體最佳化：

為了讓Vicuna能夠理解長上下文，將最大上下文長度從Alpaca的512擴展到2048，這大大增加了GPU記憶體需求。在此，研究人員透過使用梯度檢查點和閃存注意力來解決記憶體壓力。

多輪對話：

透過調整訓練損失以考慮多輪對話，並僅在聊天機器人的輸出上計算微調損失。

透過Spot實例降低成本：

40倍的資料集和4倍的序列長度對訓練帶來了相當大的挑戰。研究人員採用SkyPilot託管的Spot實例來降低成本，透過利用自動恢復搶佔與自動區域切換進而減少成本。

這個解決方案將7B模型的訓練成本從500美元降低到約140美元，將13B模型的訓練成本從約1000美元降低到300美元。

評估

評估AI聊天機器人是一項具有挑戰性的任務，因為它需要檢查語言理解、推理和上下文意識。隨著AI聊天機器人變得越來越先進，現有的開放基準可能不再足夠。

例如，史丹佛Alpaca中使用的評估資料集self-instruct，可以被SOTA聊天機器人有效地回答，這使得人類難以分辨效能差異。更多的限制包括訓練/測試資料污染和創建新基準的潛在高成本。

為了解決這些問題，研究人員提出了一個基於GPT-4的評估框架，從而實現對聊天機器人效能的自動評估。

首先，透過精心設計的提示，讓GPT-4能夠產生多樣化且具有挑戰性的問題。並利用8個不同類別共80題，如角色扮演、編碼/數學任務等，來測試這些模型（LLaMA、Alpaca、ChatGPT、Bard和Vicuna）在不同領域上表現出的表現。

然後，研究人員要求GPT-4根據幫助程度、相關性、準確性和細節對答案的品質進行評分。結果顯示，GPT-4不僅可以產生相對一致的分數，還可以提供詳細的解釋來說明為什麼給出這樣的分數。但是，GPT-4並不擅長評判編碼/數學任務。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

GPT-4評估的反應比較

GPT-4在超過90%的問題中喜歡Vicuna，而不是現有的SOTA開源模型（LLaMA 、Alpaca）。

在45%的問題中，GPT-4認為Vicuna的回答和ChatGPT差不多甚至更好。

綜合來看，Vicuna在總分上達到ChatGPT的92%。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

限制

研究人員指出，與其他大語言模型類似，Vicuna也存在著一定的限制。

例如，Vicuna在涉及程式設計、推理、數學以及事實準確性的任務上表現不佳。

此外，它也沒有經過充分優化以保證安全性或減輕潛在的毒性或偏見。

為解決安全方面的問題，研究人員在demo中採用了OpenAI的審查API來過濾掉不適當的用戶輸入。

剩下的名字不多了

現在，除了美洲駝（LLaMA），羊駝（Alpaca），駝馬（Vicuna）都安排上了。

研究人員要趕快衝，因為留給你們的名字不多了（1個）。

300美元平替ChatGPT！斯坦福130億參數小羊駝”誕生

以上是300美元平替ChatGPT！斯坦福130億參數'小羊駝”誕生的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型智慧

上一篇：Bard是拿ChatGPT資料訓練的？谷歌頂尖科學家抗議無果，出走OpenAI 下一篇：學術科學研究專用ChatGPT來了！週末剛開源，GitHub拿下3k+星星

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

如何使用Yolo V12進行對象檢測？

2025-03-22 11:07:21
2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！

2025-03-22 10:58:15
Uber的指南H3用於空間索引

2025-03-22 10:54:14
R.E.D。：與專家代表團的縮放文本分類

2025-03-22 10:33:09
DeepSeek #opensourceweek第6天：推理系統概述

2025-03-22 10:26:10

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1439233
php入門教程之一週學會PHP

4300459
JAVA 初級入門影片教學

2681196
小甲魚零基礎入門學習Python影片教學

517856
PHP 零基礎入門教學

879306

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板