可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了-人工智慧-PHP中文網

PandaLM介紹

首頁

科技週邊

人工智慧

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

PHPz

May 25, 2023 pm 07:16 PM

ai 模型

大模型的發展可謂一日千里，指令微調方法猶如雨後春筍般湧現，大量所謂的 ChatGPT “平替” 大模型相繼發布。在大模型的訓練與應用開發中，開源、閉源以及自研等各類大模型真實能力的評測已成為提升研發效率與品質的重要環節。

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

具體來說，在大模型的訓練與應用中，大家可能曾經遇到以下問題：

1、在大模型微調或增強預訓練中使用了不同的基座和參數，根據觀察到的樣例效果，模型的表現在不同場景下各有優劣，如何確定在實際應用中使用哪個模型？

2、使用 ChatGPT 對模型輸出進行評估，但是 ChatGPT 對相同輸入在不同時間得到的評估結果不同，到底採用哪個評估結果？

3、採用人工標註對模型產生結果進行評測耗時費力，在經費預算有限和時間緊迫的情況下，如何加速評估過程並降低成本？

4、在處理機密資料時，不管用 ChatGPT/GPT4 或標註公司進行模型評測都面臨資料外洩問題，如何確保資料安全？

基於這些問題，來自北京大學、西湖大學等機構的研究者共同提出了一種全新的大模型評估範式——PandaLM。 PandaLM 透過訓練一個專門用於評估的大模型，對大模型能力進行自動化且可重複的測試驗證。 PandaLM 於 4 月 30 日在 GitHub 上發布，是全球首個評估大模型的大模型。相關論文會在近期公佈。

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

GitHub網址：https://github.com/WeOpenML/PandaLM

#PandaLM 旨在透過訓練使得大模型學習到人類對不同大模型生成文本的總體偏好，並作出基於偏好的相對評價，以替代人工或基於API 的評價方式，降本增效。 PandaLM 的權重完全公開，可以在消費級硬體上運行，硬體門檻低。 PandaLM 的評估結果可靠，完全可復現，並且能夠保護資料安全，評估過程均可本地完成，非常適合學術界和需要保密資料的單位使用。使用 PandaLM 非常簡單，只需三行程式碼即可呼叫。為驗證 PandaLM 的評估能力，PandaLM 團隊邀請了三位專業標註員對不同大模型的輸出進行獨立的優劣判斷，並建構了包含 50 個領域、1000 個樣本的多樣化測試集。在此測試集上，PandaLM 的準確率達到了 ChatGPT 94% 的水平，且 PandaLM 產生了和人工標註相同的模型優劣結論。

PandaLM介紹

目前，主要有兩種方式來評估大型模型：

（1）透過呼叫第三方公司的API 介面；

（2）僱用專家進行手動標註。

然而，將資料傳送給第三方公司可能導致類似三星員工外洩程式碼的資料外洩問題 [1]；而僱用專家標註大量資料既耗時又昂貴。一個亟待解決的問題是：如何實現保護隱私、可靠、可重現及廉價的大模型評估？

為了克服這兩個評估方法的局限，該研究開發了PandaLM，一個專門用於評估大型模型性能的裁判模型，並提供簡單的接口，用戶只需三行程式碼便可呼叫PandaLM 實現隱私保護、可靠、可重複且經濟的大型模型評估。關於 PandaLM 的訓練細節，請參閱開源專案。

為了驗證 PandaLM 在評估大型模型方面的能力，研究團隊建構了一個包含約 1,000 個樣本的多樣化人工標註測試集，其上下文和標籤均由人類產生。在測試資料集上，PandaLM-7B 在準確度達到了 ChatGPT（gpt-3.5-turbo）的 94% 的水平。

如何使用 PandaLM？

當兩個不同的大型模型針對相同的指令和上下文產生不同的回應時，PandaLM 的目標是比較這兩個模型回應的質量，並輸出比較結果、比較依據以及可供參考的回應。比較結果有三種：回應 1 較優；回應 2 較優；回應 1 和回應 2 品質相當。在比較多個大型模型的效能時，只需使用 PandaLM 進行兩兩比較，然後彙總這些比較結果來對模型的效能進行排名或繪製模型的偏序關係圖。這樣可以直觀地分析不同模型之間的表現差異。由於 PandaLM 僅需在本地部署，且不需要人工參與，因此可以以保護隱私和低成本的方式進行評估。為了提供更好的可解釋性，PandaLM 亦可用自然語言對其選擇進行解釋，並額外產生一組參考回應。

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

PandaLM 不僅支援使用Web UI 以便於進行案例分析，還支援三行程式碼呼叫PandaLM 對任意模型和數據生成的文本評估。考慮到許多現有模型和框架可能不是開源的或難以在本地進行推理，PandaLM 允許透過指定模型權重生成待評估文本，或直接傳入包含待評估文本的 .json 文件。使用者只需提供一個包含模型名稱、HuggingFace 模型 ID 或 .json 檔案路徑的列表，即可利用 PandaLM 對使用者定義的模型和輸入資料進行評估。以下是一個極簡的使用範例：

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

#此外，為了讓大家能夠靈活地運用PandaLM 進行自由評估，研究團隊已在HuggingFace 網站上公開了PandaLM 的模型權重。透過下列命令，您可以輕鬆地載入PandaLM-7B 模型：

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

PandaLM 的特點

PandaLM 的特點包括可重複性、自動化、隱私保護、低成本及高評估等級等。

1. 可複現性：由於PandaLM 的權重是公開的，即使語言模型輸出存在隨機性，但在固定隨機種子後，PandaLM 的評估結果仍會保持一致。而依賴線上 API 的評估手段由於更新不透明，其評估結果在不同時間可能不一致，且隨著模型迭代，API 中的舊版模型可能無法再訪問，因此基於線上 API 的評測往往不具有可複現性。

2. 自動化、隱私權保護與低成本：使用者只需在本地部署PandaLM 模型，呼叫現成指令即可評估各類大模型，無需像僱用專家那樣需保持即時溝通且擔心資料外洩問題。同時，PandaLM 整個評估過程中不涉及任何 API 費用以及勞務費用，非常廉價。

3. 評估等級：為驗證 PandaLM 的可靠性，該研究僱用了三位專家獨立完成重複標註，創建了一個人工標註測試集。此測試集包含 50 個不同場景，每個場景下方還包含多個任務。這個測試集是多樣化、可靠且與人類對文本的偏好相一致的。測試集中的每個樣本由指令與上下文，以及兩個由不同大模型產生的回應組成，並由人類來比較這兩個回應的品質。

研究剔除了標註員間差異較大的樣本，確保每位標註者在最終測試集上的 IAA（Inter Annotator Agreement）接近 0.85。需要注意的是，PandaLM 訓練集與本研究創建的人工標註測試集完全無重疊。

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

這些被過濾的樣本需要額外的知識或難以獲得的資訊來輔助判斷，這使得人類也難以對它們進行準確標註。經過篩選的測試集包含 1000 個樣本，而原始未經過濾的測試集包含 2500 個樣本。測試集的分佈為 {0：105，1：422，2：472}，其中，0 表示兩個回應品質相似；1 表示回應 1 較好；2 表示回應 2 較好。

以人類測試集為基準，PandaLM 與gpt-3.5-turbo 的效能比較如下：

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

##可以看到，PandaLM-7B 在準確度上已經達到了gpt-3.5-turbo 94% 的水平，而在精確率，召回率，F1 分數上，PandaLM-7B 已於gpt -3.5-turbo 相差無幾。可以說，PandaLM-7B 已經具備了與 gpt-3.5-turbo 相當的大模式評估能力。

除了在測試集上的準確度，精確率，召回率，F1 分數之外，該研究還提供了5 個大小相近且開源的大模型之間比較的結果。研究首先使用了相同的訓練資料對這個 5 個模型進行指令微調，接著用人類，gpt-3.5-turbo，PandaLM 對這 5 個模型分別進行兩兩比較。下表中第一行第一個元組（72，28，11）表示有72 個LLaMA-7B 的回應比Bloom-7B 的好，有28 個LLaMA-7B 的回應比Bloom-7B 的差，兩個模型有11 個回應品質相似。因此在這個例子中，人類認為 LLaMA-7B 優於 Bloom-7B。以下三張表的結果說明人類，gpt-3.5-turbo 與 PandaLM-7B 對於各個模型之間優劣關係的判斷完全一致。

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

基於上述三張表，研究產生了模型優劣的偏序圖，這個偏序圖構成了全序關係，可以表示為：LLaMA-7B > Bloom-7B > Pythia-6.9B > OPT-7B > Cerebras-GPT-6.7B。

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

總結

#綜上所述，PandaLM 提供了除了人工評估和第三方API 外的第三種評估大型模型的選擇。 PandaLM的評估水準不僅高，而且其結果具備可重現性，評估流程高度自動化，同時保護隱私且成本較低。研究團隊認為，PandaLM將推動學術界和工業界對大型模型的研究，並使更多人從這一研究領域的進展中受益。歡迎大家關注PandaLM 項目，更多的訓練、測試細節、相關文章及後續工作都會公佈在項目網址：https://github.com/WeOpenML/PandaLM

作者團隊簡介

作者團隊中，王一棟* 來自北京大學軟體工程國家工程中心（博士）和西湖大學（科研助理），於倬浩*、曾政然、蔣超亞、謝睿、葉蔚† 和張世琨† 來自北京大學軟體工程國家工程中心，楊林易、王存翔和張岳† 來自西湖大學，衡強來自北卡萊羅納州立大學，陳皓來自卡耐基美隆大學，王晉東和謝幸來自微軟亞洲研究院。 * 表示共同第一作者，† 表示共同通訊作者。

以上是可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7859

Java教學

1649

CakePHP 教程

1403

Laravel 教程

1300

PHP教程

1242

Related knowledge

排名前十的虛擬幣交易app有哪最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響，投資者需關注技術和基本面分析以做出明智決策。

全球幣圈十大交易所有哪些排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex，均提供多種交易方式和強大的安全措施。

靠譜的數字貨幣交易平台推薦全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐：1. OKX，2. Binance，3. Coinbase，4. Kraken，5. Huobi，6. KuCoin，7. Bitfinex，8. Gemini，9. Bitstamp，10. Poloniex，这些平台均以其安全性、用户体验和多样化的功能著称，适合不同层次的用户进行数字货币交易

解密Gate.io戰略升級：MeMebox 2.0如何重新定義加密資產管理？ Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎，提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化，實現了用戶價值重構。 4) 通過生態協同和合規化創新，增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置，繼續引領行業發展。

比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈，2017年達到近20,000美元，2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大，受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係，受全球股市、美元強弱等影響。 6. 長期趨勢看漲，但需謹慎評估風險。

全球幣圈十大交易所有哪些排名前十的貨幣交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex，均以高交易量和安全性著稱。

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

See all articles

可複現、自動化、低成本、高評估水平，首個自動化評估大模型的大模型PandaLM來了

PandaLM介紹

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題