社群

學習

工具庫

AI工具

休閒

繁体中文

目錄

新基準測試如何運作？

首頁

科技週邊

人工智慧

新測試基準發布，最強開源Llama 3尷尬了

新測試基準發布，最強開源Llama 3尷尬了

PHPz

Apr 23, 2024 pm 12:13 PM

git gpt-5 大模型 llama 3

如果試題太簡單，學霸和學渣都能考90分，拉不開差距…

隨著Claude 3、Llama 3甚至之後GPT-5等更強模型發布，業界急需一款更難、更有區分度的基準測試。

大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard，引起廣泛關注。

Llama 3的兩個指令微調版本實力到底如何，也有了最新參考。

新测试基准发布，最强开源Llama 3尴尬了

與之前大家分數都相近的MT Bench相比，Arena-Hard區分度從22.6%提升到87.4%，孰強孰弱一目了然。

Arena-Hard利用競技場即時人類數據構建，與人類偏好一致率也高達89.1%。

除了上面兩個指標都達到SOTA之外，還有一個額外的好處：

即時更新的測試資料包含人類新想出的、AI在訓練階段從未見過的提示詞，減輕潛在的資料外洩。

發布新模型後，無需再等待一周左右讓人類用戶參與投票，只需花費25美元快速運行測試管線，即可獲得結果。

有網友評價，使用真實使用者提示詞而不是高中考試來測試，真的很重要。

新测试基准发布，最强开源Llama 3尴尬了

新基準測試如何運作？

簡單來說，透過大模型競技場20萬個使用者查詢中，挑選500個高品質提示詞作為測試集。

首先，挑選過程中確保多樣性，也就是測試集應涵蓋廣泛的現實世界主題。

為了確保這一點，團隊採用BERTopic中主題建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉換每個提示，使用UMAP 降低維度，並使用基於層次結構的模型聚類演算法 (HDBSCAN) 來辨識聚類，最後使用GPT-4-turbo進行總結。

新测试基准发布，最强开源Llama 3尴尬了

同時確保入選的提示詞具有高品質，有七個關鍵指標來衡量：

領域知識：提示詞是否涵蓋一個或多個特定領域？
複雜度：提示詞是否有多層推理、組成部分或變數？
解決問題：提示詞是否直接讓AI展現主動解決問題的能力？
創造力：提示詞是否涉及解決問題的某種程度的創造力？
技術準確度：提示詞是否要求反應具有技術準確度？
實際應用：提示詞是否與實際應用相關？

新测试基准发布，最强开源Llama 3尴尬了

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的註釋，判斷滿足多少條件。然後根據提示的平均分數給每個聚類評分。

高品質的問題通常與有挑戰性的主題或任務相關，例如遊戲開發或數學證明。

新测试基准发布，最强开源Llama 3尴尬了

新基準測試準嗎？

Arena-Hard目前還有一個弱點：使用GPT-4做裁判更偏好自己的產出。官方也給了相應提示。

可以看出，最新兩個版本的GPT-4分數高過Claude 3 Opus一大截，但在人類投票分數中差距並沒有那麼明顯。

新测试基准发布，最强开源Llama 3尴尬了

其實關於這一點，最近已經有研究論證，前沿模型都會偏好自己的產出。

新测试基准发布，最强开源Llama 3尴尬了

研究團隊也發現，AI天生就可以判斷出一段文字是不是自己寫的，經過微調後自我識別的能力還能增強，並且自我識別能力與自我偏好線性相關。

新测试基准发布，最强开源Llama 3尴尬了

那麼使用Claude 3來評分會使結果產生什麼變化？ LMSYS也做了相關實驗。

首先，Claude系列的分數確實會提高。

新测试基准发布，最强开源Llama 3尴尬了

但令人驚訝的是，它更喜歡幾個開放模型如Mixtral和零一萬物Yi，甚至對GPT-3.5的評分都有明顯提高。

整體而言，使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。

新测试基准发布，最强开源Llama 3尴尬了

所以也有很多網友建議，使用多個大模型來綜合評分。

新测试基准发布，最强开源Llama 3尴尬了

除此之外，團隊也做了更多消融實驗來驗證新基準測試的有效性。

例如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分數確實會提高。

但把提示詞換成“喜歡閒聊”，平均輸出長度也有提高，但分數提升就不明顯。

新测试基准发布，最强开源Llama 3尴尬了

此外在實驗過程中還有很多有趣的發現。

例如GPT-4來評分非常嚴格，如果回答中有錯誤會狠狠扣分；而Claude 3即使辨識出小錯誤也會寬大處理。

對於程式碼問題，Claude 3傾向於提供簡單結構、不依賴外部程式碼庫，能幫助人類學習程式設計的答案；而GPT-4-Turbo更傾向最實用的答案，不管其教育價值如何。

另外即使設定溫度為0，GPT-4-Turbo也可能產生略有不同的判斷。

從層次結構視覺化的前64個聚類中也可以看出，大模型競技場使用者的提問品質和多樣性確實是高。

新测试基准发布，最强开源Llama 3尴尬了

這裡面也許就有你的貢獻。

Arena-Hard GitHub：https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace：https://huggingface.co/spaces/lmsys/arena-hard- browser
大模型競技場：https://arena.lmsys.org

參考連結：

[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04-19-arena-hard/

#

以上是新測試基準發布，最強開源Llama 3尷尬了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

顯示更多

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

4 週前 By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

4 週前 By 尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前 By DDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

4 週前 By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

顯示更多

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

顯示更多

熱門話題

gmail信箱登陸入口在哪裡

7504

15

CakePHP 教程

1378

52

steam的賬戶名稱是什麼格式

78

11

win11激活密鑰永久

52

19

NYT連接提示和答案

19

54

顯示更多

Related knowledge

h5項目怎麼運行

h5項目怎麼運行 Apr 06, 2025 pm 12:21 PM

運行 H5 項目需要以下步驟：安裝 Web 服務器、Node.js、開發工具等必要工具。搭建開發環境，創建項目文件夾、初始化項目、編寫代碼。啟動開發服務器，使用命令行運行命令。在瀏覽器中預覽項目，輸入開發服務器 URL。發布項目，優化代碼、部署項目、設置 Web 服務器配置。

Beego ORM中如何指定模型關聯的數據庫？

Beego ORM中如何指定模型關聯的數據庫？ Apr 02, 2025 pm 03:54 PM

在BeegoORM框架下，如何指定模型關聯的數據庫？許多Beego項目需要同時操作多個數據庫。當使用Beego...

Gitee Pages靜態網站部署失敗：單個文件404錯誤如何排查和解決？

Gitee Pages靜態網站部署失敗：單個文件404錯誤如何排查和解決？ Apr 04, 2025 pm 11:54 PM

GiteePages靜態網站部署失敗：404錯誤排查與解決在使用Gitee...

Go語言中哪些庫是由大公司開發或知名的開源項目提供的？

Go語言中哪些庫是由大公司開發或知名的開源項目提供的？ Apr 02, 2025 pm 04:12 PM

Go語言中哪些庫是大公司開發或知名開源項目？在使用Go語言進行編程時，開發者常常會遇到一些常見的需求，�...

在Go語言中使用Redis Stream實現消息隊列時，如何解決user_id類型轉換問題？

在Go語言中使用Redis Stream實現消息隊列時，如何解決user_id類型轉換問題？ Apr 02, 2025 pm 04:54 PM

Go語言中使用RedisStream實現消息隊列時類型轉換問題在使用Go語言與Redis...

H5頁面製作是否需要持續維護

H5頁面製作是否需要持續維護 Apr 05, 2025 pm 11:27 PM

H5頁面需要持續維護，這是因為代碼漏洞、瀏覽器兼容性、性能優化、安全更新和用戶體驗提升等因素。有效維護的方法包括建立完善的測試體系、使用版本控制工具、定期監控頁面性能、收集用戶反饋和製定維護計劃。

xml怎麼轉換成excel

xml怎麼轉換成excel Apr 03, 2025 am 08:54 AM

有兩種方法將 XML 轉換為 Excel：使用 Excel 內置功能或第三方工具。第三方工具包括 XML to Excel 轉換器、XML2Excel 和 XML Candy。

在Go編程中，如何正確管理Mysql和Redis的連接與釋放資源？

在Go編程中，如何正確管理Mysql和Redis的連接與釋放資源？ Apr 02, 2025 pm 05:03 PM

Go編程中的資源管理：Mysql和Redis的連接與釋放在學習Go編程過程中，如何正確管理資源，特別是與數據庫和緩存�...

See all articles