新測試基準發布,最強開源Llama 3尷尬了
如果試題太簡單,學霸和學渣都能考90分,拉不開差距…
隨著Claude 3、Llama 3甚至之後GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。
大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。
Llama 3的兩個指令微調版本實力到底如何,也有了最新參考。
與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。
Arena-Hard利用競技場即時人類數據構建,與人類偏好一致率也高達89.1%。
除了上面兩個指標都達到SOTA之外,還有一個額外的好處:
即時更新的測試資料包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的資料外洩。
發布新模型後,無需再等待一周左右讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可獲得結果。
有網友評價,使用真實使用者提示詞而不是高中考試來測試,真的很重要。
新基準測試如何運作?
簡單來說,透過大模型競技場20萬個使用者查詢中,挑選500個高品質提示詞作為測試集。
首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界主題。
為了確保這一點,團隊採用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用UMAP 降低維度,並使用基於層次結構的模型聚類演算法 (HDBSCAN) 來辨識聚類,最後使用GPT-4-turbo進行總結。
同時確保入選的提示詞具有高品質,有七個關鍵指標來衡量:
- ##具體性:提示詞是否要求特定的輸出?
- 領域知識:提示詞是否涵蓋一個或多個特定領域?
- 複雜度:提示詞是否有多層推理、組成部分或變數?
- 解決問題:提示詞是否直接讓AI展現主動解決問題的能力?
- 創造力:提示詞是否涉及解決問題的某種程度的創造力?
- 技術準確度:提示詞是否要求反應具有技術準確度?
- 實際應用:提示詞是否與實際應用相關?
但令人驚訝的是,它更喜歡幾個開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。
整體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。
所以也有很多網友建議,使用多個大模型來綜合評分。
除此之外,團隊也做了更多消融實驗來驗證新基準測試的有效性。
例如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。
但把提示詞換成“喜歡閒聊”,平均輸出長度也有提高,但分數提升就不明顯。
此外在實驗過程中還有很多有趣的發現。
例如GPT-4來評分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使辨識出小錯誤也會寬大處理。
對於程式碼問題,Claude 3傾向於提供簡單結構、不依賴外部程式碼庫,能幫助人類學習程式設計的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。
另外即使設定溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。
從層次結構視覺化的前64個聚類中也可以看出,大模型競技場使用者的提問品質和多樣性確實是高。
這裡面也許就有你的貢獻。
Arena-Hard GitHub:https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace:https://huggingface.co/spaces/lmsys/arena-hard- browser
大模型競技場:https://arena.lmsys.org
參考連結:
[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04-19-arena-hard/
以上是新測試基準發布,最強開源Llama 3尷尬了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

運行 H5 項目需要以下步驟:安裝 Web 服務器、Node.js、開發工具等必要工具。搭建開發環境,創建項目文件夾、初始化項目、編寫代碼。啟動開發服務器,使用命令行運行命令。在瀏覽器中預覽項目,輸入開發服務器 URL。發布項目,優化代碼、部署項目、設置 Web 服務器配置。

在BeegoORM框架下,如何指定模型關聯的數據庫?許多Beego項目需要同時操作多個數據庫。當使用Beego...

GiteePages靜態網站部署失敗:404錯誤排查與解決在使用Gitee...

Go語言中哪些庫是大公司開發或知名開源項目?在使用Go語言進行編程時,開發者常常會遇到一些常見的需求,�...

Go語言中使用RedisStream實現消息隊列時類型轉換問題在使用Go語言與Redis...

H5頁面需要持續維護,這是因為代碼漏洞、瀏覽器兼容性、性能優化、安全更新和用戶體驗提升等因素。有效維護的方法包括建立完善的測試體系、使用版本控制工具、定期監控頁面性能、收集用戶反饋和製定維護計劃。

有兩種方法將 XML 轉換為 Excel:使用 Excel 內置功能或第三方工具。第三方工具包括 XML to Excel 轉換器、XML2Excel 和 XML Candy。

Go編程中的資源管理:Mysql和Redis的連接與釋放在學習Go編程過程中,如何正確管理資源,特別是與數據庫和緩存�...
