首頁 > 科技週邊 > 人工智慧 > 14個流行的LLM基准在2025年知道

14個流行的LLM基准在2025年知道

William Shakespeare
發布: 2025-03-21 11:08:12
原創
224 人瀏覽過

大型語言模型(LLMS)已證明自己是一種強大的工具,在解釋和製作模仿人類語言的文本方面表現出色。然而,這些模型的廣泛可用性介紹了準確評估其性能的複雜任務。在這裡,LLM基準測試是中心舞台,提供了系統的評估,以衡量模型在語言理解和高級推理等任務中的技能。本文探討了它們的關鍵作用,突出了著名的例子,並研究了它們的局限性,並全面了解了它們對語言技術的影響。

基準測試對於評估大語言模型(LLM)至關重要,它是衡量和比較性能的標準。他們提供了一種一致的方法來評估技能,從基本語言理解到高級推理和編程。

目錄

  • 什麼是LLM基準?
  • LLM基準的需求是什麼?
  • LLM基準的工作
  • 推理基準
    • 弧:抽象和推理挑戰
    • 大量的多學科多模式理解(MMMU)
    • GPQA:高級推理的具有挑戰性的基準
    • 測量大量的多任務語言理解(MMLU)
  • 編碼基準
    • 人類事件:從語言模型中評估代碼生成
    • SWE板凳
    • SWE-Lancer
    • 實時代碼台
    • CodeForces
  • 工具使用(代理)基準
    • tau板凳
  • 語言理解和問題回答基準
    • 超級lue
    • Helloswag
  • 數學基準
    • 數學數據集
    • Aime 2025
  • 結論

什麼是LLM基準?

LLM基準測試是旨在評估語言模型在特定任務上的性能的結構化測試。他們有助於回答關鍵問題,例如:

  • 此LLM可以有效地處理編碼任務嗎?
  • 它如何在對話中提供相關答案?
  • 它是否能夠解決複雜的推理問題?

LLM基準的主要功能

  • 標準化測試:每個基準都由一組具有已知正確答案的任務組成,可以進行一致的評估。
  • 評估的各個領域:基準可以專注於各種技能,包括:
    • 語言理解
    • 數學問題解決
    • 編碼能力
    • 會話質量
    • 安全和道德考慮

LLM基準的需求是什麼?

評估的標準化和透明度

  • 比較一致性:基準有助於LLMS之間的直接比較,確保評估是透明且可再現的。
  • 性能快照:它們提供了相對於既定模型的新LLM功能的快速評估。

進度跟踪和完善

  • 監視進度:基準測試有助於觀察模型性能隨著時間的推移而改進,幫助研究人員提煉模型。
  • 發現局限性:這些工具可以確定模型不足的領域,從而指導未來的研發工作。

模型選擇

  • 明智的選擇:對於從業人員,在選擇特定任務的模型時,基準成為至關重要的參考,確保了諸如聊天機器人或客戶支持系統等應用程序的明顯決策。

LLM基準的工作

這是分步的過程:

  • 數據集輸入和測試
    • 基準為LLM提供了多種任務,例如回答問題或生成代碼。
    • 每個基準都包含文本輸入的數據集和相應的“地面真相”答案以進行評估。
  • 績效評估和評分:完成任務後,使用標準化指標(例如準確性或BLEU得分)評估模型的響應,具體取決於任務類型。
  • LLM排名和排行榜:模型根據其分數進行排名,通常顯示在匯總來自多個基準測試結果的排行榜上。

推理基準

1。弧:抽象和推理挑戰

抽象和推理語料庫(ARC)通過從Raven的漸進式矩陣中汲取靈感來基準機器智能。它挑戰了AI系統,以基於一些示例來識別序列中的下一個圖像,從而促進了很少有反映人類認知能力的學習。通過強調概括和利用“先驗”(對世界的知識知識),旨在將AI推向類似人類的推理。數據集遵循結構化的課程,系統地指導系統,通過越來越複雜的任務,同時通過預測準確性來衡量性能。儘管取得了進展,AI仍在努力達到人類水平的表現,強調了AI研究中持續的進步需求。

14個流行的LLM基准在2025年知道

抽象和推理語料庫包括人類和人工智能係統都可以解決的各種任務。受Raven的漸進式矩陣的啟發,任務形式要求參與者以順序識別下一個圖像,並測試其認知能力。

2。大量的多學科多模式理解(MMMU)

大量的多學科多模式理解和推理(MMMU)基準評估了有關大學級別知識和推理任務的多模式模型。它包括六個學科的考試,測驗和教科書中的11.5萬個問題:藝術與設計,商業,科學,健康與醫學,人文與社會科學以及技術與工程學。

這些問題涵蓋了30個受試者和183個子場,其中包含30種異構圖像類型,例如圖表,圖表,地圖和化學結構。 MMMU專注於具有特定領域知識的高級感知和推理,具有挑戰性的模型來執行專家級的任務,並旨在衡量大型多模型模型(LMMS)中的感知,知識和推理技能。包括GPT-4V在內的當前模型的評估揭示了大量改進的空間,即使高級模型僅達到56%的精度。引入了更強大的基準MMMU-PRO版本,以增強評估。

14個流行的LLM基准在2025年知道

從每個學科中抽樣MMMU示例。問題和圖像需要專家級知識來理解和推理。

3。GPQA:高級推理的具有挑戰性的基準

GPQA是448個生物學,物理和化學方面的多項選擇問題的數據集,旨在挑戰專家和高級AI。擁有PHD的領域專家創建並驗證問題,以確保高質量和難度。專家達到了65%的準確性(回顧性確定的錯誤74%),而在其他領域的非專業人士僅得分只有34%,儘管互聯網訪問不受限制,但這些問題證明了問題是“ Google-Progrone-Progne-Progge”。領先的AI模型(例如GPT-4)僅達到39%的精度。 GPQA支持對AI超過人類能力的可擴展監督的研究,即使在其專業知識之外的主題上也幫助人類提取真實的信息。

14個流行的LLM基准在2025年知道

最初,制定了一個問題,然後在同一領域的專家提供了他們的答案和反饋,其中可能包括對問題的建議修訂。隨後,問題作者根據專家的反饋來修改問題。然後將這個修訂後的問題發送給同一領域的另一位專家和三個在其他領域具有專業知識的非專家驗證者。我們考慮專家驗證者的協議(*),或者當他們最初正確回答,或者在看到正確的答案後,他們對最初錯誤提供了明確的解釋,或者證明了對作者的解釋的透徹理解。

4。測量大量的多任務語言理解(MMLU)

大量的多任務語言理解(MMLU)基準測試,旨在衡量在預處理過程中獲得的文本模型的知識。 MMLU評估了57個不同任務的模型,包括基本數學,美國歷史,計算機科學,法律等。它的格式為多項選擇問題,使評估直接。

與以前的基準相比,該基準的目標是對語言理解的更全面和挑戰性的測試,需要結合知識和推理。該論文為多種模型提供了結果,表明即使是大型審計模型在MMLU上都掙扎,這表明了語言理解能力的重大空間。此外,該論文探討了規模和微調對MMLU性能的影響。

14個流行的LLM基准在2025年知道

此任務需要理解詳細和不和諧的情況,應用適當

法律先例,並選擇正確的解釋。綠色檢查標記是地面真相。

編碼基準

5。Humaneval:從語言模型中評估代碼生成

HumaneVal是一種基準,旨在評估語言模型生成的代碼的功能正確性。它由164個編程問題組成,其中具有功能簽名,DOCSTRING和幾個單元測試。這些問題評估了語言理解,推理,算法和簡單數學方面的技能。與以前依賴句法相似性的基準不同,HumaneVal評估生成的代碼是否實際通過了提供的單元測試,從而測量了功能正確性。該基準強調了當前語言模型與人級代碼生成之間的差距,這表明即使是大型模型也很難始終如一地製作正確的代碼。它是評估代碼生成語言模型功能的具有挑戰性和實用的測試。

14個流行的LLM基准在2025年知道

以下是人類數據集中的三個說明性問題,並伴隨著Codex-12b的單個樣本通過單元測試的概率:0.9、0.17和0.005。呈現給模型的提示顯示在白色背景上,而成功的模型的完成則在黃色背景下突出顯示。儘管它不能保證問題的新穎性,但所有問題都是手工精心製作的,而不是從現有來源進行編程複製的,從而確保了獨特而具有挑戰性的數據集。

6

SWE-Bench是一種基準測試,旨在評估大型語言模型(LLMS),以解決Github上發現的現實世界軟件問題的能力。它由2,294個軟件工程問題組成,這些問題來自實際的GitHub問題,並在12個流行的Python存儲庫中提出了相應的拉力請求。該任務涉及為語言模型提供代碼庫和問題描述,並挑戰其生成解決問題的補丁。然後根據存儲庫的測試框架評估該模型提出的解決方案。 SWE Bench專注於評估整個“代理”系統,其中包括AI模型和周圍的軟件腳手架,負責生成提示,解析輸出和管理交互LOOP2。由500個樣本組成的人類驗證的子集,稱為SWE-Bench,可確保可解決的任務,並更清楚地衡量編碼劑的性能

14個流行的LLM基准在2025年知道

SWE基礎源源實例來自現實世界中的Python存儲庫,通過連接GitHub問題與解決相關測試的拉請求解決方案合併。帶有問題文本和代碼庫快照,模型生成了一個針對真實測試進行評估的補丁程序

7. Swe-Lancer

SWE-Lancer是一種基準,旨在評估Frontier語言模型(LLMS)完成現實世界中的自由軟件工程任務的功能,總價​​值為100萬美元。它包括1,400多個任務,從價值50美元的簡單錯誤修復到高達32,000美元的複雜功能實現。基準測試評估了兩種類型的任務:個人貢獻者(IC)任務,其中模型通過專業工程師的端到端測試驗證了代碼補丁,而SWE Manager任務在其中模型從多個選項中選擇最佳的實施建議。研究結果表明,即使是高級模型也難以解決大多數任務,突出了當前的AI功能和現實世界軟件工程需求之間的差距。通過將模型績效與貨幣價值聯繫起來,SWE-Lancer旨在促進對AI在軟件開發中的經濟影響的研究。

14個流行的LLM基准在2025年知道

IC SWE任務的評估過程涉及對模型性能進行徹底測試的嚴格評估。該模型包含一組任務,並且必須生成滿足所有適用測試以賺取支出的解決方案。該評估流程確保模型的輸出不僅正確,而且還全面,符合現實世界軟件工程任務所需的高標準。

8。活代碼台

LiveCodeBench是一種新穎的基準測試,旨在通過解決現有基準的局限性,對與代碼相關的任務進行大型語言模型(LLMS)的無污染評估。它使用來自LeetCode,Atcoder和CodeForces等平台上的每週編碼競賽提出的問題,該競賽用釋放日期標記以防止污染,並在自代碼生成中評估自我修復,代碼執行和測試輸出預測的LLMS。在2023年5月至2024年5月之間發布了500多個編碼問題,LiveCodebench具有高質量的問題和測試,平衡的問題難度,並且在某些模型中揭示了對HumaneVal的潛在過度擬合,突顯了各種編碼任務中不同模型的不同強度。

14個流行的LLM基准在2025年知道

LiveCodeBench通過介紹各種編碼方案提供了全面的評估方法。編碼是一項複雜的任務,我們建議通過一套評估設置來評估大型語言模型(LLM),以捕獲一系列與編碼相關的技能。除了典型的代碼生成設置之外,我們還介紹了三種其他方案:自我修復,代碼執行和新穎的測試輸出預測任務。

9。codeforces

CodeForces是一種新穎的基準測試,旨在通過直接與CodeForces平台接口來評估大語言模型(LLMS)的競爭級代碼生成能力。這種方法可通過訪問隱藏的測試案例,對特殊法官的支持以及一致的執行環境來確保准確的評估。 CodeForces引入了標準化的ELO評級系統,與CodeForces自己的評級系統保持一致,但差異降低,從而可以直接比較LLMS和人類競爭對手。對33個LLM的評估顯示出顯著的性能差異,OpenAI的O1-Mini獲得了1578年的ELO評級最高,將其置於人類參與者的前90%。基準測試揭示了高級模型的進展以及大多數當前LLMS的競爭性編程功能的相當大改進空間。 CodeForces基準及其ELO計算邏輯是公開可用的。

14個流行的LLM基准在2025年知道

CodeForces提出了廣泛的編程挑戰,並且每個問題都經過精心構建,以包括基本組件。這些組件通常包括:1)描述性標題,2)解決方案的時間限制,3)程序的內存限制,4)詳細的問題描述,5)輸入格式,6)6)預期輸出格式,7)指導程序員的測試案例示例,以及8)8)一個可選的註釋提供其他上下文或其他上下文。一個這樣的問題,標題為“ CodeForces問題E”,可以通過網址訪問:https://codeforces.com/contest/2034/problem/e。精心製作此問題以在競爭性編碼環境中測試程序員的技能,挑戰他們在給定時間和內存限制內創建高效的解決方案。

工具使用(代理)基準

10。TauBench

τbench在遵守特定於領域的策略的同時,會根據其與(模擬)人類用戶和程序化API互動的能力積極評估語言代理。與經常具有簡化指令跟隨設置的現有基準測試不同,τbench模擬用戶之間的動態對話(通過語言模型模擬)和配備了特定領域的API工具和策略指南的語言代理。該基準測試採用模塊化框架,其中包括現實的數據庫和API,特定於領域的策略文檔以及具有相應地面真實註釋的不同用戶場景的說明。 τbench的一個關鍵特徵是其評估過程,該過程將對話結束時的數據庫狀態與註釋的目標狀態進行了比較,從而可以客觀地測量代理商的決策。

該基準還引入了一個新的指標Pass^k,以評估代理行為在多個試驗中的可靠性,從而強調了對可以始終如一併在現實應用程序中可靠地遵守規則的代理的需求。最初的實驗表明,即使是最先進的功能呼叫代理在復雜的推理,策略依從性和處理複合請求方面掙扎。

14個流行的LLM基准在2025年知道

τ基礎是一種創新的基準測試,代理使用數據庫API工具和LM模擬的用戶來完成任務。它評估了代理商通過多次交互來收集和從用戶傳達相關信息的能力,同時還測試了其實時解決複雜問題的能力,從而確保了遵守在特定領域的策略文檔中概述的指南。在τ-Airline任務中,代理必須拒絕用戶根據域策略更改基本經濟飛行的請求,然後提出替代解決方案 - 續訂和重新預訂。此任務要求代理在涉及數據庫,規則和用戶意圖的複雜環境中應用零射擊推理。

語言理解和問題回答基準

11

Superglue通過先進的基準評估了自然語言理解(NLU)模型的能力,比其前任Glue提供了更苛刻的評估。 Superglue在保留了Glue最具挑戰性的兩項任務的同時,引入了需要更深入的推理,常識性知識和上下文理解的新任務。它擴展了Glue的句子和句子對分類,以包括問題回答和核心分辨率等任務。 Superglue設計師創建了受過大學教授的英語的任務,但這些任務仍然超過了當前最新系統的功能。該基準為比較提供了全面的人體基準,並提供了用於模型評估的工具包。 Superglue旨在衡量和推動進步發展通用語言理解技術。

14個流行的LLM基准在2025年知道

Superglue任務的開發集提供了各種示例,每個示例都以獨特的格式呈現。這些示例通常包括粗體文本,以指示每個任務的特定格式。模型輸入集成了斜體化文本,以提供必要的上下文或信息。它特別標記了輸入中帶下劃線的文本,通常會突出特定的焦點或要求。最後,它使用單足類字體來表示預期的輸出,展示預期的響應或解決方案。

12. Helloswag

Hellaswag是用於評估常識性自然語言推斷(NLI)的基準數據集。它挑戰機器根據給定上下文完成句子。由Zellers等人開發,其中包含70,000個問題。人類的精度超過95%,而頂級模型得分低於50%。該數據集使用對抗過濾(AF)來產生誤導但合理的錯誤答案,從而使模型更難找到正確的完成。這凸顯了深度學習模型等常識性推理中的局限性。 Hellaswag強調需要不斷發展的基準測試,這些基準使AI系統在理解類似人類的情況方面受到挑戰。

14個流行的LLM基准在2025年知道

伯特(Bert)這樣的模型通常也很難完成Hellaswag的句子,即使它們來自與培訓數據相同的分佈。不正確的結尾雖然在上下文上相關,但無法符合人類正確性和合理性的標準。例如,在Wikihow段落中,選項A建議駕駛員在紅燈下停止兩秒鐘,這顯然是錯誤的且不切實際。

數學基準

13。數學數據集

本文中介紹的數學數據集包含12,500個具有挑戰性的數學競爭問題。它評估了機器學習模型的解決問題能力。這些問題來自AMC 10,AMC 12和AIME等競爭,涵蓋了各種難度水平和主題,例如代數,代數,數量理論和幾何學。與已知公式可以解決的典型數學問題不同,數學問題需要解決問題的技術和啟發式方法。每個問題都包括一個逐步解決方案,幫助模型學習生成答案推導和解釋更多可解釋的輸出。

14個流行的LLM基准在2025年知道

此示例包括生成的解決方案和相應的地面真相解決方案的多種數學問題。 2月6日舉行的最新AIME迅速引起了數學界的興趣。考試後不久,人們在YouTube,在線論壇和博客上分享了問題和解決方案。這種快速的討論突出了社區對這些挑戰的熱情。例如,第一個問題的生成解決方案是正確的,並且清楚地解釋了,顯示了成功的模型輸出。相反,第二個問題涉及組合主義者和數字,挑戰了模型,導致了不正確的解決方案。

14。Aime2025

美國邀請賽數學考試(AIME)是一項享有盛譽的數學競賽,也是為國際數學奧林匹克運動會選擇美國團隊的第二階段。大多數參與者是高中生,但每年有才華橫溢的中學生都有資格。美國數學協會進行了這項考試。

數學界很快就對2月6日的最近AIME感興趣,並在考試後不久分享和討論YouTube,論壇和博客的問題和解決方案。這種快速的分析反映了社區對這些具有挑戰性的比賽的熱情。

14個流行的LLM基准在2025年知道

此圖像表示AIME 2025紙的示例問題和解決方案。該基準的重點是LLM的數學推理能力。

結論

開發人員幾乎每天都在大型數據集上創建和培訓新型號,從而為他們提供各種功能。 LLM基準測試通過回答基本問題,例如哪種模型最適合編寫代碼,哪個模型在推理方面表現出色,哪個人最有效地處理NLP任務。因此,在這些基准上評估模型成為強制性步驟。隨著我們迅速邁向AGI,研究人員也正在創建新的基準測試,以跟上進步。

以上是14個流行的LLM基准在2025年知道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板