大型语言模型(LLMS)已证明自己是一种强大的工具,在解释和制作模仿人类语言的文本方面表现出色。然而,这些模型的广泛可用性介绍了准确评估其性能的复杂任务。在这里,LLM基准测试是中心舞台,提供了系统的评估,以衡量模型在语言理解和高级推理等任务中的技能。本文探讨了它们的关键作用,突出了著名的例子,并研究了它们的局限性,并全面了解了它们对语言技术的影响。
基准测试对于评估大语言模型(LLM)至关重要,它是衡量和比较性能的标准。他们提供了一种一致的方法来评估技能,从基本语言理解到高级推理和编程。
LLM基准测试是旨在评估语言模型在特定任务上的性能的结构化测试。他们有助于回答关键问题,例如:
评估的标准化和透明度
进度跟踪和完善
模型选择
这是分步的过程:
抽象和推理语料库(ARC)通过从Raven的渐进式矩阵中汲取灵感来基准机器智能。它挑战了AI系统,以基于一些示例来识别序列中的下一个图像,从而促进了很少有反映人类认知能力的学习。通过强调概括和利用“先验”(对世界的知识知识),旨在将AI推向类似人类的推理。数据集遵循结构化的课程,系统地指导系统,通过越来越复杂的任务,同时通过预测准确性来衡量性能。尽管取得了进展,AI仍在努力达到人类水平的表现,强调了AI研究中持续的进步需求。
抽象和推理语料库包括人类和人工智能系统都可以解决的各种任务。受Raven的渐进式矩阵的启发,任务形式要求参与者以顺序识别下一个图像,并测试其认知能力。
大量的多学科多模式理解和推理(MMMU)基准评估了有关大学级别知识和推理任务的多模式模型。它包括六个学科的考试,测验和教科书中的11.5万个问题:艺术与设计,商业,科学,健康与医学,人文与社会科学以及技术与工程学。
这些问题涵盖了30个受试者和183个子场,其中包含30种异构图像类型,例如图表,图表,地图和化学结构。 MMMU专注于具有特定领域知识的高级感知和推理,具有挑战性的模型来执行专家级的任务,并旨在衡量大型多模型模型(LMMS)中的感知,知识和推理技能。包括GPT-4V在内的当前模型的评估揭示了大量改进的空间,即使高级模型仅达到56%的精度。引入了更强大的基准MMMU-PRO版本,以增强评估。
从每个学科中抽样MMMU示例。问题和图像需要专家级知识来理解和推理。
GPQA是448个生物学,物理和化学方面的多项选择问题的数据集,旨在挑战专家和高级AI。拥有PHD的领域专家创建并验证问题,以确保高质量和难度。专家达到了65%的准确性(回顾性确定的错误74%),而在其他领域的非专业人士仅得分只有34%,尽管互联网访问不受限制,但这些问题证明了问题是“ Google-Progrone-Progne-Progge”。领先的AI模型(例如GPT-4)仅达到39%的精度。 GPQA支持对AI超过人类能力的可扩展监督的研究,即使在其专业知识之外的主题上也帮助人类提取真实的信息。
最初,制定了一个问题,然后在同一领域的专家提供了他们的答案和反馈,其中可能包括对问题的建议修订。随后,问题作者根据专家的反馈来修改问题。然后将这个修订后的问题发送给同一领域的另一位专家和三个在其他领域具有专业知识的非专家验证者。我们考虑专家验证者的协议(*),或者当他们最初正确回答,或者在看到正确的答案后,他们对最初错误提供了明确的解释,或者证明了对作者的解释的透彻理解。
大量的多任务语言理解(MMLU)基准测试,旨在衡量在预处理过程中获得的文本模型的知识。 MMLU评估了57个不同任务的模型,包括基本数学,美国历史,计算机科学,法律等。它的格式为多项选择问题,使评估直接。
与以前的基准相比,该基准的目标是对语言理解的更全面和挑战性的测试,需要结合知识和推理。该论文为多种模型提供了结果,表明即使是大型审计模型在MMLU上都挣扎,这表明了语言理解能力的重大空间。此外,该论文探讨了规模和微调对MMLU性能的影响。
此任务需要理解详细和不和谐的情况,应用适当
法律先例,并选择正确的解释。绿色检查标记是地面真相。
HumaneVal是一种基准,旨在评估语言模型生成的代码的功能正确性。它由164个编程问题组成,其中具有功能签名,DOCSTRING和几个单元测试。这些问题评估了语言理解,推理,算法和简单数学方面的技能。与以前依赖句法相似性的基准不同,HumaneVal评估生成的代码是否实际通过了提供的单元测试,从而测量了功能正确性。该基准强调了当前语言模型与人级代码生成之间的差距,这表明即使是大型模型也很难始终如一地制作正确的代码。它是评估代码生成语言模型功能的具有挑战性和实用的测试。
以下是人类数据集中的三个说明性问题,并伴随着Codex-12b的单个样本通过单元测试的概率:0.9、0.17和0.005。呈现给模型的提示显示在白色背景上,而成功的模型的完成则在黄色背景下突出显示。尽管它不能保证问题的新颖性,但所有问题都是手工精心制作的,而不是从现有来源进行编程复制的,从而确保了独特而具有挑战性的数据集。
SWE-Bench是一种基准测试,旨在评估大型语言模型(LLMS),以解决Github上发现的现实世界软件问题的能力。它由2,294个软件工程问题组成,这些问题来自实际的GitHub问题,并在12个流行的Python存储库中提出了相应的拉力请求。该任务涉及为语言模型提供代码库和问题描述,并挑战其生成解决问题的补丁。然后根据存储库的测试框架评估该模型提出的解决方案。 SWE Bench专注于评估整个“代理”系统,其中包括AI模型和周围的软件脚手架,负责生成提示,解析输出和管理交互LOOP2。由500个样本组成的人类验证的子集,称为SWE-Bench,可确保可解决的任务,并更清楚地衡量编码剂的性能
SWE基础源源实例来自现实世界中的Python存储库,通过连接GitHub问题与解决相关测试的拉请求解决方案合并。带有问题文本和代码库快照,模型生成了一个针对真实测试进行评估的补丁程序
SWE-Lancer是一种基准,旨在评估Frontier语言模型(LLMS)完成现实世界中的自由软件工程任务的功能,总价值为100万美元。它包括1,400多个任务,从价值50美元的简单错误修复到高达32,000美元的复杂功能实现。基准测试评估了两种类型的任务:个人贡献者(IC)任务,其中模型通过专业工程师的端到端测试验证了代码补丁,而SWE Manager任务在其中模型从多个选项中选择最佳的实施建议。研究结果表明,即使是高级模型也难以解决大多数任务,突出了当前的AI功能和现实世界软件工程需求之间的差距。通过将模型绩效与货币价值联系起来,SWE-Lancer旨在促进对AI在软件开发中的经济影响的研究。
IC SWE任务的评估过程涉及对模型性能进行彻底测试的严格评估。该模型包含一组任务,并且必须生成满足所有适用测试以赚取支出的解决方案。该评估流程确保模型的输出不仅正确,而且还全面,符合现实世界软件工程任务所需的高标准。
LiveCodeBench是一种新颖的基准测试,旨在通过解决现有基准的局限性,对与代码相关的任务进行大型语言模型(LLMS)的无污染评估。它使用来自LeetCode,Atcoder和CodeForces等平台上的每周编码竞赛提出的问题,该竞赛用释放日期标记以防止污染,并在自代码生成中评估自我修复,代码执行和测试输出预测的LLMS。在2023年5月至2024年5月之间发布了500多个编码问题,LiveCodebench具有高质量的问题和测试,平衡的问题难度,并且在某些模型中揭示了对HumaneVal的潜在过度拟合,突显了各种编码任务中不同模型的不同强度。
LiveCodeBench通过介绍各种编码方案提供了全面的评估方法。编码是一项复杂的任务,我们建议通过一套评估设置来评估大型语言模型(LLM),以捕获一系列与编码相关的技能。除了典型的代码生成设置之外,我们还介绍了三种其他方案:自我修复,代码执行和新颖的测试输出预测任务。
CodeForces是一种新颖的基准测试,旨在通过直接与CodeForces平台接口来评估大语言模型(LLMS)的竞争级代码生成能力。这种方法可通过访问隐藏的测试案例,对特殊法官的支持以及一致的执行环境来确保准确的评估。 CodeForces引入了标准化的ELO评级系统,与CodeForces自己的评级系统保持一致,但差异降低,从而可以直接比较LLMS和人类竞争对手。对33个LLM的评估显示出显着的性能差异,OpenAI的O1-Mini获得了1578年的ELO评级最高,将其置于人类参与者的前90%。基准测试揭示了高级模型的进展以及大多数当前LLMS的竞争性编程功能的相当大改进空间。 CodeForces基准及其ELO计算逻辑是公开可用的。
CodeForces提出了广泛的编程挑战,并且每个问题都经过精心构建,以包括基本组件。这些组件通常包括:1)描述性标题,2)解决方案的时间限制,3)程序的内存限制,4)详细的问题描述,5)输入格式,6)6)预期输出格式,7)指导程序员的测试案例示例,以及8)8)一个可选的注释提供其他上下文或其他上下文。一个这样的问题,标题为“ CodeForces问题E”,可以通过网址访问:https://codeforces.com/contest/2034/problem/e。精心制作此问题以在竞争性编码环境中测试程序员的技能,挑战他们在给定时间和内存限制内创建高效的解决方案。
τbench在遵守特定于领域的策略的同时,会根据其与(模拟)人类用户和程序化API互动的能力积极评估语言代理。与经常具有简化指令跟随设置的现有基准测试不同,τbench模拟用户之间的动态对话(通过语言模型模拟)和配备了特定领域的API工具和策略指南的语言代理。该基准测试采用模块化框架,其中包括现实的数据库和API,特定于领域的策略文档以及具有相应地面真实注释的不同用户场景的说明。 τbench的一个关键特征是其评估过程,该过程将对话结束时的数据库状态与注释的目标状态进行了比较,从而可以客观地测量代理商的决策。
该基准还引入了一个新的指标Pass^k,以评估代理行为在多个试验中的可靠性,从而强调了对可以始终如一并在现实应用程序中可靠地遵守规则的代理的需求。最初的实验表明,即使是最先进的功能呼叫代理在复杂的推理,策略依从性和处理复合请求方面挣扎。
τ基础是一种创新的基准测试,代理使用数据库API工具和LM模拟的用户来完成任务。它评估了代理商通过多次交互来收集和从用户传达相关信息的能力,同时还测试了其实时解决复杂问题的能力,从而确保了遵守在特定领域的策略文档中概述的指南。在τ-Airline任务中,代理必须拒绝用户根据域策略更改基本经济飞行的请求,然后提出替代解决方案 - 续订和重新预订。此任务要求代理在涉及数据库,规则和用户意图的复杂环境中应用零射击推理。
Superglue通过先进的基准评估了自然语言理解(NLU)模型的能力,比其前任Glue提供了更苛刻的评估。 Superglue在保留了Glue最具挑战性的两项任务的同时,引入了需要更深入的推理,常识性知识和上下文理解的新任务。它扩展了Glue的句子和句子对分类,以包括问题回答和核心分辨率等任务。 Superglue设计师创建了受过大学教授的英语的任务,但这些任务仍然超过了当前最新系统的功能。该基准为比较提供了全面的人体基准,并提供了用于模型评估的工具包。 Superglue旨在衡量和推动进步发展通用语言理解技术。
Superglue任务的开发集提供了各种示例,每个示例都以独特的格式呈现。这些示例通常包括粗体文本,以指示每个任务的特定格式。模型输入集成了斜体化文本,以提供必要的上下文或信息。它特别标记了输入中带下划线的文本,通常会突出特定的焦点或要求。最后,它使用单足类字体来表示预期的输出,展示预期的响应或解决方案。
Hellaswag是用于评估常识性自然语言推断(NLI)的基准数据集。它挑战机器根据给定上下文完成句子。由Zellers等人开发,其中包含70,000个问题。人类的精度超过95%,而顶级模型得分低于50%。该数据集使用对抗过滤(AF)来产生误导但合理的错误答案,从而使模型更难找到正确的完成。这凸显了深度学习模型等常识性推理中的局限性。 Hellaswag强调需要不断发展的基准测试,这些基准使AI系统在理解类似人类的情况方面受到挑战。
伯特(Bert)这样的模型通常也很难完成Hellaswag的句子,即使它们来自与培训数据相同的分布。不正确的结尾虽然在上下文上相关,但无法符合人类正确性和合理性的标准。例如,在Wikihow段落中,选项A建议驾驶员在红灯下停止两秒钟,这显然是错误的且不切实际。
本文中介绍的数学数据集包含12,500个具有挑战性的数学竞争问题。它评估了机器学习模型的解决问题能力。这些问题来自AMC 10,AMC 12和AIME等竞争,涵盖了各种难度水平和主题,例如代数,代数,数量理论和几何学。与已知公式可以解决的典型数学问题不同,数学问题需要解决问题的技术和启发式方法。每个问题都包括一个逐步解决方案,帮助模型学习生成答案推导和解释更多可解释的输出。
此示例包括生成的解决方案和相应的地面真相解决方案的多种数学问题。 2月6日举行的最新AIME迅速引起了数学界的兴趣。考试后不久,人们在YouTube,在线论坛和博客上分享了问题和解决方案。这种快速的讨论突出了社区对这些挑战的热情。例如,第一个问题的生成解决方案是正确的,并且清楚地解释了,显示了成功的模型输出。相反,第二个问题涉及组合主义者和数字,挑战了模型,导致了不正确的解决方案。
美国邀请赛数学考试(AIME)是一项享有盛誉的数学竞赛,也是为国际数学奥林匹克运动会选择美国团队的第二阶段。大多数参与者是高中生,但每年有才华横溢的中学生都有资格。美国数学协会进行了这项考试。
数学界很快就对2月6日的最近AIME感兴趣,并在考试后不久分享和讨论YouTube,论坛和博客的问题和解决方案。这种快速的分析反映了社区对这些具有挑战性的比赛的热情。
此图像表示AIME 2025纸的示例问题和解决方案。该基准的重点是LLM的数学推理能力。
开发人员几乎每天都在大型数据集上创建和培训新型号,从而为他们提供各种功能。 LLM基准测试通过回答基本问题,例如哪种模型最适合编写代码,哪个模型在推理方面表现出色,哪个人最有效地处理NLP任务。因此,在这些基准上评估模型成为强制性步骤。随着我们迅速迈向AGI,研究人员也正在创建新的基准测试,以跟上进步。
以上是14个流行的LLM基准在2025年知道的详细内容。更多信息请关注PHP中文网其他相关文章!