首页 > 科技周边 > 人工智能 > Openai的Swe-Lancer基准

Openai的Swe-Lancer基准

尊渡假赌尊渡假赌尊渡假赌
发布: 2025-03-04 09:15:11
原创
919 人浏览过

在迅速发展的人工智能领域,尤其是在软件工程领域中,建立忠实地复制现实世界任务的基准是至关重要的。 Samuel Miserendino and Associates开发了SWE-Lancer基准测试,以评估大型语言模型(LLMS)执行自由职业软件工程任务的效果。超过1,400个工作,总计100万美元,从UPWOWS中获得了这一基准,该基准旨在评估管理和个人贡献者(IC)任务。

>

    >什么是Swe-Lancer基准?任务
    • SWE管理任务
    • 模型性能
  • >
    • 性能指标
    • swe-lancer
    • 什么是SWE-Lancer基准?
    • 从简单的错误修复到复杂的功能实现,
    swe-lancer包括各种任务范围。该基准的结构是通过使用反映实际自由审查过程的端到端测试来对LLM的现实评估。这些任务由经验丰富的软件工程师分级,确保高标准的评估标准。 SWE-LAN​​CER的功能
  • 现实世界中的支出
  • :SWE-Lancer中的任务代表自由工程师的实际支出,提供了自然的困难梯度。
  • 管理评估
:通过评估模型作为技术领导的能力,基准选择了独立承包商的最佳实施计划。

高级全堆栈工程

:由于现实世界软件工程的复杂性,任务需要对前端和后端开发有透彻的了解。

> 通过端到端测试进行

:SWE-LAN​​CER采用合格工程师开发的端到端测试,提供了比依赖于单位测试的早期基准的端到端测试。
  • 为什么Swe-Lancer很重要?> SWE-Lancer的推出:评估模型复制真正软件工程工作的任务的模型的能力填补了AI研究的关键差距。现实世界项目的多维特征并不能充分反映以前的标准,该标准经常集中在离散任务上。 SWE-Lancer通过利用实际的自由职业工作提供了对模型绩效的更现实评估。

    评估指标

    >根据已解决的任务百分比和所获得的总支付的百分比评估模型的性能。与每个任务相关的经济价值反映了所涉及的工作的真正困难和复杂性。

    >示例任务

    • $ 250可靠性改进:修复双触发API调用。
    • $ 1,000错误修复:解决权限差异。>
    • $ 16,000功能实现:添加对跨多个平台的应用内视频播放的支持。
    > SWE-Lancer数据集包含1,488个现实世界的自由软件工程任务,该任务是从Expensify开源存储库中绘制的,最初发布在UPWORK上。这些任务的总价值为100万美元,分为两组:>

    >个人贡献者(IC)软件工程(SWE)任务

      >该数据集由764个软件工程任务组成,价值414,775美元,旨在代表个人贡献者软件工程师的工作。这些任务涉及典型的IC职责,例如实施新功能和修复错误。对于每个任务,都提供了一个模型:

    >对问题的详细描述,包括复制步骤和所需的行为。
      >代码库检查点代表状态
    • >
    • 问题已解决。
    • 解决问题的目的。>
    • >通过将其应用于提供的代码库并使用playwright运行所有相关的端到端测试来评估该模型的提议解决方案(补丁程序)。至关重要的是,模型
    • 在解决方案生成过程中无法访问这些端到端测试。

    IC SWE任务的评估流程>评估流;该模型仅在所有适用的测试通过时才能赚取支出。

    SWE管理任务Openai的Swe-Lancer基准

    这个数据集由724个任务组成,价值585,225美元,挑战了一个模型,以充当软件工程经理。该模型包含软件工程任务,必须从几个选项中选择最佳解决方案。具体来说,该模型接收:

    直接从真实讨论中获取的同一问题的多个提出的解决方案。

    >

    >在解决问题之前存在

    >的快照。

    选择最佳解决方案的总体目标。
    • 然后,将模型选择的解决方案与实际的最佳解决方案进行比较,以评估其性能。重要的是,一项与经验丰富的软件工程师的单独验证研究证实了原始“最佳”解决方案的协议率为99%。
    • SWE Manager任务的评估流程

      >;在提案选择期间,该模型具有浏览代码库的能力。

      >

      也请阅读:undrej karpathy在拼图解决基准上

      模型性能

      >基准已在几种最先进的型号上进行了测试,包括OpenAI的GPT-4O,O1和Anthropic的Claude 3.5十四行诗。结果表明,尽管这些模型表现出了希望,但他们仍然在许多任务中挣扎,尤其是那些需要深厚技术理解和背景的任务。

      >性能指标

      • Claude 3.5 SONNET :在IC SWE任务上获得26.2%的分数,在SWE管理任务上获得44.9%的分数,在SWE-Lancer Diamond set中,总计$ 208,050的$ 208,050。
      • gpt-4O
      • :表现出较低的性能,尤其是在IC SWE任务上,突出了LLM在现实世界应用中面临的挑战。 gpt O1模型
      • :显示了超过$ 380的中期性能,并且表现优于4o。

      >在完整的SWE-Lancer数据集上赚取的总支出总额,包括IC SWE和SWE Manager任务。Openai的Swe-Lancer基准

      结果

      该表显示了SWE-Lancer数据集上不同语言模型(GPT-4,O1,3.5十四行诗)的性能,按任务类型(IC SWE,SWE,SWE Manager)和数据集大小(Diamond,Fult)分解。它比较了他们的“通过@1”精度(最高生成解决方案正确的频率)和收益(基于任务值)。 “用户工具”列指示该模型是否可以访问外部工具。 “推理工作”反映了解决方案生成的努力水平。总体而言,3.5十四行诗通常可以在不同的任务类型和数据集大小上获得最高的通行证@1的准确性和收益,同时使用外部工具和不断增加的推理工作倾向于提高性能。蓝色和绿色的突出显示分别强调整体和基线指标。

      >

      该表显示性能指标,特别是“通过@1”的准确性和收入。钻石和完整的SWE-Lancer套件的总体指标以蓝色突出显示,而IC SWE(Diamond)和SWE经理(钻石)子集的基线性能以绿色突出显示。

      SWE-LAN​​CER Openai的Swe-Lancer基准的限制

      > swe-lancer虽然有价值,但有几个局限性:
        存储库和任务的多样性
      • :任务仅从UPWORK和Expensife存储库中采购。这限制了评估的范围,尤其是基础架构工程任务,这些任务不足。
      • 范围
      • :自由职业任务通常比全日制软件工程任务更独立。尽管支出存储库反映了现实世界的工程,但在概括自由上下文以外的发现时需要谨慎。 >
      • 模态
      • :评估仅是文本,缺乏考虑屏幕截图或视频等视觉辅助的考虑。 环境
      • :模型无法提出澄清的问题,这可能会阻碍他们对任务要求的理解。
      • 污染:由于任务的公开性质而存在污染的潜力。为了确保准确的评估,应禁用浏览,而事后进行作弊是必不可少的。分析表明对任务的污染影响有限,而在模型知识截止之前。
      • 未来的工作 > SWE-Lancer为未来的研究提供了一些机会:
      经济分析

      :未来的研究可以调查自治代理人对劳动力市场和生产力的社会影响,将自由职业者支出与API成本进行比较。

      多模式

      :当前框架不支持多模式输入(例如屏幕截图和视频)。包括这些组件在内的未来分析可能会更彻底地评估该模型在实际情况下的性能。
      • >您可以在此处找到完整的研究论文。 结论
      • SWE-LAN​​CER代表了软件工程任务LLM的评估方面的重大进步。通过合并现实世界的自由职业任务和严格的测试标准,它可以更准确地评估模型功能。该基准不仅促进了对AI在软件工程中的经济影响的研究,而且还强调了在实际应用中部署这些模型时仍在部署这些模型的挑战。

以上是Openai的Swe-Lancer基准的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板