目次
エンドツーエンドテストのより良いグレーディング
評価メトリック
パフォーマンスメトリック
claude 3.5 Sonnet
経済分析
ホームページ テクノロジー周辺機器 AI OpenaiのSWE-LAN​​CERベンチマーク

OpenaiのSWE-LAN​​CERベンチマーク

Mar 04, 2025 am 09:15 AM

現実世界のタスクを忠実に複製するベンチマークの確立は、特にソフトウェアエンジニアリングドメインで急速に発展している人工知能の分野で不可欠です。 Samuel MiserendinoとAssociatesは、Swe-Lancer Benchmarkを開発し、フリーランスのソフトウェアエンジニアリングタスクを大規模な言語モデル(LLM)をどれだけうまく実行するかを評価しました。合計100万ドル以上の雇用がUpworkから取られ、このベンチマークを作成しました。

目次

    swe-lancer benchmarkとは?タスク
    • swe管理タスク
    モデルパフォーマンス
  • パフォーマンスメトリック
  • SW-Lancer Benchmarkとは何ですか?
    • SWE-Lancerには、単純なバグ修正から複雑な機能の実装まで、さまざまな範囲のタスクが含まれます。ベンチマークは、実際のフリーランスレビュープロセスを反映するエンドツーエンドテストを使用することにより、LLMの現実的な評価を提供するように構成されています。タスクは経験豊富なソフトウェアエンジニアによって採点され、高い基準の評価を確保します。 SWE-LAN​​CER
    • の特徴
    現実世界の支払い:SWE-LAN​​CERのタスクは、フリーランスエンジニアへの実際の支払いを表し、自然な難易度の勾配を提供します。
  • 管理評価
  • :ベンチマークは、技術的なリードとして機能するモデルの能力を評価することにより、独立した請負業者から最適な実装計画を選択します。
  • 高度なフルスタックエンジニアリング
  • :実際のソフトウェアエンジニアリングの複雑さにより、タスクはフロントエンドとバックエンドの両方の開発を完全に理解する必要があります。

エンドツーエンドテストのより良いグレーディング

:SWE-Lancerは、資格のあるエンジニアによって開発されたエンドツーエンドテストを採用しており、単体テストに依存していた以前のベンチマークよりも徹底的な評価を提供します。

なぜSWE-LAN​​CERが重要なのですか?

AI研究の重要なギャップは、SWE-Lancer:The Real Software Engineeringジョブの複雑さを複製するタスク上のモデルを評価する能力によって満たされます。現実世界のプロジェクトの多次元特性は、頻繁に離散タスクに集中していた以前の基準には適切に反映されていません。 Swe-Lancerは、実際のフリーランスジョブを利用することにより、モデルパフォーマンスのより現実的な評価を提供します。

評価メトリック

モデルのパフォーマンスは、解決されたタスクの割合と獲得した総支払いの割合に基づいて評価されます。各タスクに関連する経済的価値は、関連する作業の真の困難と複雑さを反映しています。

タスクの例

  • $ 250の信頼性の改善:ダブルトリガーAPI呼び出しを修正します。
  • $ 1,000のバグ修正:許可の矛盾を解決します。
  • $ 16,000機能実装:複数のプラットフォームでアプリ内ビデオ再生のサポートを追加します。
  • SWE-Lancerデータセットには、Expensify Open-Sourceリポジトリから引き出され、元々Upworkに投稿された1,488の実世界のフリーランスソフトウェアエンジニアリングタスクが含まれています。これらのタスクは、合計値が100万米ドルで、2つのグループに分類されます。
個々の寄稿者(IC)ソフトウェアエンジニアリング(SWE)タスク

このデータセットは、個々の貢献者ソフトウェアエンジニアの作業を表すように設計された合計414,775ドル相当の764のソフトウェアエンジニアリングタスクで構成されています。これらのタスクには、新機能の実装やバグの修正など、典型的なICの義務が含まれます。各タスクについて、モデルに:

が提供されます
複製手順と望ましい動作を含む問題の詳細な説明。

の前に状態を表すコードベースチェックポイントは、問題が修正されます。
  • 問題を修正する目的。
  • モデルの提案されたソリューション(パッチ)は、提供されたコードベースに適用し、Playwrightを使用して関連するすべてのエンドツーエンドテストを実行することにより評価されます。重大なことに、モデルは、ソリューション生成プロセス中にこれらのエンドツーエンドテストにアクセスできません。
  • IC SWEタスクの評価フロー。モデルは、すべての該当するテストが合格した場合にのみ支払いを獲得します。
swe管理タスク

このデータセットは、585,225ドルで評価された724のタスクで構成されており、ソフトウェアエンジニアリングマネージャーとして機能するモデルに挑戦しています。このモデルにはソフトウェアエンジニアリングタスクが表示され、いくつかのオプションから最適なソリューションを選択する必要があります。具体的には、モデルは次のとおりです 同じ問題に対する複数の提案されたソリューション、実際の議論から直接取られた。

コードベースのスナップショットが存在していたときの

OpenaiのSWE-LAN​​CERベンチマーク問題が解決されました。

最良のソリューションを選択する際の全体的な目的。

モデルの選択されたソリューションは、実際の根本的な最良のソリューションと比較して、そのパフォーマンスを評価します。重要なことに、経験豊富なソフトウェアエンジニアを用いた別の検証調査により、元の「ベスト」ソリューションとの99%の契約率が確認されました。

    SWEマネージャータスクの評価フロー。提案の選択中に、モデルにはコードベースを閲覧する機能があります。 また、読んでください:パズル解決ベンチマークのAndrej Karpathy

    モデルパフォーマンス

    ベンチマークは、OpenaiのGPT-4O、O1、およびAnthropicのClaude 3.5 Sonnetを含むいくつかの最先端モデルでテストされています。結果は、これらのモデルが約束を示している一方で、彼らはまだ多くのタスク、特に深い技術的理解とコンテキストを必要とするタスクに苦労していることを示しています。

    パフォーマンスメトリック

    claude 3.5 Sonnet

    :IC SWEタスクで26.2%、SWE管理タスクで44.9%のスコアを達成し、SWE-Lancerダイヤモンドセットで可能な500,800ドルのうち合計208,050ドルを獲得しました。
    • gpt-4o:特にIC SWEタスクでのパフォーマンスの低下を示し、実際のアプリケーションでLLMSが直面する課題を強調しています。
    • gpt o1モデル
    • :380ドルを超えて獲得し、4oよりも優れたパフォーマンスを示したミッドパフォーマンスを示しました。
    • IC SWEとSWEマネージャーの両方のタスクを含む完全なSWEランサーデータセットで各モデルが獲得した合計支払い。 result
    この表は、タスクタイプ(IC SWE、SWEマネージャー)とデータセットサイズ(ダイヤモンド、フル)によって分割されたSWEランサーデータセットのさまざまな言語モデル(GPT-4、O1、3.5ソネット)のパフォーマンスを示しています。 「Pass@1」の精度(上部の生成されたソリューションが正しい頻度)と収益(タスク値に基づいて)を比較します。 「ユーザーツール」列は、モデルが外部ツールにアクセスできるかどうかを示します。 「推論努力」は、ソリューションの生成に許可された努力のレベルを反映しています。全体として、3.5ソネットは一般に、さまざまなタスクタイプとデータセットサイズにわたって最高のパス@1の精度と収益を達成しますが、外部ツールを使用し、推論の取り組みを増やすとパフォーマンスが向上する傾向があります。青と緑のハイライトは、それぞれ全体とベースラインのメトリックを強調しています。

    OpenaiのSWE-LAN​​CERベンチマーク

    テーブルには、パフォーマンスメトリック、特に「@1を渡す」精度と収益が表示されます。ダイヤモンドとフルSWEランサーセットの全体的なメトリックは青で強調表示され、IC SWE(ダイヤモンド)とSWEマネージャー(ダイヤモンド)サブセットのベースラインパフォーマンスは緑色で強調表示されます。 SW-LANCERの制限

    SWE-LAN​​CERは価値がありますが、いくつかの制限があります:

    • リポジトリとタスクの多様性:タスクは、アップワークとExpensifyリポジトリのみから調達されました。これにより、評価の範囲、特に過小評価されているインフラストラクチャエンジニアリングタスクが制限されます。
    • scope:フリーランスのタスクは、フルタイムのソフトウェアエンジニアリングタスクよりも自己完結型です。 Expensifyリポジトリは実際のエンジニアリングを反映していますが、フリーランスのコンテキストを超えて調査結果を一般化する場合は注意が必要です。
    • モダリティ
    • :評価はテキストのみであり、スクリーンショットやビデオなどの視覚補助具がモデルのパフォーマンスを向上させる方法については考慮されていません。 環境
    • :モデルは、タスク要件の理解を妨げる可能性のある明確な質問をすることができません。
    • 汚染:タスクの公共の性質により、汚染の可能性が存在します。正確な評価を確保するには、閲覧を無効にする必要があり、不正行為のための事後フィルタリングが不可欠です。分析は、モデルの知識のカットオフに先行するタスクの汚染の影響が限られていることを示しています。
    • 将来の仕事 SWE-LAN​​CERは、将来の研究のためのいくつかの機会を提示します:

    経済分析

    :将来の研究では、労働市場と生産性に対する自治エージェントの社会的影響を調査し、フリーランサーの支払いとタスクの完了のためのAPIコストを比較することができます。

    マルチモダリティ
      :スクリーンショットやビデオなどのマルチモーダル入力は、現在のフレームワークではサポートされていません。これらのコンポーネントを含む将来の分析は、実際の状況でのモデルのパフォーマンスをより徹底的に評価することができます。
    • ここで完全な研究論文を見つけることができます。
    • 結論
    • SWE-LAN​​CERは、ソフトウェアエンジニアリングタスクのLLMSの評価における大幅な進歩を表しています。実際のフリーランスのタスクと厳密なテスト基準を組み込むことにより、モデル機能のより正確な評価を提供します。このベンチマークは、ソフトウェアエンジニアリングにおけるAIの経済的影響に関する研究を促進するだけでなく、実際のアプリケーションでこれらのモデルを展開することに残っている課題を強調しています。

以上がOpenaiのSWE-LAN​​CERベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

クリエイティブプロジェクトのための最高のAIアートジェネレーター(無料&有料) クリエイティブプロジェクトのための最高のAIアートジェネレーター(無料&有料) Apr 02, 2025 pm 06:10 PM

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

ベストAIチャットボットが比較されました(chatgpt、gemini、claude& more) ベストAIチャットボットが比較されました(chatgpt、gemini、claude& more) Apr 02, 2025 pm 06:09 PM

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

ChatGpt 4 oは利用できますか? ChatGpt 4 oは利用できますか? Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

トップAIライティングアシスタントは、コンテンツの作成を後押しします トップAIライティングアシスタントは、コンテンツの作成を後押しします Apr 02, 2025 pm 06:11 PM

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します

AIエージェントを構築するためのトップ7エージェントRAGシステム AIエージェントを構築するためのトップ7エージェントRAGシステム Mar 31, 2025 pm 04:25 PM

2024年は、コンテンツ生成にLLMSを使用することから、内部の仕組みを理解することへの移行を目撃しました。 この調査は、AIエージェントの発見につながりました。これは、最小限の人間の介入でタスクと決定を処理する自律システムを処理しました。 buildin

最高のAI音声ジェネレーターの選択:レビューされたトップオプション 最高のAI音声ジェネレーターの選択:レビューされたトップオプション Apr 02, 2025 pm 06:12 PM

この記事では、Google Cloud、Amazon Polly、Microsoft Azure、IBM Watson、DecriptなどのトップAI音声ジェネレーターをレビューし、機能、音声品質、さまざまなニーズへの適合性に焦点を当てています。

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

See all articles