OpenaiのSWE-LANCERベンチマーク
現実世界のタスクを忠実に複製するベンチマークの確立は、特にソフトウェアエンジニアリングドメインで急速に発展している人工知能の分野で不可欠です。 Samuel MiserendinoとAssociatesは、Swe-Lancer Benchmarkを開発し、フリーランスのソフトウェアエンジニアリングタスクを大規模な言語モデル(LLM)をどれだけうまく実行するかを評価しました。合計100万ドル以上の雇用がUpworkから取られ、このベンチマークを作成しました。
目次- swe-lancer benchmarkとは?タスク
-
- swe管理タスク
- パフォーマンスメトリック
- SWE-Lancerには、単純なバグ修正から複雑な機能の実装まで、さまざまな範囲のタスクが含まれます。ベンチマークは、実際のフリーランスレビュープロセスを反映するエンドツーエンドテストを使用することにより、LLMの現実的な評価を提供するように構成されています。タスクは経験豊富なソフトウェアエンジニアによって採点され、高い基準の評価を確保します。 SWE-LANCER の特徴
- 管理評価
- :ベンチマークは、技術的なリードとして機能するモデルの能力を評価することにより、独立した請負業者から最適な実装計画を選択します。
- 高度なフルスタックエンジニアリング :実際のソフトウェアエンジニアリングの複雑さにより、タスクはフロントエンドとバックエンドの両方の開発を完全に理解する必要があります。
エンドツーエンドテストのより良いグレーディング
:SWE-Lancerは、資格のあるエンジニアによって開発されたエンドツーエンドテストを採用しており、単体テストに依存していた以前のベンチマークよりも徹底的な評価を提供します。なぜSWE-LANCERが重要なのですか?
AI研究の重要なギャップは、SWE-Lancer:The Real Software Engineeringジョブの複雑さを複製するタスク上のモデルを評価する能力によって満たされます。現実世界のプロジェクトの多次元特性は、頻繁に離散タスクに集中していた以前の基準には適切に反映されていません。 Swe-Lancerは、実際のフリーランスジョブを利用することにより、モデルパフォーマンスのより現実的な評価を提供します。
評価メトリック
モデルのパフォーマンスは、解決されたタスクの割合と獲得した総支払いの割合に基づいて評価されます。各タスクに関連する経済的価値は、関連する作業の真の困難と複雑さを反映しています。
タスクの例- $ 250の信頼性の改善:ダブルトリガーAPI呼び出しを修正します。
- $ 1,000のバグ修正:許可の矛盾を解決します。
- $ 16,000機能実装:複数のプラットフォームでアプリ内ビデオ再生のサポートを追加します。 SWE-Lancerデータセットには、Expensify Open-Sourceリポジトリから引き出され、元々Upworkに投稿された1,488の実世界のフリーランスソフトウェアエンジニアリングタスクが含まれています。これらのタスクは、合計値が100万米ドルで、2つのグループに分類されます。
このデータセットは、個々の貢献者ソフトウェアエンジニアの作業を表すように設計された合計414,775ドル相当の764のソフトウェアエンジニアリングタスクで構成されています。これらのタスクには、新機能の実装やバグの修正など、典型的なICの義務が含まれます。各タスクについて、モデルに:
が提供されますの前に状態を表すコードベースチェックポイントは、問題が修正されます。
- 問題を修正する目的。
- モデルの提案されたソリューション(パッチ)は、提供されたコードベースに適用し、Playwrightを使用して関連するすべてのエンドツーエンドテストを実行することにより評価されます。重大なことに、モデルは、ソリューション生成プロセス中にこれらのエンドツーエンドテストにアクセスできません。
- IC SWEタスクの評価フロー。モデルは、すべての該当するテストが合格した場合にのみ支払いを獲得します。
このデータセットは、585,225ドルで評価された724のタスクで構成されており、ソフトウェアエンジニアリングマネージャーとして機能するモデルに挑戦しています。このモデルにはソフトウェアエンジニアリングタスクが表示され、いくつかのオプションから最適なソリューションを選択する必要があります。具体的には、モデルは次のとおりです 同じ問題に対する複数の提案されたソリューション、実際の議論から直接取られた。
コードベースのスナップショットが存在していたときの問題が解決されました。
最良のソリューションを選択する際の全体的な目的。
モデルの選択されたソリューションは、実際の根本的な最良のソリューションと比較して、そのパフォーマンスを評価します。重要なことに、経験豊富なソフトウェアエンジニアを用いた別の検証調査により、元の「ベスト」ソリューションとの99%の契約率が確認されました。
- SWEマネージャータスクの評価フロー。提案の選択中に、モデルにはコードベースを閲覧する機能があります。
また、読んでください:パズル解決ベンチマークのAndrej Karpathy
- gpt-4o:特にIC SWEタスクでのパフォーマンスの低下を示し、実際のアプリケーションでLLMSが直面する課題を強調しています。 gpt o1モデル
- :380ドルを超えて獲得し、4oよりも優れたパフォーマンスを示したミッドパフォーマンスを示しました。
- IC SWEとSWEマネージャーの両方のタスクを含む完全なSWEランサーデータセットで各モデルが獲得した合計支払い。 result
- リポジトリとタスクの多様性:タスクは、アップワークとExpensifyリポジトリのみから調達されました。これにより、評価の範囲、特に過小評価されているインフラストラクチャエンジニアリングタスクが制限されます。
- scope:フリーランスのタスクは、フルタイムのソフトウェアエンジニアリングタスクよりも自己完結型です。 Expensifyリポジトリは実際のエンジニアリングを反映していますが、フリーランスのコンテキストを超えて調査結果を一般化する場合は注意が必要です。 モダリティ
- :評価はテキストのみであり、スクリーンショットやビデオなどの視覚補助具がモデルのパフォーマンスを向上させる方法については考慮されていません。 環境 :モデルは、タスク要件の理解を妨げる可能性のある明確な質問をすることができません。
- 汚染:タスクの公共の性質により、汚染の可能性が存在します。正確な評価を確保するには、閲覧を無効にする必要があり、不正行為のための事後フィルタリングが不可欠です。分析は、モデルの知識のカットオフに先行するタスクの汚染の影響が限られていることを示しています。
- 将来の仕事
SWE-LANCERは、将来の研究のためのいくつかの機会を提示します:
- ここで完全な研究論文を見つけることができます。 結論
- SWE-LANCERは、ソフトウェアエンジニアリングタスクのLLMSの評価における大幅な進歩を表しています。実際のフリーランスのタスクと厳密なテスト基準を組み込むことにより、モデル機能のより正確な評価を提供します。このベンチマークは、ソフトウェアエンジニアリングにおけるAIの経済的影響に関する研究を促進するだけでなく、実際のアプリケーションでこれらのモデルを展開することに残っている課題を強調しています。
モデルパフォーマンス
ベンチマークは、OpenaiのGPT-4O、O1、およびAnthropicのClaude 3.5 Sonnetを含むいくつかの最先端モデルでテストされています。結果は、これらのモデルが約束を示している一方で、彼らはまだ多くのタスク、特に深い技術的理解とコンテキストを必要とするタスクに苦労していることを示しています。
パフォーマンスメトリック
claude 3.5 Sonnet
:IC SWEタスクで26.2%、SWE管理タスクで44.9%のスコアを達成し、SWE-Lancerダイヤモンドセットで可能な500,800ドルのうち合計208,050ドルを獲得しました。
テーブルには、パフォーマンスメトリック、特に「@1を渡す」精度と収益が表示されます。ダイヤモンドとフルSWEランサーセットの全体的なメトリックは青で強調表示され、IC SWE(ダイヤモンド)とSWEマネージャー(ダイヤモンド)サブセットのベースラインパフォーマンスは緑色で強調表示されます。 SW-LANCERの制限
SWE-LANCERは価値がありますが、いくつかの制限があります:
経済分析
:将来の研究では、労働市場と生産性に対する自治エージェントの社会的影響を調査し、フリーランサーの支払いとタスクの完了のためのAPIコストを比較することができます。 マルチモダリティ- :スクリーンショットやビデオなどのマルチモーダル入力は、現在のフレームワークではサポートされていません。これらのコンポーネントを含む将来の分析は、実際の状況でのモデルのパフォーマンスをより徹底的に評価することができます。
以上がOpenaiのSWE-LANCERベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します

2024年は、コンテンツ生成にLLMSを使用することから、内部の仕組みを理解することへの移行を目撃しました。 この調査は、AIエージェントの発見につながりました。これは、最小限の人間の介入でタスクと決定を処理する自律システムを処理しました。 buildin

この記事では、Google Cloud、Amazon Polly、Microsoft Azure、IBM Watson、DecriptなどのトップAI音声ジェネレーターをレビューし、機能、音声品質、さまざまなニーズへの適合性に焦点を当てています。

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました
