Openais Swe-Lancer-Benchmark-KI-php.cn

Die Einrichtung von Benchmarks, die die realen Aufgaben treu replizieren, ist für den sich schnell entwickelnden Bereich der künstlichen Intelligenz, insbesondere im Bereich der Software-Engineering, von wesentlicher Bedeutung. Samuel Miserendino und Associates entwickelten den SWE-Lancer-Benchmark, um zu bewerten, wie gut große Sprachmodelle (LLMs) freiberufliche Software-Engineering-Aufgaben ausführen. Über 1.400 Arbeitsplätze in Höhe von insgesamt 1 Million US -Dollar wurden aus der Upwork zur Schaffung dieses Benchmarks entnommen, der sowohl Management- als auch individuelle Mitarbeiter (IC) bewerten soll.

Inhaltsverzeichnis

Was ist SWE-Lancer-Benchmark? Tasks
- SWE Management Tasks
Model Performance
Performance Metrics
- Result
- Limitations of SWE-Lancer
Future Work
Conclusion
: Die Aufgaben in Swe-Lancer stellen tatsächliche Auszahlungen für freiberufliche Ingenieure dar und bieten einen natürlichen Schwierigkeitsgradienten.

Management Assessment

: Der Benchmark wählt die besten Implementierungspläne unabhängiger Auftragnehmer aus, indem die Fähigkeit der Modelle als technische Leads bewertet wird.

Fortgeschrittene Full-Stack-Engineering

: Aufgrund der Komplexität der realen Software-Engineering erfordern Aufgaben ein gründliches Verständnis sowohl der Front-End- als auch der Back-End-Entwicklung.

Bessere Einstufung durch End-to-End-Tests : SWE-Lancer verwendet End-to-End-Tests, die von qualifizierten Ingenieuren entwickelt wurden, und bietet eine gründlichere Bewertung als frühere Benchmarks, die von Unit-Tests abhielten.
Warum ist Swe-Lancer wichtig?
Bewertungsmetriken

Die Leistung von Modellen wird anhand des Prozentsatzes der gelösten Aufgaben und der Gesamtauszahlung bewertet. Der mit jeder Aufgabe verbundene wirtschaftliche Wert spiegelt die wahre Schwierigkeit und Komplexität der beteiligten Arbeit wider.

Beispielaufgaben
- $ 250 Zuverlässigkeitsverbesserung : Behebung eines doppelt ausgelöschten API-Aufrufs.
- $ 1.000 Fehlerfix : Berechtigungen Diskrepanzen auflösen.
- $ 16.000 Feature-Implementierung : Hinzufügen von Unterstützung für die In-App-Videowiedergabe auf mehreren Plattformen.
Der SWE-Lancer-Datensatz enthält 1.488 reale, freiberufliche Software-Engineering-Aufgaben, die aus dem Repository Repensify Open-Source-Repository gezogen und ursprünglich auf Upwork veröffentlicht wurden. Diese Aufgaben mit einem kombinierten Wert von 1 Million US -Dollar werden in zwei Gruppen eingeteilt:

IC -SWE (Einzelpersonenvertreter) -Software -Engineering (SWE)
Dieser Datensatz besteht aus 764 Software -Engineering -Aufgaben, die insgesamt 414.775 USD im Wert von insgesamt 414.775 US -Dollar für die Arbeit einzelner Ingenieure von Mitwirkenden darstellen sollen. Diese Aufgaben beinhalten typische IC -Aufgaben wie die Implementierung neuer Funktionen und die Behebung von Fehler. Für jede Aufgabe wird ein Modell mit:
- Ein Codebasis -Checkpoint, der den Status vor
Die vorgeschlagene Lösung des Modells (ein Patch) wird bewertet, indem sie auf die bereitgestellte Codebasis angewendet und alle zugehörigen End-to-End-Tests mit Dramatikern ausgeführt werden. Kritischerweise hat das Modell nicht Zugriff auf diese End-to-End-Tests während des Lösungserzeugungsprozesses.

Bewertungsfluss für IC SWE -Aufgaben; Das Modell verdient nur die Auszahlung, wenn alle zutreffenden Tests bestehen.

SWE -Management -Aufgaben

Dieser Datensatz, der aus 724 Aufgaben im Wert von 585.225 USD besteht, fordert ein Modell auf, als Software -Engineering -Manager zu fungieren. Das Modell erhält eine Software -Engineering -Aufgabe und muss die beste Lösung aus mehreren Optionen auswählen. Insbesondere empfängt das Modell:
- Mehrere vorgeschlagene Lösungen für dasselbe Problem, direkt aus realen Diskussionen.
- Ein Schnappschuss der Codebasis, wie es vorhanden vor Das Problem wurde behoben.
- Das Gesamtziel bei der Auswahl der besten Lösung.
Die ausgewählte Lösung des Modells wird dann mit der tatsächlichen, oberen Wahrheit mit der besten Lösung zur Bewertung seiner Leistung verglichen. Wichtig ist, dass eine separate Validierungsstudie mit erfahrenen Software -Ingenieuren eine 99% ige Vereinbarungsrate mit den ursprünglichen „besten“ Lösungen bestätigte.

Bewertungsfluss für SWE -Manager -Aufgaben; Während der Auswahl der Vorschläge kann das Modell die Codebasis durchsuchen.

Lesen Sie auch: Andrej Karpathie auf Puzzlungslösungs-Benchmarks

Modellleistung

Der Benchmark wurde an mehreren hochmodernen Modellen getestet, darunter OpenAIs GPT-4O, O1 und Anthropics Claude 3.5-Sonett. Die Ergebnisse deuten darauf hin, dass diese Modelle zwar vielversprechend sind, aber immer noch mit vielen Aufgaben zu kämpfen haben, insbesondere mit solchen, die ein tiefes technisches Verständnis und Kontext benötigen.

Leistungsmetriken
- Claude 3.5 Sonett : Erreichte eine Punktzahl von 26,2% bei IC SWE-Aufgaben und 44,9% für SWE-Managementaufgaben, was insgesamt 208.050 US
- gpt-4o : zeigte eine geringere Leistung, insbesondere bei IC-SWE-Aufgaben, was die Herausforderungen hervorhebt, denen LLMs in realen Anwendungen gegenüberstehen.
- GPT O1 Modell : zeigte eine mittlere Leistung über 380 US -Dollar und erzielte besser als 4o.
Gesamtausschüttungen, die jedes Modell auf dem vollständigen SWE-Lancer-Datensatz verdient haben, einschließlich IC SWE- und SWE-Manager-Aufgaben.

Ergebnis

Diese Tabelle zeigt die Leistung verschiedener Sprachmodelle (GPT-4, O1, 3.5 Sonnet) im SWE-Lancer-Datensatz, die nach Aufgabentyp (IC SWE, SWE-Manager) und Datensatzgröße (Diamant, voll) unterteilt sind. Es vergleicht die Genauigkeit „Pass@1“ (wie oft die oberste erzeugte Lösung korrekt ist) und die Einnahmen (basierend auf dem Aufgabenwert). Die Spalte „Benutzerwerkzeug“ gibt an, ob das Modell Zugriff auf externe Tools hatte. „Argumentationsanstrengungen“ spiegelt den Aufwand wider, der die Erzeugung der Lösungen ermöglicht hat. Insgesamt erreicht 3,5 Sonett im Allgemeinen den höchsten Pass@1 -Genauigkeit und Einnahmen in verschiedenen Task -Typen und Datensatzgrößen, während externe Tools verwendet und die Leistung zunehmend die Leistung verbessert. Das Blau -Grün -Hervorhebung betont insgesamt und die Grundlinienmetriken.

In der Tabelle werden Leistungsmetriken angezeigt, insbesondere die Genauigkeit und das Ergebnis der „Pass@1“. Die Gesamtmetriken für Diamant- und Full SWE-Lancer-Sets sind blau hervorgehoben, während die Basisleistung für die IC SWE (Diamond) und SWE Manager (Diamond) -Bereiche in Grün hervorgehoben werden.

Einschränkungen von Swe-Lancer

swe-lancer hat zwar wertvoll, hat jedoch mehrere Einschränkungen:
- Vielfalt von Repositorys und Aufgaben : Aufgaben wurden ausschließlich aus Upwork und dem Repository -Repository bezogen. Dies begrenzt den Umfang der Bewertung, insbesondere die Infrastruktur -Engineering -Aufgaben, die unterrepräsentiert sind.
- Scope : Freiberufliche Aufgaben sind oft selbst zusammenhängt als Vollzeit-Software-Engineering-Aufgaben. Obwohl das Expensify-Repository reale Engineering widerspiegelt, ist Vorsicht erforderlich, wenn die Erkenntnisse über freiberufliche Kontexte hinaus verallgemeinert.
- Modalitäten : Die Bewertung ist nur Text, da es keine Überlegung dafür hat, wie visuelle Hilfsmittel wie Screenshots oder Videos die Modellleistung verbessern können.
- Umgebungen : Modelle können keine klären Fragen stellen, was ihr Verständnis der Aufgabenanforderungen behindern kann.
- Kontamination : Das Potenzial für Kontamination besteht aufgrund der öffentlichen Natur der Aufgaben. Um genaue Bewertungen zu gewährleisten, sollte das Browsen deaktiviert sein, und die Post-Hoc-Filterung für Betrug ist unerlässlich. Die Analyse zeigt eine begrenzte Kontaminationseinwirkung für Aufgaben, die vor Modellkenntnissen vor dem Modell von Modellkenntnissen sind.
zukünftige Arbeit

Swe-Lancer bietet mehrere Möglichkeiten für die zukünftige Forschung:
- Wirtschaftsanalyse : Zukünftige Studien könnten die gesellschaftlichen Auswirkungen autonomer Agenten auf Arbeitsmärkte und -produktivität untersuchen und freiberufliche Auszahlungen mit den API -Kosten für den Abschluss der Aufgaben vergleichen.
- Multimodalität : Multimodale Eingänge wie Screenshots und Videos werden vom aktuellen Framework nicht unterstützt. Zukünftige Analysen, die diese Komponenten enthalten, können eine gründlichere Bewertung der Leistung des Modells in praktischen Situationen bieten.
finden Sie hier das vollständige Forschungspapier.

Schlussfolgerung

Swe-Lancer stellt einen signifikanten Fortschritt bei der Bewertung von LLMs für Software-Engineering-Aufgaben dar. Durch die Einbeziehung von freiberuflichen Aufgaben und strengen Teststandards bietet es eine genauere Bewertung der Modellfunktionen. Der Benchmark erleichtert nicht nur die Erforschung der wirtschaftlichen Auswirkungen der KI auf Software -Engineering, sondern unterstreicht auch die Herausforderungen, die bei der Bereitstellung dieser Modelle in praktischen Anwendungen bestehen bleiben.

Das obige ist der detaillierte Inhalt vonOpenais Swe-Lancer-Benchmark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!