Die Einrichtung von Benchmarks, die die realen Aufgaben treu replizieren, ist für den sich schnell entwickelnden Bereich der künstlichen Intelligenz, insbesondere im Bereich der Software-Engineering, von wesentlicher Bedeutung. Samuel Miserendino und Associates entwickelten den SWE-Lancer-Benchmark, um zu bewerten, wie gut große Sprachmodelle (LLMs) freiberufliche Software-Engineering-Aufgaben ausführen. Über 1.400 Arbeitsplätze in Höhe von insgesamt 1 Million US -Dollar wurden aus der Upwork zur Schaffung dieses Benchmarks entnommen, der sowohl Management- als auch individuelle Mitarbeiter (IC) bewerten soll.
Die Leistung von Modellen wird anhand des Prozentsatzes der gelösten Aufgaben und der Gesamtauszahlung bewertet. Der mit jeder Aufgabe verbundene wirtschaftliche Wert spiegelt die wahre Schwierigkeit und Komplexität der beteiligten Arbeit wider.
Der SWE-Lancer-Datensatz enthält 1.488 reale, freiberufliche Software-Engineering-Aufgaben, die aus dem Repository Repensify Open-Source-Repository gezogen und ursprünglich auf Upwork veröffentlicht wurden. Diese Aufgaben mit einem kombinierten Wert von 1 Million US -Dollar werden in zwei Gruppen eingeteilt:
Dieser Datensatz besteht aus 764 Software -Engineering -Aufgaben, die insgesamt 414.775 USD im Wert von insgesamt 414.775 US -Dollar für die Arbeit einzelner Ingenieure von Mitwirkenden darstellen sollen. Diese Aufgaben beinhalten typische IC -Aufgaben wie die Implementierung neuer Funktionen und die Behebung von Fehler. Für jede Aufgabe wird ein Modell mit:
Die vorgeschlagene Lösung des Modells (ein Patch) wird bewertet, indem sie auf die bereitgestellte Codebasis angewendet und alle zugehörigen End-to-End-Tests mit Dramatikern ausgeführt werden. Kritischerweise hat das Modell nicht Zugriff auf diese End-to-End-Tests während des Lösungserzeugungsprozesses.
Bewertungsfluss für IC SWE -Aufgaben; Das Modell verdient nur die Auszahlung, wenn alle zutreffenden Tests bestehen.
Dieser Datensatz, der aus 724 Aufgaben im Wert von 585.225 USD besteht, fordert ein Modell auf, als Software -Engineering -Manager zu fungieren. Das Modell erhält eine Software -Engineering -Aufgabe und muss die beste Lösung aus mehreren Optionen auswählen. Insbesondere empfängt das Modell:
Die ausgewählte Lösung des Modells wird dann mit der tatsächlichen, oberen Wahrheit mit der besten Lösung zur Bewertung seiner Leistung verglichen. Wichtig ist, dass eine separate Validierungsstudie mit erfahrenen Software -Ingenieuren eine 99% ige Vereinbarungsrate mit den ursprünglichen „besten“ Lösungen bestätigte.
Bewertungsfluss für SWE -Manager -Aufgaben; Während der Auswahl der Vorschläge kann das Modell die Codebasis durchsuchen.
Lesen Sie auch: Andrej Karpathie auf Puzzlungslösungs-Benchmarks
Der Benchmark wurde an mehreren hochmodernen Modellen getestet, darunter OpenAIs GPT-4O, O1 und Anthropics Claude 3.5-Sonett. Die Ergebnisse deuten darauf hin, dass diese Modelle zwar vielversprechend sind, aber immer noch mit vielen Aufgaben zu kämpfen haben, insbesondere mit solchen, die ein tiefes technisches Verständnis und Kontext benötigen.
Ergebnis
Einschränkungen von Swe-Lancer
Swe-Lancer bietet mehrere Möglichkeiten für die zukünftige Forschung:
finden Sie hier das vollständige Forschungspapier.
Swe-Lancer stellt einen signifikanten Fortschritt bei der Bewertung von LLMs für Software-Engineering-Aufgaben dar. Durch die Einbeziehung von freiberuflichen Aufgaben und strengen Teststandards bietet es eine genauere Bewertung der Modellfunktionen. Der Benchmark erleichtert nicht nur die Erforschung der wirtschaftlichen Auswirkungen der KI auf Software -Engineering, sondern unterstreicht auch die Herausforderungen, die bei der Bereitstellung dieser Modelle in praktischen Anwendungen bestehen bleiben.
Das obige ist der detaillierte Inhalt vonOpenais Swe-Lancer-Benchmark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!