Maison Périphériques technologiques IA Le modèle OpenAI 'Strawberry' a encore été retardé. Qu'est-ce que le banc SWE Verified publié tôt le matin ?

Le modèle OpenAI 'Strawberry' a encore été retardé. Qu'est-ce que le banc SWE Verified publié tôt le matin ?

Aug 14, 2024 pm 05:08 PM
产业 Genie Cosine

Quelqu'un a dit : « Nous nous attendions à des fraises, mais ils ont sorti du chou frisé. » Voyons à quoi sert ce « chou frisé ».

Les capacités de programmation des grands modèles ont toujours attiré beaucoup d'attention, et l'émergence du programmeur d'IA super puissant Devin a poussé le sujet « L'IA peut-elle remplacer les programmeurs » au premier plan. Récemment, Devin a également accueilli un nouvel adversaire : le programmeur d'IA autonome Genie lancé par la startup Cosine. La société a déclaré que Genie a facilement surperformé Devin, obtenant un score de 30 % sur le banc de référence tiers SWE, tandis que Devin n'a obtenu qu'un score de 13,8 %.

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

Ce SWE-Bench est un ensemble de données de référence utilisé pour évaluer la capacité de LLM à résoudre de vrais problèmes logiciels sur GitHub. Il collecte 2 294 paires de requêtes Issue-Pull à partir de 12 référentiels Python populaires. Pendant les tests, LLM obtiendra une base de code et une description du problème, puis générera un correctif pour résoudre le problème décrit dans le problème. Cet ensemble de données a été largement utilisé dans l’évaluation des capacités de programmation de l’IA.

À mesure que les capacités de programmation de l'IA évoluent, ce benchmark évolue également. Tôt ce matin, le modèle OpenAI « Strawberry » signalé en ligne a de nouveau été retardé, mais OpenAI a publié quelque chose de nouveau, qui est une version améliorée de SWE-Bench - SWE-bench Verified.

OpenAI a souligné que le banc SWE d'origine présente certains problèmes qui peuvent conduire à une sous-estimation des capacités autonomes d'ingénierie logicielle du modèle. Par conséquent, au cours du processus d'amélioration, ils ont travaillé avec les auteurs originaux de SWE-Bench pour effectuer une sélection manuelle et des améliorations afin de garantir que la portée des tests unitaires était appropriée et que la description du problème était claire.

Dans un nouveau test sur SWE-bench Verified, de nombreux agents de programmation d'IA ont obtenu des résultats plus élevés qu'auparavant. Parmi eux, la solution Agentless de l'UIUC a même doublé le score. OpenAI estime que cela prouve que le benchmark précédent a effectivement le défaut de sous-estimer les capacités de programmation de l'IA.

Mais pour les internautes du monde entier qui regardent "Strawberry", cette annonce est encore trop superficielle. Quelqu'un a dit : "Nous attendions des fraises, mais ils ont sorti du chou frisé

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

."
Background on SWE-bench

Each example in the SWE-bench test set was created from a resolved GitHub issue in 12 open source Python code repositories on GitHub. Each sample has an associated pull request (PR) that includes solution code and unit tests to verify the correctness of the code. These unit tests are called FAIL_TO_PASS tests because they fail before the solution code in the PR is added and pass after. Each sample also includes PASS_TO_PASS tests that pass before and after the PR is merged to check whether the PR breaks other features in the codebase that are not related to the issue.

In SWE-bench, the AI ​​agent gets the original text from the GitHub issue, which is the problem statement, and has access to the code base. Given this information, the agent must edit files in the code base to solve the problem.

Edit given by the AI ​​agent will be evaluated by running FAIL_TO_PASS and PASS_TO_PASS tests. If the FAIL_TO_PASS test passes, it means the edit fixed the problem. If the PASS_TO_PASS test passes, it means that the edit did not break extraneous parts of the code base. To fully resolve the original GitHub issue, both sets of tests must pass.

Three improvement directions to improve the robustness and reliability of SWE-bench

In order to improve the robustness and reliability of SWE-bench. The development team identified three main directions for improvement:

  • Unit tests used to evaluate the correctness of a solution are often too specific and sometimes not even relevant to the problem. This may result in the correct solution being rejected.
  • The problem description of many samples is not clear enough, leading to ambiguity about what the problem is and how it should be solved.
  • Sometimes it is difficult to reliably set up a SWE-bench development environment for the agent, which can inadvertently cause unit tests to fail regardless of the solution. In this case, a perfectly valid solution may be rated as incorrect.

SWE-bench Verified

To address these issues, OpenAI launched a human annotation campaign by professional software developers on every sample in the SWE-bench test set Screening is done to ensure unit tests are appropriately scoped and problem descriptions are clear and unambiguous.

Together with the authors of SWE-bench, they released SWE-bench Verified: a subset of the original test set of SWE-bench, containing 500 samples that have been verified by human annotators. This version replaces the original SWE-bench and SWE-bench Lite test suites. Additionally, they are releasing human annotations for all SWE-bench test samples.

They also collaborated with the authors of SWE-bench to develop a new evaluation tool for SWE-bench that uses a containerized Docker environment to make evaluation on SWE-bench easier. More reliable.

  • Tool address: https://github.com/princeton-nlp/SWE-bench/tree/main/docs/20240627_docker

Improvement method

OpenAI Cooperated with 93 software developers with Python experience, manually screened SWE-bench samples, and annotated 1699 random samples in the SWE-bench test set, and finally obtained SWE-bench Verified.

Their approach is to annotate the samples in the SWE-bench test set to ensure fairness and accuracy of the test. Specifically, they focus on two key points: first, assessing whether the problem description is detailed enough to prevent an overly vague description from making the test unfair; second, checking whether the FAIL_TO_PASS unit test incorrectly filters out valid solutions.

Each annotation criterion has a label in the range [0, 1, 2, 3] with increasing severity. Labels 0 and 1 are minor; labels 2 and 3 are severe, indicating that the sample is inadequate in some way and should be discarded.

Additionally, OpenAI evaluates the difficulty of each sample by asking annotators to estimate how long it would take developers to decide on and implement a solution, assuming the sample has no issues. Finally, OpenAI provides a free-form input option to flag any other major issues with the sample.

To build SWE-bench Verified, OpenAI filters out any samples from the original test set with a problem statement or FAIL_TO_PASS unit test severity of 2 or above, and also filters out all samples marked with other serious issues.

Annotation results

According to the new standard, a large part of the samples in the original SWE-bench are unqualified.As shown in the figure, 38.3% of the samples were flagged because the problem statement was not clear enough, and 61.1% were flagged because the unit tests could unfairly falsely flag valid solutions as incorrect (Severity 2, 3 two levels added together). Overall, their annotation process resulted in 68.3% of SWE-bench samples being filtered out due to unclear problem statements, unfair unit tests, or other issues.

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

The figure below compares the difficulty distribution of the original SWE-bench dataset and the new SWE-bench Verified dataset. They estimate the difficulty distribution of SWE-bench based on a random subset of 1699 samples.

As can be seen from the figure, in the original SWE-bench dataset, the estimated completion time of most (77.8%) samples is less than one hour of work for an experienced software engineer. SWE-bench Lite and the new SWE-bench Verified dataset further increase this proportion, with less than 10% of problems expected to take more than an hour to solve. However, the mechanisms behind this change are quite different: SWE-bench Lite is a subsampling of the original dataset to make benchmarking easier, while SWE-bench Verified attempts to remove infeasible features from the dataset sample.

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

Performance of each agent on SWE-bench Verified

On the new SWE-bench Verified data set, the development team used multiple algorithms that performed well on the original SWE-bench rankings The open source scaffold tests the performance of GPT-4o.

It was found that GPT-4o’s performance on the best-performing scaffold reached 33.2% on SWE-bench Verified, which is more than double the 16% score on the original SWE-bench. Overall, this confirms OpenAI's initial suspicion that the original SWE-bench underestimated the agent's capabilities.

It’s worth noting that the jump from SWE-bench Lite to SWE-bench Verified is not that noticeable because after filtering, SWE-bench Lite is already easier than the full dataset.

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

Performance analysis stratified by difficulty

When evaluated on SWE-bench Verified, the improvement in performance may be partially due to the distribution of test samples being skewed towards simpler samples.

OpenAI investigated this by plotting performance stratified by difficulty. If the new dataset simply changes the difficulty distribution to include easier samples, the stratified performance within each category does not change, as is the case from original SWE-bench to SWE-bench Lite.

In contrast, OpenAI observed that the agent's performance improved across difficulty categories when switching to SWE-bench Verified, consistent with the expected effect of removing impossible samples from all categories, rather than simply removing difficult samples.

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

Reference link: https://openai.com/index/introducing-swe-bench-verified/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1672
14
Tutoriel PHP
1277
29
Tutoriel C#
1256
24
Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles