Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles-IA-php.cn

Maison

Périphériques technologiques

Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles

王林

Jun 07, 2024 pm 12:36 PM

产业

L'agent StarShip CodeGen lancé par OpenCSG, une startup de modélisme à grande échelle en Chine, a atteint la deuxième place mondiale dans le classement Prince WEBench (Real Independent Programming Evaluation of Large Models) grâce à l'innovation. Dans le même temps, il a créé un record le plus élevé (SOTA) basé sur le modèle GPT-4o. (Nombre de mots : 37)

L'évaluation SWEBench est très proche des scénarios de programmation réels et extrêmement difficile. Elle nécessite non seulement que le modèle comprenne les exigences et coordonne les changements entre plusieurs fonctions/classes, mais nécessite également que le modèle interagisse avec l'exécution. environnement, gérer des contextes extrêmement longs et effectuer un raisonnement logique complexe qui va bien au-delà des tâches traditionnelles de génération de code. Dans ce test réel difficile, les GPT4 et Devin les plus avancés du secteur ne peuvent résoudre que 1,74 % et 13,86 % des problèmes. Cette réalisation d'OpenCSG marque une étape majeure franchie par les entreprises nationales dans la promotion du développement de modèles linguistiques dans une direction plus pratique, intelligente et autonome.

Devin - Innovation dans la programmation de grands modèles

En mars 2024, l'émergence de Devin, le premier ingénieur logiciel en IA, a fait exploser le monde technologique tout entier. Bien que cela s'accompagne d'une série de controverses, les fortes capacités d'innovation et l'énorme potentiel de Devin ont suscité de nouvelles attentes chez de nombreux passionnés et praticiens de l'IA. Devin peut non seulement résoudre facilement les tâches de codage, mais également compléter l'ensemble du cycle de développement logiciel de manière indépendante - de la planification du projet au déploiement, y compris, mais sans s'y limiter, la création de sites Web, la recherche et la correction indépendantes de bogues, la formation et le réglage fin des modèles d'IA, etc.

Le véritable défi de la programmation de grands modèles

Pourquoi Devin ose-t-il remettre en question les capacités de programmation des modèles de base tels que GPT4 ? L'essentiel est que les ingénieurs logiciels écrivent non seulement du code, mais impliquent également la compréhension des exigences, l'interprétation du code, la planification de la programmation, la génération de code, le débogage et la réparation des exceptions, etc. Chaque lien ici affectera la convivialité et l'effet de la programmation de grands modèles.

Pour de tels scénarios réels, l'Université de Princeton a proposé SWEBench (https://arxiv.org/abs/2310.06770), qui est un outil permettant d'évaluer quantitativement les capacités de génération de code de bout en bout. Le score de GPT-4 sur SWEBench n'est que de 1,74 %. Même avec la technologie RAG, le score ne dépasse pas 3 %, ce qui montre qu'il n'est pas possible de résoudre directement des problèmes de programmation réels en s'appuyant uniquement sur des modèles de base.

L'innovation technologique de Devin est basée sur la construction de workflows basés sur des agents, ce qui élève le taux de solution de SWEBench à un nouveau niveau. En mars, Devin était en tête de liste avec un taux de résolution de problèmes de 13,86 % de manière indépendante, ce qui a directement amélioré la « programmation de grands modèles » d'un état presque inutilisable à « voir le jour ». Les grandes entreprises de la Silicon Valley et les grandes startups de marque recrutent des LLM pour SE, et cette liste a été continuellement révisée. Fin avril 2024, le meilleur record a été établi par l'Amazon Q Developer Agent lancé par l'équipe Amazon AI à 20,33 %. Malheureusement, comparées aux entreprises chinoises qui « laissent fleurir cent fleurs » sur la liste des modèles de base, les entreprises chinoises ont rarement participé à ce défi difficile jusqu'à ce que OpenCSG révise ce record.

Percées des startups chinoises

Les derniers résultats d'évaluation de SWEBench ont été récemment mis à jour. OpenCSG a grimpé à la deuxième place de la liste. L'agent OpenCSG StarShip CodeGen lancé par la société a obtenu un taux de réussite de 23,67 % dans l'évaluation Lite. Cette réalisation a non seulement dépassé les résultats de Devin et d'Amazon, mais a également établi un record historique (SOTA) pour le modèle de base révolutionnaire GPT4-o.

Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles

OpenCSG n'a été créé que depuis un an. C'est une équipe avec une profonde expérience dans l'open source et la synthèse de grands modèles : le PDG Chen Ran est un entrepreneur bien connu dans le domaine des logiciels open source et a construit avec succès de nombreux projets. entreprises commerciales dans le domaine de l'open source ; le CTO Wang Wei est issu de la promotion Yao de l'Université Tsinghua de 2005 et possède de nombreuses années d'expérience en R&D dans le domaine de l'intelligence artificielle. L'équipe principale de R&D de l'entreprise rassemble également des étudiants d'élite de l'Université Tsinghua, de l'Université de Pékin, Wharton, Université des sciences et technologies de Hong Kong et d'autres universités. Comment une telle équipe crée-t-elle un nouveau record ?

Nouveau record, modèle+AgentTravailler ensemble

Actuellement, de nombreuses entreprises explorent et mettent en pratique activement des modèles de base, des modèles de domaine vertical, RAG et d'autres technologies, tandis qu'OpenCSG a choisi une direction ciblée : dédiée à la programmation Agents Développement innovant et optimisation profonde d'algorithmes de grands modèles.

AgentNiveau : Différent du LLM+RAG ou du framework général d'agent, OpenCSG StarShip CodeGen Agent est conçu pour les agents hautement personnalisés et optimisés dans le domaine de la recherche et du développement de logiciels : intégrant toutes les étapes de recherche et de développement (compréhension des exigences , récupération de code, planification et écriture de code, vérification de boucle, etc.) sont implémentés via LLM Agent et combinés avec des méthodes d'ingénierie logicielle, telles que l'analyse de la syntaxe AST, la récupération des dépendances, etc. pour une optimisation en profondeur, nous nous efforçons de l'excellence dans chaque lien, et enfin parvenir à une génération de code de plus grande précision grâce à l'intégration.

Niveau d'algorithme : En réponse aux problèmes typiques tels que les conflits d'API causés par les changements de version de code, OpenCSG propose un modèle d'enseignant adaptatif, qui analyse les enregistrements de changement de version de code via le modèle d'enseignant pour générer des données de programmation de haute qualité et les utiliser pour améliorer l'effet de génération du modèle de base. Selon l'évaluation, les améliorations apportées par ces innovations sont nettement supérieures à celles du modèle RAG actuel, en particulier dans les scénarios de projet courants où la structure de l'API est fréquemment mise à jour. Les résultats pertinents de cette partie ont été transformés en articles et soumis à des conférences internationales.

C'est cette double approche algorithme + modèle d'ingénierie et d'amélioration continue qui permet à OpenCSG CodeGen Agent de se démarquer des autres modèles. La mer d'étoiles de

StarShip

Si la véritable évaluation de CodeGen Agent est un petit test, alors StarShip porte le grand modèle d'OpenCSG. Concernant le positionnement du produit de StarShip, Chen Ran, PDG d'OpenCSG, a déclaré : « StarShip porte notre vision de remodeler le développement de logiciels avec de grands modèles. Les utilisateurs forment leurs propres équipes d'employés numériques grâce aux agents intégrés de StarShip. CodeGen Agent est intégré à la plateforme. Les programmeurs numériques, y compris actuellement Les réviseurs de code CodeReview Agent et les ingénieurs de questions et réponses de code CodeSearch sont différents des outils d'assistance au code. Nous espérons que ces employés numériques pourront travailler directement sans intervention d'assistance manuelle. Nous publierons davantage de types d'employés numériques à l'avenir, couvrant de manière exhaustive tous les aspects de. exigences, conception, codage, tests, exploitation et maintenance. »

Le directeur technique Wang Wei a déclaré que ce chemin est plein de défis mais très intéressant : « Depuis les premiers principes, les grands modèles peuvent améliorer la productivité. " ou " non ", mais une question de savoir quand, où et sous quelle forme. StarShip est la réponse que nous essayons de donner. "

En plus de StarShip, l'équipe OpenCSG est également très productive : plateforme de modèles open source CSGHub, wukong. modèle de pré-formation, modèle de code affiné CSGCoder, etc. Ces produits sont positionnés avec précision et bien accueillis dans l'industrie.

Surpassant Devin, Yao Ban conduit OpenCSG à établir un nouveau record mondial de programmation de grands modèles Le lancement et l'itération rapides de ces produits répondent non seulement à la demande du marché, mais servent également un objectif commun : donner à chacun dans chaque entreprise les moyens de disposer de grands modèles. "Pour permettre aux grands modèles d'autonomiser chaque entreprise et chaque personne, nous devons créer des grands modèles identiques à l'eau et à l'électricité. Si les grands modèles sont de l'énergie électrique, alors CSGHub est le réseau électrique et StarShip est constitué de divers appareils électroménagers. En fin de compte, l'autonomisation des milliers de foyers. "

Adoptez l'open source et allez au-delà de l'open source

Le concept d'OpenCSG est open source. En tant qu'entreprise qui insiste sur l'open source comme noyau, elle réalise non seulement l'open source de modèles et de code, mais rend également la plateforme open source.

"Nous sommes une jeune entreprise. Nous bénéficions de l'open source afin de pouvoir produire des résultats dans un délai plus court. En même temps, nous redonnerons pleinement à la communauté open source. C'est le principe de base de l'open source. communauté source. De plus, je suis tout à fait d'accord avec Sam. Selon Altman, l'open source n'est qu'un modèle et la valeur du produit est plus importante que le modèle », a conclu le CTO Wang Wei.

« Le benchmark en lui-même n'est qu'un chiffre. Avec le lancement de GPT4-o, les résultats des tests de SWEBench devraient bientôt dépasser 30 %, et les estimations optimistes pourraient dépasser 50 % l'année prochaine. Et nous accordons plus d'attention à la valeur du produit qui se cache derrière ceux-ci. chiffres : avec l'amélioration des capacités des modèles et de la technologie d'ingénierie, les employés du numérique passeront de changements quantitatifs à des changements qualitatifs, d'utilisable à facile à utiliser, ouvrant la voie à une épidémie globale dans diverses industries. " Wang Wei a expliqué : " Cela pourrait être un nouveau ère dans le contexte de l’ère des grands modèles. De grands changements, des entreprises aux individus, nous devons tous nous y préparer. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1666

Tutoriel CakePHP

1425

Tutoriel Laravel

1327

Tutoriel PHP

1273

Tutoriel C#

1253

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles