Table des matières
Sommes-nous au mauvais endroit ? chercher l'or de l'IA ?
Probabilité vs Précision
Qu'en est-il du développement logiciel ? Au moment où j'écris, GenAI ouvre déjà des opportunités aux développeurs qui souhaitent être plus productifs en utilisant des outils comme GitHubCopilot ou AmazonCodeWhisperer. Ce n’est pas une spéculation – c’est arrivé. Ces outils peuvent prédire quel code est susceptible d'apparaître ensuite, en fonction du code avant et après le point d'insertion dans l'environnement de développement intégré.
Maison Périphériques technologiques IA Les grands modèles de langage sont-ils mauvais pour le codage ?

Les grands modèles de langage sont-ils mauvais pour le codage ?

Jun 05, 2023 pm 12:34 PM
编码 工具 人工

Les modèles d'apprentissage par renforcement battent l'IA générative lorsque l'objectif est la précision, la cohérence, la maîtrise du jeu ou la recherche d'une bonne réponse.

Les modèles linguistiques à grande échelle, tels que GPT-4, sont remarquables car ils peuvent générer un texte de haute qualité, fluide et naturel, extrêmement convaincant. Malheureusement, le battage médiatique aussi : les chercheurs de Microsoft décrivent à bout de souffle le modèle OpenAI GPT-4, financé par Microsoft, comme démontrant « une étincelle d'intelligence artificielle générale ».

Bien sûr, à moins que Microsoft ne fasse référence à une tendance à halluciner, le texte d'erreur généré doit être erroné. GPT n'est pas bon pour jouer à des jeux tels que les échecs et le Go, il n'est pas bon en mathématiques, et le code qu'il écrit peut contenir des erreurs et des failles subtiles.

Cela ne veut pas dire que les grands modèles linguistiques sont tous à la mode. Nous avons besoin de nouveaux angles pour discuter de l’intelligence artificielle générative (GenAI) sans exagérer ses différences par rapport aux autres technologies.

Comme détaillé dans un article de l'IEEESpectrum, certains experts, comme Ilya Sutskever d'OpenAI, pensent que l'ajout d'un apprentissage par renforcement avec un retour humain peut éliminer l'illusion du LLM. Mais d'autres, comme Yann LeCun de Meta et Geoff Hinton (récemment retraité de Google), pensent que des défauts plus fondamentaux dans les grands modèles de langage sont à l'œuvre. Tous deux pensent que les grands modèles linguistiques manquent des connaissances non linguistiques qui sont cruciales pour comprendre la réalité sous-jacente décrite par le langage.

Mathew Lodge, PDG de Diffblue, a souligné dans une interview qu'il existe une meilleure solution. Il a déclaré : "Des modèles d'apprentissage par renforcement petits, rapides et peu coûteux peuvent facilement vaincre de grands modèles de langage avec des centaines de milliards de paramètres dans une variété de tâches, allant du jeu à des jeux à l'écriture de code.

Sommes-nous au mauvais endroit ? chercher l'or de l'IA ?

Ce que Lodge dit, c'est que l'IA générative a certainement son utilité, mais peut-être essayons-nous de la forcer à recourir à l'apprentissage par renforcement, ce qui n'est pas une bonne solution. Prenez les jeux par exemple.

Levy Rozman, un grand maître d'échecs, a posté une vidéo de lui jouant contre ChatGPT (intelligence artificielle basée sur le chat). Le modèle a effectué une série de mouvements ridicules et illégaux, notamment en capturant ses propres pièces. Le meilleur logiciel d'échecs open source (Stockfish, qui n'utilise pas du tout de réseaux neuronaux) permet à ChatGPT de le battre en moins de 10 coups car le grand modèle de langage ne peut pas trouver de coups légaux. Cela prouve que les grands modèles de langage sont loin de répondre aux prétentions de l’intelligence artificielle générale, et il ne s’agit pas d’un exemple isolé.

Grâce à son algorithme d'apprentissage par renforcement, Google AlphaGo est l'intelligence artificielle Go la plus performante actuellement. L'apprentissage par renforcement fonctionne en générant différentes solutions à un problème, en les essayant, en utilisant les résultats pour améliorer la suggestion suivante, puis en répétant le processus des milliers de fois pour trouver le meilleur résultat.

Dans le cas d'AlphaGo, l'IA essaie différents mouvements et prédit si c'est un bon coup et si elle est susceptible de gagner la partie depuis cette position. Il utilise le feedback pour « suivre » des séquences de mouvements prometteuses et générer d’autres mouvements possibles. L'effet est une recherche de mouvements possibles.

Ce processus est appelé recherche probabiliste. Bien qu'il existe de nombreux mouvements, vous n'avez pas besoin de tous les essayer, mais vous pouvez patiemment rechercher les zones où vous pourriez trouver le meilleur mouvement. Cela fonctionne très bien pour les jeux. AlphaGo a vaincu les maîtres du Go dans le passé. AlphaGo n'est pas infaillible, mais il fonctionne actuellement mieux que les meilleurs modèles linguistiques à grande échelle disponibles aujourd'hui.

Probabilité vs Précision

Les partisans pensent que même s'il existe des preuves que les grands modèles de langage sont considérablement en retard par rapport aux autres types d'IA, ils s'amélioreront progressivement. Cependant, Lodge souligne que nous devons comprendre pourquoi ils réussissent mieux dans cette tâche si nous voulons accepter cette idée. La raison de la difficulté sur cette question, a-t-il poursuivi, est que personne ne peut prédire exactement comment GPT-4 réagira à des signaux spécifiques. Ce schéma dépasse toute explication humaine. C’est, selon lui, « la raison pour laquelle « l’ingénierie juste à temps » n’existe pas. » Il souligne que les chercheurs en IA ont également du mal à prouver que les « propriétés émergentes » des grands modèles de langage existent, et encore moins à prédire. eux.

On peut dire que le meilleur argument est l'induction. GPT-4 est meilleur que GPT-3 sur certaines tâches linguistiques car il est plus volumineux. Un modèle plus grand serait donc préférable.

Lodge estime que GPT-4 doit encore surmonter les défis rencontrés par GPT-3, il y a donc un problème. L'un d'eux concerne les mathématiques ; même si GPT-4 est meilleur que GPT-3 pour les opérations d'addition, il présente toujours des goulots d'étranglement pour la multiplication et d'autres opérations mathématiques.

Augmenter la taille des modèles de langage ne résout pas ces problèmes comme par magie, et selon OpenAI, des modèles plus grands ne sont pas la solution. La raison tient à la nature fondamentale des grands modèles de langage, comme le souligne le forum OpenAI : « Les grands modèles de langage sont de nature probabiliste et fonctionnent en générant des sorties possibles basées sur les modèles qu'ils observent dans les données d'entraînement dans les problèmes de mathématiques et de physique. , la probabilité de trouver une seule bonne réponse est mince. »

Dans le processus d'intelligence artificielle, les méthodes basées sur l'apprentissage par renforcement peuvent produire des résultats plus précis car il s'agit d'un processus de poursuite d'un objectif. L'apprentissage par renforcement trouve de manière itérative la meilleure réponse la plus proche de l'objectif pour atteindre l'objectif souhaité. Lodge souligne que les grands cours sur des modèles de langage « ne sont pas conçus pour itérer ou trouver des objectifs. Ils sont conçus pour donner une réponse « assez bonne » une ou plusieurs fois. le modèle produit La première réponse est obtenue en prédisant une séquence de mots dans l'invite. « L'apprentissage en quelques étapes » consiste à fournir des échantillons ou des indices supplémentaires au modèle pour l'aider à générer de meilleures prédictions. Les grands modèles de langage ajoutent souvent également un certain caractère aléatoire (c'est-à-dire qu'ils sont « randomisés ») pour augmenter la probabilité d'une meilleure réponse, de sorte qu'ils donneront des réponses différentes à la même question.

Ce n’est pas que le grand monde des modèles linguistiques ignore l’apprentissage par renforcement. GPT-4 combine « l'apprentissage par renforcement avec le feedback humain » (RLHF). Un modèle de base formé par un opérateur humain favorise certaines réponses, mais cela ne change pas fondamentalement la réponse générée par le modèle en premier lieu. Lodge souligne qu'un grand modèle de langage pourrait fournir les options suivantes pour combler les lacunes de la phrase « Wayne Gretzky aime la glace... »

1. Wayne Gretzky adore la crème glacée.

2. Wayne Gretzky adore le hockey sur glace.

3. Wayne Gretzky adore la pêche sur glace.

4. Wayne Gretzky adore patiner.

5. Wayne Gretzky aime le vin de glace.

Les opérateurs humains triant les réponses auraient pu conclure que le légendaire joueur de hockey canadien préférait le hockey sur glace et le patinage, malgré le large attrait de la crème glacée. Des classements humains et davantage de réponses écrites par des humains sont utilisés pour entraîner le modèle. Notez que GPT-4 ne prétend pas connaître avec précision les préférences de Wayne Gretzky, mais uniquement pour faire le meilleur travail possible lorsque vous y êtes invité.

Enfin, les grands modèles de langage ne sont pas conçus pour être très précis ou cohérents. Il existe un compromis entre l'exactitude et le comportement déterministe en échange de la généralité. Pour Lodge, cela signifie simplement que l’apprentissage par renforcement surpasse l’IA générative lorsqu’il s’agit d’appliquer l’IA à grande échelle.

Appliquer l'apprentissage par renforcement aux logiciels

Qu'en est-il du développement logiciel ? Au moment où j'écris, GenAI ouvre déjà des opportunités aux développeurs qui souhaitent être plus productifs en utilisant des outils comme GitHubCopilot ou AmazonCodeWhisperer. Ce n’est pas une spéculation – c’est arrivé. Ces outils peuvent prédire quel code est susceptible d'apparaître ensuite, en fonction du code avant et après le point d'insertion dans l'environnement de développement intégré.

En fait, comme l'a dit David Ramel de Visual Studio Magazine, la dernière version de Copilot génère déjà 61% du code Java. Pour ceux qui craignent que cela réduise le travail des développeurs de logiciels, rappelez-vous que ces outils nécessitent une supervision humaine diligente pour vérifier leur achèvement et les modifier afin que le code se compile et s'exécute correctement. La saisie semi-automatique est un élément essentiel des IDE depuis leurs débuts, et Copilot et d'autres générateurs de code la rendent encore plus utile. Le codage autonome à grande échelle est différent : en fait, 61 % du code Java doit être écrit.

Cependant, l'apprentissage par renforcement permet un codage autonome précis à grande échelle, a déclaré Lodge. Bien sûr, il a tout intérêt à dire ceci : en 2019, sa société Diffblue a lancé Cover, un outil commercial d'écriture de tests unitaires basé sur l'apprentissage par renforcement. Cover écrit des suites complètes de tests unitaires sans intervention humaine, ce qui permet d'automatiser à grande échelle des tâches complexes et sujettes aux erreurs.

Lodge est-il partial ? Absolument. Il possède de nombreuses expériences justifiant sa conviction que l’apprentissage par renforcement surpasse GenAI dans le développement de logiciels. Aujourd'hui, Diffblue utilise l'apprentissage par renforcement pour parcourir l'espace de toutes les méthodes de test possibles, écrire automatiquement le code de test pour chaque méthode et sélectionner le meilleur test parmi les tests écrits. Les fonctions de récompense de l'apprentissage par renforcement sont basées sur une variété de critères, notamment la couverture des tests et l'esthétique, dont l'un inclut la conformité au style de codage écrit par l'homme. L'outil crée des tests pour chaque méthode en une seconde en moyenne.

Lodge estime que si l'objectif est d'écrire automatiquement 10 000 tests unitaires pour un programme que personne ne comprend, alors l'apprentissage par renforcement est la seule véritable solution. "Les grands modèles de langage ne peuvent pas rivaliser ; les humains n'ont aucun moyen de les superviser efficacement et de corriger leur code à cette échelle. Rendre les modèles plus grands et plus complexes ne résout pas ce problème.

Conclusion : les grands modèles de langage sont les plus puissants." réside dans le fait qu’il s’agit de processeurs de langage à usage général. Ils peuvent effectuer des tâches linguistiques pour lesquelles ils n’ont pas été explicitement formés. Cela signifie qu'ils peuvent faire un excellent travail de génération de contenu (rédaction) et bien d'autres choses. Lodge a souligné : "Mais cela ne fait pas des grands modèles de langage un substitut aux modèles d'intelligence artificielle, qui sont souvent basés sur l'apprentissage par renforcement, qui sont plus précis, plus cohérents et peuvent être utilisés à grande échelle

."

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

La production de pages H5 nécessite-t-elle une maintenance continue? La production de pages H5 nécessite-t-elle une maintenance continue? Apr 05, 2025 pm 11:27 PM

La page H5 doit être maintenue en continu, en raison de facteurs tels que les vulnérabilités du code, la compatibilité des navigateurs, l'optimisation des performances, les mises à jour de sécurité et les améliorations de l'expérience utilisateur. Des méthodes de maintenance efficaces comprennent l'établissement d'un système de test complet, à l'aide d'outils de contrôle de version, de surveiller régulièrement les performances de la page, de collecter les commentaires des utilisateurs et de formuler des plans de maintenance.

Comment réaliser un effet d'écart sur la disposition de la carte et des coupons avec fond de gradient? Comment réaliser un effet d'écart sur la disposition de la carte et des coupons avec fond de gradient? Apr 05, 2025 am 07:48 AM

Réalisez l'effet d'écart de la disposition des coupons de carte. Lors de la conception de la disposition des coupons de carte, vous rencontrez souvent la nécessité d'ajouter des lacunes sur les coupons de carte, surtout lorsque l'arrière-plan est le gradient ...

Pourquoi les marges négatives ne prennent-elles pas effet dans certains cas? Comment résoudre ce problème? Pourquoi les marges négatives ne prennent-elles pas effet dans certains cas? Comment résoudre ce problème? Apr 05, 2025 pm 10:18 PM

Pourquoi les marges négatives ne prennent-elles pas effet dans certains cas? Pendant la programmation, les marges négatives dans CSS (négatif ...

Pourquoi les zones réduites pourpre dans la disposition Flex sont-elles considérées à tort «espace de débordement»? Pourquoi les zones réduites pourpre dans la disposition Flex sont-elles considérées à tort «espace de débordement»? Apr 05, 2025 pm 05:51 PM

Questions sur les zones de slash violet dans les dispositions flexibles Lorsque vous utilisez des dispositions flexibles, vous pouvez rencontrer des phénomènes déroutants, comme dans les outils du développeur (D ...

Comment obtenir des données d'application et de visionneuse en temps réel sur la page de travail 58.com? Comment obtenir des données d'application et de visionneuse en temps réel sur la page de travail 58.com? Apr 05, 2025 am 08:06 AM

Comment obtenir des données dynamiques de la page de travail 58.com tout en rampant? Lorsque vous rampez une page de travail de 58.com en utilisant des outils de chenilles, vous pouvez rencontrer cela ...

JavaScript Code Line Break: Comment gérer gracieusement l'attribut de chaîne et d'objet long? JavaScript Code Line Break: Comment gérer gracieusement l'attribut de chaîne et d'objet long? Apr 05, 2025 am 08:03 AM

Explication détaillée des compétences de rédaction de code JavaScript Lors de l'écriture de code JavaScript, nous rencontrons souvent une ligne de code trop longue, ce qui affecte non seulement la lisibilité du code ...

Pourquoi les moteurs de recherche affichent-ils toujours les anciens titres après la mise à jour du mot clé du titre du site Web? Pourquoi les moteurs de recherche affichent-ils toujours les anciens titres après la mise à jour du mot clé du titre du site Web? Apr 04, 2025 pm 09:00 PM

Pourquoi les moteurs de recherche ne sont-ils pas affichés après la mise à jour des mots clés du titre du site Web? Lors de l'optimisation d'un site Web, de nombreux webmasters modifieront les paramètres de référencement du site Web et les données structurées, en espérant ...

See all articles