Les modèles d'apprentissage par renforcement battent l'IA générative lorsque l'objectif est la précision, la cohérence, la maîtrise du jeu ou la recherche d'une bonne réponse.
Les modèles linguistiques à grande échelle, tels que GPT-4, sont remarquables car ils peuvent générer un texte de haute qualité, fluide et naturel, extrêmement convaincant. Malheureusement, le battage médiatique aussi : les chercheurs de Microsoft décrivent à bout de souffle le modèle OpenAI GPT-4, financé par Microsoft, comme démontrant « une étincelle d'intelligence artificielle générale ».
Bien sûr, à moins que Microsoft ne fasse référence à une tendance à halluciner, le texte d'erreur généré doit être erroné. GPT n'est pas bon pour jouer à des jeux tels que les échecs et le Go, il n'est pas bon en mathématiques, et le code qu'il écrit peut contenir des erreurs et des failles subtiles.
Cela ne veut pas dire que les grands modèles linguistiques sont tous à la mode. Nous avons besoin de nouveaux angles pour discuter de l’intelligence artificielle générative (GenAI) sans exagérer ses différences par rapport aux autres technologies.
Comme détaillé dans un article de l'IEEESpectrum, certains experts, comme Ilya Sutskever d'OpenAI, pensent que l'ajout d'un apprentissage par renforcement avec un retour humain peut éliminer l'illusion du LLM. Mais d'autres, comme Yann LeCun de Meta et Geoff Hinton (récemment retraité de Google), pensent que des défauts plus fondamentaux dans les grands modèles de langage sont à l'œuvre. Tous deux pensent que les grands modèles linguistiques manquent des connaissances non linguistiques qui sont cruciales pour comprendre la réalité sous-jacente décrite par le langage.
Mathew Lodge, PDG de Diffblue, a souligné dans une interview qu'il existe une meilleure solution. Il a déclaré : "Des modèles d'apprentissage par renforcement petits, rapides et peu coûteux peuvent facilement vaincre de grands modèles de langage avec des centaines de milliards de paramètres dans une variété de tâches, allant du jeu à des jeux à l'écriture de code.
Ce que Lodge dit, c'est que l'IA générative a certainement son utilité, mais peut-être essayons-nous de la forcer à recourir à l'apprentissage par renforcement, ce qui n'est pas une bonne solution. Prenez les jeux par exemple.
Levy Rozman, un grand maître d'échecs, a posté une vidéo de lui jouant contre ChatGPT (intelligence artificielle basée sur le chat). Le modèle a effectué une série de mouvements ridicules et illégaux, notamment en capturant ses propres pièces. Le meilleur logiciel d'échecs open source (Stockfish, qui n'utilise pas du tout de réseaux neuronaux) permet à ChatGPT de le battre en moins de 10 coups car le grand modèle de langage ne peut pas trouver de coups légaux. Cela prouve que les grands modèles de langage sont loin de répondre aux prétentions de l’intelligence artificielle générale, et il ne s’agit pas d’un exemple isolé.
Grâce à son algorithme d'apprentissage par renforcement, Google AlphaGo est l'intelligence artificielle Go la plus performante actuellement. L'apprentissage par renforcement fonctionne en générant différentes solutions à un problème, en les essayant, en utilisant les résultats pour améliorer la suggestion suivante, puis en répétant le processus des milliers de fois pour trouver le meilleur résultat.
Dans le cas d'AlphaGo, l'IA essaie différents mouvements et prédit si c'est un bon coup et si elle est susceptible de gagner la partie depuis cette position. Il utilise le feedback pour « suivre » des séquences de mouvements prometteuses et générer d’autres mouvements possibles. L'effet est une recherche de mouvements possibles.
Ce processus est appelé recherche probabiliste. Bien qu'il existe de nombreux mouvements, vous n'avez pas besoin de tous les essayer, mais vous pouvez patiemment rechercher les zones où vous pourriez trouver le meilleur mouvement. Cela fonctionne très bien pour les jeux. AlphaGo a vaincu les maîtres du Go dans le passé. AlphaGo n'est pas infaillible, mais il fonctionne actuellement mieux que les meilleurs modèles linguistiques à grande échelle disponibles aujourd'hui.
Les partisans pensent que même s'il existe des preuves que les grands modèles de langage sont considérablement en retard par rapport aux autres types d'IA, ils s'amélioreront progressivement. Cependant, Lodge souligne que nous devons comprendre pourquoi ils réussissent mieux dans cette tâche si nous voulons accepter cette idée. La raison de la difficulté sur cette question, a-t-il poursuivi, est que personne ne peut prédire exactement comment GPT-4 réagira à des signaux spécifiques. Ce schéma dépasse toute explication humaine. C’est, selon lui, « la raison pour laquelle « l’ingénierie juste à temps » n’existe pas. » Il souligne que les chercheurs en IA ont également du mal à prouver que les « propriétés émergentes » des grands modèles de langage existent, et encore moins à prédire. eux.
On peut dire que le meilleur argument est l'induction. GPT-4 est meilleur que GPT-3 sur certaines tâches linguistiques car il est plus volumineux. Un modèle plus grand serait donc préférable.
Lodge estime que GPT-4 doit encore surmonter les défis rencontrés par GPT-3, il y a donc un problème. L'un d'eux concerne les mathématiques ; même si GPT-4 est meilleur que GPT-3 pour les opérations d'addition, il présente toujours des goulots d'étranglement pour la multiplication et d'autres opérations mathématiques.
Augmenter la taille des modèles de langage ne résout pas ces problèmes comme par magie, et selon OpenAI, des modèles plus grands ne sont pas la solution. La raison tient à la nature fondamentale des grands modèles de langage, comme le souligne le forum OpenAI : « Les grands modèles de langage sont de nature probabiliste et fonctionnent en générant des sorties possibles basées sur les modèles qu'ils observent dans les données d'entraînement dans les problèmes de mathématiques et de physique. , la probabilité de trouver une seule bonne réponse est mince. »
Dans le processus d'intelligence artificielle, les méthodes basées sur l'apprentissage par renforcement peuvent produire des résultats plus précis car il s'agit d'un processus de poursuite d'un objectif. L'apprentissage par renforcement trouve de manière itérative la meilleure réponse la plus proche de l'objectif pour atteindre l'objectif souhaité. Lodge souligne que les grands cours sur des modèles de langage « ne sont pas conçus pour itérer ou trouver des objectifs. Ils sont conçus pour donner une réponse « assez bonne » une ou plusieurs fois. le modèle produit La première réponse est obtenue en prédisant une séquence de mots dans l'invite. « L'apprentissage en quelques étapes » consiste à fournir des échantillons ou des indices supplémentaires au modèle pour l'aider à générer de meilleures prédictions. Les grands modèles de langage ajoutent souvent également un certain caractère aléatoire (c'est-à-dire qu'ils sont « randomisés ») pour augmenter la probabilité d'une meilleure réponse, de sorte qu'ils donneront des réponses différentes à la même question.
Ce n’est pas que le grand monde des modèles linguistiques ignore l’apprentissage par renforcement. GPT-4 combine « l'apprentissage par renforcement avec le feedback humain » (RLHF). Un modèle de base formé par un opérateur humain favorise certaines réponses, mais cela ne change pas fondamentalement la réponse générée par le modèle en premier lieu. Lodge souligne qu'un grand modèle de langage pourrait fournir les options suivantes pour combler les lacunes de la phrase « Wayne Gretzky aime la glace... »
1. Wayne Gretzky adore la crème glacée.
2. Wayne Gretzky adore le hockey sur glace.
3. Wayne Gretzky adore la pêche sur glace.
4. Wayne Gretzky adore patiner.
5. Wayne Gretzky aime le vin de glace.
Les opérateurs humains triant les réponses auraient pu conclure que le légendaire joueur de hockey canadien préférait le hockey sur glace et le patinage, malgré le large attrait de la crème glacée. Des classements humains et davantage de réponses écrites par des humains sont utilisés pour entraîner le modèle. Notez que GPT-4 ne prétend pas connaître avec précision les préférences de Wayne Gretzky, mais uniquement pour faire le meilleur travail possible lorsque vous y êtes invité.
Enfin, les grands modèles de langage ne sont pas conçus pour être très précis ou cohérents. Il existe un compromis entre l'exactitude et le comportement déterministe en échange de la généralité. Pour Lodge, cela signifie simplement que l’apprentissage par renforcement surpasse l’IA générative lorsqu’il s’agit d’appliquer l’IA à grande échelle.
Appliquer l'apprentissage par renforcement aux logiciels
En fait, comme l'a dit David Ramel de Visual Studio Magazine, la dernière version de Copilot génère déjà 61% du code Java. Pour ceux qui craignent que cela réduise le travail des développeurs de logiciels, rappelez-vous que ces outils nécessitent une supervision humaine diligente pour vérifier leur achèvement et les modifier afin que le code se compile et s'exécute correctement. La saisie semi-automatique est un élément essentiel des IDE depuis leurs débuts, et Copilot et d'autres générateurs de code la rendent encore plus utile. Le codage autonome à grande échelle est différent : en fait, 61 % du code Java doit être écrit.
Cependant, l'apprentissage par renforcement permet un codage autonome précis à grande échelle, a déclaré Lodge. Bien sûr, il a tout intérêt à dire ceci : en 2019, sa société Diffblue a lancé Cover, un outil commercial d'écriture de tests unitaires basé sur l'apprentissage par renforcement. Cover écrit des suites complètes de tests unitaires sans intervention humaine, ce qui permet d'automatiser à grande échelle des tâches complexes et sujettes aux erreurs.
Lodge est-il partial ? Absolument. Il possède de nombreuses expériences justifiant sa conviction que l’apprentissage par renforcement surpasse GenAI dans le développement de logiciels. Aujourd'hui, Diffblue utilise l'apprentissage par renforcement pour parcourir l'espace de toutes les méthodes de test possibles, écrire automatiquement le code de test pour chaque méthode et sélectionner le meilleur test parmi les tests écrits. Les fonctions de récompense de l'apprentissage par renforcement sont basées sur une variété de critères, notamment la couverture des tests et l'esthétique, dont l'un inclut la conformité au style de codage écrit par l'homme. L'outil crée des tests pour chaque méthode en une seconde en moyenne.
Lodge estime que si l'objectif est d'écrire automatiquement 10 000 tests unitaires pour un programme que personne ne comprend, alors l'apprentissage par renforcement est la seule véritable solution. "Les grands modèles de langage ne peuvent pas rivaliser ; les humains n'ont aucun moyen de les superviser efficacement et de corriger leur code à cette échelle. Rendre les modèles plus grands et plus complexes ne résout pas ce problème.
Conclusion : les grands modèles de langage sont les plus puissants." réside dans le fait qu’il s’agit de processeurs de langage à usage général. Ils peuvent effectuer des tâches linguistiques pour lesquelles ils n’ont pas été explicitement formés. Cela signifie qu'ils peuvent faire un excellent travail de génération de contenu (rédaction) et bien d'autres choses. Lodge a souligné : "Mais cela ne fait pas des grands modèles de langage un substitut aux modèles d'intelligence artificielle, qui sont souvent basés sur l'apprentissage par renforcement, qui sont plus précis, plus cohérents et peuvent être utilisés à grande échelle
."Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!