La nouvelle IA de DeepMind n'est sur Nature que depuis un jour, et GPT-4 est déjà là pour rivaliser !
Avec seulement deux paragraphes d'invites, GPT-4 fournit la même méthode d'optimisation de l'algorithme de tri qu'AlphaDev.
DeepMind appelle AlphaDev « recréant la magie d'AlphaGo » car il a découvert une méthode qui peut accélérer l'algorithme de tri jusqu'à 70 %.
Oh, AlphaDev est encore plus gêné maintenant.
Laissez GPT-4 "découvrir" le frère qui a fait directement la même opération :
Pas besoin du tout d'apprentissage par renforcement. Puis-je publier cette découverte dans Nature ?
Musk "l'a vu quand il passait par là" et a également laissé un commentaire "à cause du souffle".
Alors, comment GPT-4 fait-il ?
La personne qui a apporté cette nouvelle découverte est un professeur agrégé de l'Université du Wisconsin-Madison nommé Dimitris Papailiopoulos (ci-après dénommé Professeur D).
Les étapes qu'il a utilisées pour que GPT-4 réalise cette opération étaient très simples, et il n'a saisi que deux invites au total.
Tout d'abord, il a déclaré à GPT-4 :
Il s'agit d'un algorithme de tri, et je pense qu'il peut être encore optimisé. Quelle phrase faut-il réécrire ? . Expliquez pourquoi étape par étape, puis revenez en arrière et vérifiez que c'est correct.
Dans un premier temps, il a également souligné que s'il y a de nouvelles découvertes, ne faites pas de changements d'abord, « regardez » simplement et notez quelques suggestions écrites d'amélioration.
Soyez très détaillé et très prudent.
Ensuite, GPT-4 fournit une explication détaillée du code donné.
Puis le professeur D a donné le deuxième conseil :
Continuez. Si vous êtes très confiant, suivez les conseils ci-dessus. Réglez la température sur 0 pour garantir que les résultats générés sont déterministes et cohérents et pour essayer d'éviter toute confusion.
Puis GPT-4 a donné des étapes détaillées, et a finalement conclu :
Nous avons constaté que l'instruction "mov S P" est redondante et peut être supprimée, et que d'autres instructions sont requises. Mais après suppression, P doit être remplacé par S.
En comparant le nouveau travail de DeepMind et la réflexion d'AlphaDev sur le traitement du même problème, nous ne pouvons pas dire que cela n'a rien à voir avec cela, nous pouvons seulement dire que c'est exactement la même chose :
Le fonctionnement d'AlphaDev par DeepMind rappelle À cette époque, le "Move 37" d'AlphaGo - un mouvement contre-intuitif qui a directement vaincu le légendaire joueur de Go Lee Sedol, ce qui a choqué le public.
De même, AlphaDev saute une étape en échangeant et en copiant des mouvements, atteignant ainsi l'objectif d'une manière qui semble erronée mais qui est en réalité un raccourci.
Selon les rapports, AlphaDev est un algorithme d'apprentissage par renforcement basé sur AlphaZero. Sa découverte n'est pas basée sur des algorithmes existants, mais part des instructions d'assemblage du niveau le plus bas.
Son innovation réside principalement dans deux séquences d'instructions :
(1) AlphaDev Swap Move (swap move)
(2) AlphaDev Copy Move (copy move)
En principe, les chercheurs de DeepMind ont conçu un "assemblage" solo jeu :
Tant que vous pouvez rechercher et sélectionner les instructions appropriées (processus A dans la figure ci-dessous) et organiser les données correctement et rapidement (processus B dans la figure ci-dessous), vous pouvez obtenir des récompenses.
Mais l'enjeu de ce jeu ne réside pas seulement dans la taille de l'espace de recherche (le nombre d'instructions combinables équivaut au nombre de particules dans l'univers), mais aussi dans la nature de la récompense fonction, car une mauvaise instruction peut faire échouer l’ensemble de l’algorithme. Invalide.
Concernant le « fonctionnement sexy » de GPT-4, certaines personnes ont déclaré : Même les développeurs seniors sous-estiment GPT-4.
Certaines personnes ont déploré que l'opération du professeur D ait en outre vérifié que tant que vous faites preuve de patience et comprenez l'ingénierie rapide, GPT-4 peut encore faire beaucoup de choses.
Certaines personnes se demandent également si GPT-4 peut faire cela car ses données d'entraînement contiennent des méthodes d'optimisation des algorithmes de tri ?
Mais cela dit, une grande partie de la raison pour laquelle cette question a attiré autant d’attention et de discussions est que l’inclusion d’AlphaDev dans Nature est controversée.
Beaucoup de gens pensent qu’il ne s’agit pas d’une recherche révolutionnaire et DeepMind exagère.
Non seulement le professeur D a dit « Puis-je aussi être dans la nature ? », mais il y avait aussi des internautes qui ont dit qu'ils optimisaient le tri rapide lorsqu'ils étaient adolescents, et qu'ils devraient également publier des articles.
Bien sûr, certaines personnes pensent que l'innovation d'AlphaDev lui-même réside dans le fait qu'il utilise l'apprentissage par renforcement pour découvrir de nouveaux algorithmes.
Qu'en pensez-vous ?
Liens de référence : [1]https://chat.openai.com/share/95693df4-36cd-4241-9cae-2173e8fb760c[2]https://twitter.com/DimitrisPapail/status/1666843952824168465
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!