Table des matières
Utilisez le mécanisme de récompense binaire pour parvenir à la réflexion
Maison Périphériques technologiques IA Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM d'apprendre à réfléchir, internaute : c'est la même façon que pensent les humains

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM d'apprendre à réfléchir, internaute : c'est la même façon que pensent les humains

Apr 04, 2023 pm 12:45 PM
论文 mit

C'est la méthode utilisée dans le dernier article publié par la Northeastern University et le MIT : Reflexion.

Cet article est réimprimé avec l'autorisation d'AI New Media Qubit (ID de compte public : QbitAI). Veuillez contacter la source pour la réimpression.

GPT-4 évolue encore !

Avec une méthode simple, les grands modèles de langage tels que GPT-4 peuvent apprendre à s'auto-réfléchir, et les performances peuvent être directement améliorées de 30%.

Avant cela, le grand modèle de langage donnait de mauvaises réponses. Ils s'excusaient souvent sans dire un mot, puis emmmmmmm, ils continuaient à faire des suppositions aléatoires.

Maintenant, ce ne sera plus comme ça. Avec l'ajout de nouvelles méthodes, GPT-4 réfléchira non seulement aux erreurs, mais proposera également des stratégies d'amélioration.

Par exemple, il analysera automatiquement pourquoi il est "coincé dans une boucle" :

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Ou réfléchissez à votre propre stratégie de recherche imparfaite :

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

C'est la méthode décrite dans le dernier article publié par la Northeastern University. et MIT : Réflexion.

Non seulement applicable à GPT-4, mais également à d'autres grands modèles de langage, leur permettant d'apprendre la capacité unique de réflexion humaine.

L'article a été publié sur la plateforme de prépublication arxiv.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Cela a directement fait dire aux internautes : « La vitesse d'évolution de l'IA a dépassé notre capacité d'adaptation, et nous serons détruits. »

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Certains internautes ont même envoyé un « avertissement d'emploi » aux développeurs :

Le taux horaire d'écriture de code à l'aide de cette méthode est moins cher que celui des développeurs ordinaires.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Utilisez le mécanisme de récompense binaire pour parvenir à la réflexion

Comme l'ont dit les internautes, la capacité de réflexion donnée à GPT-4 par Reflexion est similaire au processus de pensée humaine :

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

peut être résumée en deux mots : Commentaires.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Dans ce processus de feedback, il peut être divisé en trois étapes principales :

  • 1 Évaluation : tester l'exactitude des réponses actuellement générées
  • 2. Génération d'auto-réflexion : identification des erreurs - mise en œuvre de la correction.
  • 3. Exécuter une boucle de rétroaction itérative

Dans la première étape du processus d'évaluation, la première chose à faire est l'auto-évaluation du LLM (Large Language Model).

C'est-à-dire que le LLM doit d'abord réfléchir à la réponse elle-même lorsqu'il n'y a pas de retour externe.

Comment faire de l'autoréflexion ?

L'équipe de recherche a utilisé un mécanisme de récompense binaire pour attribuer des valeurs aux opérations effectuées par LLM dans l'état actuel :

1 signifie que le résultat généré est OK, et 0 signifie que le résultat généré n'est pas bon. .

La raison pour laquelle binaire est utilisé à la place de mécanismes de récompense plus descriptifs tels que la sortie à valeurs multiples ou continue est liée au fait qu'il n'y a pas d'entrée externe.

Pour effectuer une auto-réflexion sans retour externe, la réponse doit être limitée aux états binaires. Ce n'est qu'ainsi que le LLM peut être forcé de faire des inférences significatives.

Après l'auto-évaluation, si la sortie du mécanisme de récompense binaire est 1, le dispositif d'auto-réflexion ne sera pas activé. S'il est 0, le LLM activera le mode réflexion.

Pendant le processus de réflexion, le modèle déclenchera une fonction heuristique h (comme indiqué ci-dessous). Analogue au processus de pensée humaine, h joue le même rôle que la supervision.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Cependant, tout comme la pensée humaine, LLM a également des limites dans le processus de réflexion, qui peuvent se refléter dans le Ω et le ε de la fonction.

Ω représente le nombre de fois qu'une action continue est répétée. Généralement, cette valeur est fixée à 3. Cela signifie que si une étape est répétée trois fois au cours du processus de réflexion, elle passera directement à l'étape suivante.

Et ε représente le nombre maximum d'opérations autorisées à effectuer pendant le processus de réflexion.

Puisqu'il y a une supervision, une correction doit également être effectuée. La fonction du processus de correction est la suivante :

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Parmi eux, le modèle d'auto-réflexion est formé à travers des « trajectoires d'échec de domaine spécifique et idéales. paires de réflexion" vient et ne permet pas d'accéder à des solutions spécifiques au domaine à un problème donné dans l'ensemble de données.

De cette façon, le LLM peut proposer des choses plus "innovantes" au cours du processus de réflexion.

Après réflexion, les performances ont augmenté de près de 30 %

Étant donné que les LLM tels que GPT-4 peuvent effectuer une auto-réflexion, quel est l'effet spécifique ?

L'équipe de recherche a évalué cette approche sur les benchmarks ALFWorld et HotpotQA.

Dans le test HotpotQA de 100 paires de questions et réponses, le LLM utilisant la méthode Reflexion a montré d'énormes avantages. Après plusieurs cycles de réflexion et de questions répétées, les performances du LLM se sont améliorées de près de 30 %.

Sans utiliser Reflexion, après avoir répété les questions et réponses, il n'y a eu aucun changement dans les performances.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Dans le test de questions et réponses 134 de HotpotQA, on peut voir qu'avec le soutien de Reflexion, la précision de LLM a atteint 97 % après plusieurs cycles de réflexion.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Dans un autre blog, les membres de l'équipe ont également montré l'effet de leur méthode sur GPT-4. La portée du test était l'écriture de code.

Les résultats sont également évidents grâce à Reflexion, la capacité de programmation de GPT-4 a été directement améliorée de 21 %.

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM dapprendre à réfléchir, internaute : cest la même façon que pensent les humains

Vous pouvez déjà "penser" à GPT-4, comment (huang) faites-vous (le) voyez (ma) ?

​Adresse papier : https://arxiv.org/abs/2303.11366​

Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM d'apprendre à réfléchir, internaute : c'est la même façon que pensent les humains

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
4 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Mar 06, 2024 pm 05:34 PM

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il ​​y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Prix ​​papier ICCV'23 'Combat des Dieux' ! Meta Divide Everything et ControlNet ont été sélectionnés conjointement, et un autre article a surpris les juges. Prix ​​papier ICCV'23 'Combat des Dieux' ! Meta Divide Everything et ControlNet ont été sélectionnés conjointement, et un autre article a surpris les juges. Oct 04, 2023 pm 08:37 PM

ICCV2023, la plus grande conférence sur la vision par ordinateur qui s'est tenue à Paris, en France, vient de se terminer ! Le prix du meilleur article de cette année est simplement un « combat entre dieux ». Par exemple, les deux articles qui ont remporté le prix du meilleur article incluaient ControlNet, un travail qui a bouleversé le domaine de l'IA graphique vincentienne. Depuis qu'il est open source, ControlNet a reçu 24 000 étoiles sur GitHub. Qu'il s'agisse des modèles de diffusion ou de l'ensemble du domaine de la vision par ordinateur, le prix de cet article est bien mérité. La mention honorable du prix du meilleur article a été décernée à un autre article tout aussi célèbre, le modèle SAM « Séparez tout » de Meta. Depuis son lancement, « Segment Everything » est devenu la « référence » pour divers modèles d'IA de segmentation d'images, y compris ceux venus de derrière.

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles ! NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles ! Nov 14, 2023 pm 03:09 PM

Depuis que Neural Radiance Fields a été proposé en 2020, le nombre d'articles connexes a augmenté de façon exponentielle. Il est non seulement devenu une branche importante de la reconstruction tridimensionnelle, mais est également progressivement devenu actif à la frontière de la recherche en tant qu'outil important pour la conduite autonome. . NeRF a soudainement émergé au cours des deux dernières années, principalement parce qu'il ignore l'extraction et la mise en correspondance des points caractéristiques, la géométrie et la triangulation épipolaires, le PnP plus l'ajustement du faisceau et d'autres étapes du pipeline de reconstruction CV traditionnel, et ignore même la reconstruction du maillage, la cartographie et le traçage de la lumière. , directement à partir de la 2D L'image d'entrée est utilisée pour apprendre un champ de rayonnement, puis une image rendue qui se rapproche d'une photo réelle est sortie du champ de rayonnement. En d’autres termes, supposons qu’un modèle tridimensionnel implicite basé sur un réseau neuronal s’adapte à la perspective spécifiée.

Les illustrations papier peuvent également être générées automatiquement, en utilisant le modèle de diffusion, et sont également acceptées par l'ICLR. Les illustrations papier peuvent également être générées automatiquement, en utilisant le modèle de diffusion, et sont également acceptées par l'ICLR. Jun 27, 2023 pm 05:46 PM

L'IA générative a pris d'assaut la communauté de l'intelligence artificielle. Les particuliers et les entreprises ont commencé à s'intéresser à la création d'applications de conversion modale associées, telles que les images Vincent, les vidéos Vincent, la musique Vincent, etc. Récemment, plusieurs chercheurs d'institutions de recherche scientifique telles que ServiceNow Research et LIVIA ont tenté de générer des graphiques dans des articles basés sur des descriptions textuelles. À cette fin, ils ont proposé une nouvelle méthode de FigGen, et l’article correspondant a également été inclus dans ICLR2023 sous le nom de TinyPaper. Adresse du document illustré : https://arxiv.org/pdf/2306.00800.pdf Certaines personnes peuvent se demander : pourquoi est-il si difficile de générer les graphiques dans le document ? En quoi cela aide-t-il la recherche scientifique ?

Les captures d'écran du chat révèlent les règles cachées de l'examen de l'IA ! AAAI 3000 yuans, c'est fort accepté ? Les captures d'écran du chat révèlent les règles cachées de l'examen de l'IA ! AAAI 3000 yuans, c'est fort accepté ? Apr 12, 2023 am 08:34 AM

Alors que la date limite de soumission des articles pour l'AAAI 2023 approchait, une capture d'écran d'une discussion anonyme dans le groupe de soumission d'IA est soudainement apparue sur Zhihu. L'un d'eux a affirmé qu'il pouvait fournir un service « 3 000 yuans par acceptation forte ». Dès que la nouvelle est sortie, elle a immédiatement suscité l’indignation du public parmi les internautes. Cependant, ne vous précipitez pas encore. Le patron de Zhihu, "Fine Tuning", a déclaré qu'il s'agissait probablement simplement d'un "plaisir verbal". Selon "Fine Tuning", les salutations et les délits de gangs sont des problèmes inévitables dans tous les domaines. Avec l'essor de l'openreview, les différents inconvénients du cmt sont devenus de plus en plus évidents. L'espace laissé aux petits cercles pour fonctionner deviendra plus petit à l'avenir, mais il y aura toujours de la place. Parce qu'il s'agit d'un problème personnel, pas d'un problème avec le système et le mécanisme de soumission. Présentation de l'open r

Classement CVPR 2023 publié, le taux d'acceptation est de 25,78% ! 2 360 articles ont été acceptés et le nombre de soumissions a grimpé à 9 155 Classement CVPR 2023 publié, le taux d'acceptation est de 25,78% ! 2 360 articles ont été acceptés et le nombre de soumissions a grimpé à 9 155 Apr 13, 2023 am 09:37 AM

Tout à l'heure, le CVPR 2023 a publié un article disant : Cette année, nous avons reçu un nombre record de 9 155 articles (12 % de plus que le CVPR2022) et accepté 2 360 articles, avec un taux d'acceptation de 25,78 %. Selon les statistiques, le nombre de soumissions au CVPR n'a augmenté que de 1 724 à 2 145 au cours des 7 années allant de 2010 à 2016. Après 2017, il a grimpé en flèche et est entré dans une période de croissance rapide. En 2019, il a dépassé les 5 000 pour la première fois, et en 2022, le nombre de candidatures avait atteint 8 161. Comme vous pouvez le constater, un total de 9 155 articles ont été soumis cette année, ce qui constitue un record. Une fois l’épidémie atténuée, le sommet CVPR de cette année se tiendra au Canada. Cette année, il s'agira d'une conférence à voie unique et la traditionnelle sélection orale sera annulée. recherche Google

Le nouveau papier brûlant de Microsoft : Transformer s'étend à 1 milliard de jetons Le nouveau papier brûlant de Microsoft : Transformer s'étend à 1 milliard de jetons Jul 22, 2023 pm 03:34 PM

Alors que chacun continue de mettre à niveau et d'itérer ses propres grands modèles, la capacité du LLM (grand modèle de langage) à traiter les fenêtres contextuelles est également devenue un indicateur d'évaluation important. Par exemple, le modèle vedette GPT-4 prend en charge 32 000 jetons, ce qui équivaut à 50 pages de texte ; Anthropic, fondée par un ancien membre d'OpenAI, a augmenté les capacités de traitement des jetons de Claude à 100 000, soit environ 75 000 mots, soit environ équivalent à résumer "Harry Potter" en un clic 》Première partie. Dans les dernières recherches de Microsoft, ils ont cette fois directement étendu Transformer à 1 milliard de jetons. Cela ouvre de nouvelles possibilités pour modéliser des séquences très longues, comme par exemple traiter un corpus entier ou même l'ensemble d'Internet comme une seule séquence. A titre de comparaison, commun

L'équipe chinoise a remporté les prix du meilleur article et du meilleur article système, et les résultats de la recherche CoRL ont été annoncés. L'équipe chinoise a remporté les prix du meilleur article et du meilleur article système, et les résultats de la recherche CoRL ont été annoncés. Nov 10, 2023 pm 02:21 PM

Depuis sa première tenue en 2017, CoRL est devenue l'une des conférences universitaires les plus importantes au monde à l'intersection de la robotique et de l'apprentissage automatique. CoRL est une conférence à thème unique pour la recherche sur l'apprentissage des robots, couvrant plusieurs sujets tels que la robotique, l'apprentissage automatique et le contrôle, y compris la théorie et l'application. La conférence CoRL 2023 se tiendra à Atlanta, aux États-Unis, du 6 au 9 novembre. Selon les données officielles, 199 articles provenant de 25 pays ont été sélectionnés pour CoRL cette année. Les sujets populaires incluent les opérations, l’apprentissage par renforcement, etc. Bien que CoRL soit à plus petite échelle que les grandes conférences universitaires sur l'IA telles que l'AAAI et le CVPR, à mesure que la popularité de concepts tels que les grands modèles, l'intelligence incarnée et les robots humanoïdes augmente cette année, des recherches pertinentes dignes d'attention seront également

See all articles