


Capacité de codage GPT-4 améliorée de 21 % ! La nouvelle méthode du MIT permet aux LLM d'apprendre à réfléchir, internaute : c'est la même façon que pensent les humains
C'est la méthode utilisée dans le dernier article publié par la Northeastern University et le MIT : Reflexion.
Cet article est réimprimé avec l'autorisation d'AI New Media Qubit (ID de compte public : QbitAI). Veuillez contacter la source pour la réimpression.
GPT-4 évolue encore !
Avec une méthode simple, les grands modèles de langage tels que GPT-4 peuvent apprendre à s'auto-réfléchir, et les performances peuvent être directement améliorées de 30%.
Avant cela, le grand modèle de langage donnait de mauvaises réponses. Ils s'excusaient souvent sans dire un mot, puis emmmmmmm, ils continuaient à faire des suppositions aléatoires.
Maintenant, ce ne sera plus comme ça. Avec l'ajout de nouvelles méthodes, GPT-4 réfléchira non seulement aux erreurs, mais proposera également des stratégies d'amélioration.
Par exemple, il analysera automatiquement pourquoi il est "coincé dans une boucle" :
Ou réfléchissez à votre propre stratégie de recherche imparfaite :
C'est la méthode décrite dans le dernier article publié par la Northeastern University. et MIT : Réflexion.
Non seulement applicable à GPT-4, mais également à d'autres grands modèles de langage, leur permettant d'apprendre la capacité unique de réflexion humaine.
L'article a été publié sur la plateforme de prépublication arxiv.
Cela a directement fait dire aux internautes : « La vitesse d'évolution de l'IA a dépassé notre capacité d'adaptation, et nous serons détruits. »
Certains internautes ont même envoyé un « avertissement d'emploi » aux développeurs :
Le taux horaire d'écriture de code à l'aide de cette méthode est moins cher que celui des développeurs ordinaires.
Utilisez le mécanisme de récompense binaire pour parvenir à la réflexion
Comme l'ont dit les internautes, la capacité de réflexion donnée à GPT-4 par Reflexion est similaire au processus de pensée humaine :
peut être résumée en deux mots : Commentaires.
Dans ce processus de feedback, il peut être divisé en trois étapes principales :
- 1 Évaluation : tester l'exactitude des réponses actuellement générées
- 2. Génération d'auto-réflexion : identification des erreurs - mise en œuvre de la correction.
- 3. Exécuter une boucle de rétroaction itérative
Dans la première étape du processus d'évaluation, la première chose à faire est l'auto-évaluation du LLM (Large Language Model).
C'est-à-dire que le LLM doit d'abord réfléchir à la réponse elle-même lorsqu'il n'y a pas de retour externe.
Comment faire de l'autoréflexion ?
L'équipe de recherche a utilisé un mécanisme de récompense binaire pour attribuer des valeurs aux opérations effectuées par LLM dans l'état actuel :
1 signifie que le résultat généré est OK, et 0 signifie que le résultat généré n'est pas bon. .
La raison pour laquelle binaire est utilisé à la place de mécanismes de récompense plus descriptifs tels que la sortie à valeurs multiples ou continue est liée au fait qu'il n'y a pas d'entrée externe.
Pour effectuer une auto-réflexion sans retour externe, la réponse doit être limitée aux états binaires. Ce n'est qu'ainsi que le LLM peut être forcé de faire des inférences significatives.
Après l'auto-évaluation, si la sortie du mécanisme de récompense binaire est 1, le dispositif d'auto-réflexion ne sera pas activé. S'il est 0, le LLM activera le mode réflexion.
Pendant le processus de réflexion, le modèle déclenchera une fonction heuristique h (comme indiqué ci-dessous). Analogue au processus de pensée humaine, h joue le même rôle que la supervision.
Cependant, tout comme la pensée humaine, LLM a également des limites dans le processus de réflexion, qui peuvent se refléter dans le Ω et le ε de la fonction.
Ω représente le nombre de fois qu'une action continue est répétée. Généralement, cette valeur est fixée à 3. Cela signifie que si une étape est répétée trois fois au cours du processus de réflexion, elle passera directement à l'étape suivante.
Et ε représente le nombre maximum d'opérations autorisées à effectuer pendant le processus de réflexion.
Puisqu'il y a une supervision, une correction doit également être effectuée. La fonction du processus de correction est la suivante :
Parmi eux, le modèle d'auto-réflexion est formé à travers des « trajectoires d'échec de domaine spécifique et idéales. paires de réflexion" vient et ne permet pas d'accéder à des solutions spécifiques au domaine à un problème donné dans l'ensemble de données.
De cette façon, le LLM peut proposer des choses plus "innovantes" au cours du processus de réflexion. Après réflexion, les performances ont augmenté de près de 30 %Étant donné que les LLM tels que GPT-4 peuvent effectuer une auto-réflexion, quel est l'effet spécifique ? L'équipe de recherche a évalué cette approche sur les benchmarks ALFWorld et HotpotQA. Dans le test HotpotQA de 100 paires de questions et réponses, le LLM utilisant la méthode Reflexion a montré d'énormes avantages. Après plusieurs cycles de réflexion et de questions répétées, les performances du LLM se sont améliorées de près de 30 %. Sans utiliser Reflexion, après avoir répété les questions et réponses, il n'y a eu aucun changement dans les performances.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

ICCV2023, la plus grande conférence sur la vision par ordinateur qui s'est tenue à Paris, en France, vient de se terminer ! Le prix du meilleur article de cette année est simplement un « combat entre dieux ». Par exemple, les deux articles qui ont remporté le prix du meilleur article incluaient ControlNet, un travail qui a bouleversé le domaine de l'IA graphique vincentienne. Depuis qu'il est open source, ControlNet a reçu 24 000 étoiles sur GitHub. Qu'il s'agisse des modèles de diffusion ou de l'ensemble du domaine de la vision par ordinateur, le prix de cet article est bien mérité. La mention honorable du prix du meilleur article a été décernée à un autre article tout aussi célèbre, le modèle SAM « Séparez tout » de Meta. Depuis son lancement, « Segment Everything » est devenu la « référence » pour divers modèles d'IA de segmentation d'images, y compris ceux venus de derrière.

Depuis que Neural Radiance Fields a été proposé en 2020, le nombre d'articles connexes a augmenté de façon exponentielle. Il est non seulement devenu une branche importante de la reconstruction tridimensionnelle, mais est également progressivement devenu actif à la frontière de la recherche en tant qu'outil important pour la conduite autonome. . NeRF a soudainement émergé au cours des deux dernières années, principalement parce qu'il ignore l'extraction et la mise en correspondance des points caractéristiques, la géométrie et la triangulation épipolaires, le PnP plus l'ajustement du faisceau et d'autres étapes du pipeline de reconstruction CV traditionnel, et ignore même la reconstruction du maillage, la cartographie et le traçage de la lumière. , directement à partir de la 2D L'image d'entrée est utilisée pour apprendre un champ de rayonnement, puis une image rendue qui se rapproche d'une photo réelle est sortie du champ de rayonnement. En d’autres termes, supposons qu’un modèle tridimensionnel implicite basé sur un réseau neuronal s’adapte à la perspective spécifiée.

L'IA générative a pris d'assaut la communauté de l'intelligence artificielle. Les particuliers et les entreprises ont commencé à s'intéresser à la création d'applications de conversion modale associées, telles que les images Vincent, les vidéos Vincent, la musique Vincent, etc. Récemment, plusieurs chercheurs d'institutions de recherche scientifique telles que ServiceNow Research et LIVIA ont tenté de générer des graphiques dans des articles basés sur des descriptions textuelles. À cette fin, ils ont proposé une nouvelle méthode de FigGen, et l’article correspondant a également été inclus dans ICLR2023 sous le nom de TinyPaper. Adresse du document illustré : https://arxiv.org/pdf/2306.00800.pdf Certaines personnes peuvent se demander : pourquoi est-il si difficile de générer les graphiques dans le document ? En quoi cela aide-t-il la recherche scientifique ?

Alors que la date limite de soumission des articles pour l'AAAI 2023 approchait, une capture d'écran d'une discussion anonyme dans le groupe de soumission d'IA est soudainement apparue sur Zhihu. L'un d'eux a affirmé qu'il pouvait fournir un service « 3 000 yuans par acceptation forte ». Dès que la nouvelle est sortie, elle a immédiatement suscité l’indignation du public parmi les internautes. Cependant, ne vous précipitez pas encore. Le patron de Zhihu, "Fine Tuning", a déclaré qu'il s'agissait probablement simplement d'un "plaisir verbal". Selon "Fine Tuning", les salutations et les délits de gangs sont des problèmes inévitables dans tous les domaines. Avec l'essor de l'openreview, les différents inconvénients du cmt sont devenus de plus en plus évidents. L'espace laissé aux petits cercles pour fonctionner deviendra plus petit à l'avenir, mais il y aura toujours de la place. Parce qu'il s'agit d'un problème personnel, pas d'un problème avec le système et le mécanisme de soumission. Présentation de l'open r

Tout à l'heure, le CVPR 2023 a publié un article disant : Cette année, nous avons reçu un nombre record de 9 155 articles (12 % de plus que le CVPR2022) et accepté 2 360 articles, avec un taux d'acceptation de 25,78 %. Selon les statistiques, le nombre de soumissions au CVPR n'a augmenté que de 1 724 à 2 145 au cours des 7 années allant de 2010 à 2016. Après 2017, il a grimpé en flèche et est entré dans une période de croissance rapide. En 2019, il a dépassé les 5 000 pour la première fois, et en 2022, le nombre de candidatures avait atteint 8 161. Comme vous pouvez le constater, un total de 9 155 articles ont été soumis cette année, ce qui constitue un record. Une fois l’épidémie atténuée, le sommet CVPR de cette année se tiendra au Canada. Cette année, il s'agira d'une conférence à voie unique et la traditionnelle sélection orale sera annulée. recherche Google

Alors que chacun continue de mettre à niveau et d'itérer ses propres grands modèles, la capacité du LLM (grand modèle de langage) à traiter les fenêtres contextuelles est également devenue un indicateur d'évaluation important. Par exemple, le modèle vedette GPT-4 prend en charge 32 000 jetons, ce qui équivaut à 50 pages de texte ; Anthropic, fondée par un ancien membre d'OpenAI, a augmenté les capacités de traitement des jetons de Claude à 100 000, soit environ 75 000 mots, soit environ équivalent à résumer "Harry Potter" en un clic 》Première partie. Dans les dernières recherches de Microsoft, ils ont cette fois directement étendu Transformer à 1 milliard de jetons. Cela ouvre de nouvelles possibilités pour modéliser des séquences très longues, comme par exemple traiter un corpus entier ou même l'ensemble d'Internet comme une seule séquence. A titre de comparaison, commun

Depuis sa première tenue en 2017, CoRL est devenue l'une des conférences universitaires les plus importantes au monde à l'intersection de la robotique et de l'apprentissage automatique. CoRL est une conférence à thème unique pour la recherche sur l'apprentissage des robots, couvrant plusieurs sujets tels que la robotique, l'apprentissage automatique et le contrôle, y compris la théorie et l'application. La conférence CoRL 2023 se tiendra à Atlanta, aux États-Unis, du 6 au 9 novembre. Selon les données officielles, 199 articles provenant de 25 pays ont été sélectionnés pour CoRL cette année. Les sujets populaires incluent les opérations, l’apprentissage par renforcement, etc. Bien que CoRL soit à plus petite échelle que les grandes conférences universitaires sur l'IA telles que l'AAAI et le CVPR, à mesure que la popularité de concepts tels que les grands modèles, l'intelligence incarnée et les robots humanoïdes augmente cette année, des recherches pertinentes dignes d'attention seront également
