C'est la méthode utilisée dans le dernier article publié par la Northeastern University et le MIT : Reflexion.
Cet article est réimprimé avec l'autorisation d'AI New Media Qubit (ID de compte public : QbitAI). Veuillez contacter la source pour la réimpression.
GPT-4 évolue encore !
Avec une méthode simple, les grands modèles de langage tels que GPT-4 peuvent apprendre à s'auto-réfléchir, et les performances peuvent être directement améliorées de 30%.
Avant cela, le grand modèle de langage donnait de mauvaises réponses. Ils s'excusaient souvent sans dire un mot, puis emmmmmmm, ils continuaient à faire des suppositions aléatoires.
Maintenant, ce ne sera plus comme ça. Avec l'ajout de nouvelles méthodes, GPT-4 réfléchira non seulement aux erreurs, mais proposera également des stratégies d'amélioration.
Par exemple, il analysera automatiquement pourquoi il est "coincé dans une boucle" :
Ou réfléchissez à votre propre stratégie de recherche imparfaite :
C'est la méthode décrite dans le dernier article publié par la Northeastern University. et MIT : Réflexion.
Non seulement applicable à GPT-4, mais également à d'autres grands modèles de langage, leur permettant d'apprendre la capacité unique de réflexion humaine.
L'article a été publié sur la plateforme de prépublication arxiv.
Cela a directement fait dire aux internautes : « La vitesse d'évolution de l'IA a dépassé notre capacité d'adaptation, et nous serons détruits. »
Certains internautes ont même envoyé un « avertissement d'emploi » aux développeurs :
Le taux horaire d'écriture de code à l'aide de cette méthode est moins cher que celui des développeurs ordinaires.
Comme l'ont dit les internautes, la capacité de réflexion donnée à GPT-4 par Reflexion est similaire au processus de pensée humaine :
peut être résumée en deux mots : Commentaires.
Dans ce processus de feedback, il peut être divisé en trois étapes principales :
Dans la première étape du processus d'évaluation, la première chose à faire est l'auto-évaluation du LLM (Large Language Model).
C'est-à-dire que le LLM doit d'abord réfléchir à la réponse elle-même lorsqu'il n'y a pas de retour externe.
Comment faire de l'autoréflexion ?
L'équipe de recherche a utilisé un mécanisme de récompense binaire pour attribuer des valeurs aux opérations effectuées par LLM dans l'état actuel :
1 signifie que le résultat généré est OK, et 0 signifie que le résultat généré n'est pas bon. .
La raison pour laquelle binaire est utilisé à la place de mécanismes de récompense plus descriptifs tels que la sortie à valeurs multiples ou continue est liée au fait qu'il n'y a pas d'entrée externe.
Pour effectuer une auto-réflexion sans retour externe, la réponse doit être limitée aux états binaires. Ce n'est qu'ainsi que le LLM peut être forcé de faire des inférences significatives.
Après l'auto-évaluation, si la sortie du mécanisme de récompense binaire est 1, le dispositif d'auto-réflexion ne sera pas activé. S'il est 0, le LLM activera le mode réflexion.
Pendant le processus de réflexion, le modèle déclenchera une fonction heuristique h (comme indiqué ci-dessous). Analogue au processus de pensée humaine, h joue le même rôle que la supervision.
Cependant, tout comme la pensée humaine, LLM a également des limites dans le processus de réflexion, qui peuvent se refléter dans le Ω et le ε de la fonction.
Ω représente le nombre de fois qu'une action continue est répétée. Généralement, cette valeur est fixée à 3. Cela signifie que si une étape est répétée trois fois au cours du processus de réflexion, elle passera directement à l'étape suivante.
Et ε représente le nombre maximum d'opérations autorisées à effectuer pendant le processus de réflexion.
Puisqu'il y a une supervision, une correction doit également être effectuée. La fonction du processus de correction est la suivante :
Parmi eux, le modèle d'auto-réflexion est formé à travers des « trajectoires d'échec de domaine spécifique et idéales. paires de réflexion" vient et ne permet pas d'accéder à des solutions spécifiques au domaine à un problème donné dans l'ensemble de données.
De cette façon, le LLM peut proposer des choses plus "innovantes" au cours du processus de réflexion. Après réflexion, les performances ont augmenté de près de 30 %Étant donné que les LLM tels que GPT-4 peuvent effectuer une auto-réflexion, quel est l'effet spécifique ? L'équipe de recherche a évalué cette approche sur les benchmarks ALFWorld et HotpotQA. Dans le test HotpotQA de 100 paires de questions et réponses, le LLM utilisant la méthode Reflexion a montré d'énormes avantages. Après plusieurs cycles de réflexion et de questions répétées, les performances du LLM se sont améliorées de près de 30 %. Sans utiliser Reflexion, après avoir répété les questions et réponses, il n'y a eu aucun changement dans les performances. Dans le test de questions et réponses 134 de HotpotQA, on peut voir qu'avec le soutien de Reflexion, la précision de LLM a atteint 97 % après plusieurs cycles de réflexion. Dans un autre blog, les membres de l'équipe ont également montré l'effet de leur méthode sur GPT-4. La portée du test était l'écriture de code. Les résultats sont également évidents grâce à Reflexion, la capacité de programmation de GPT-4 a été directement améliorée de 21 %. Vous pouvez déjà "penser" à GPT-4, comment (huang) faites-vous (le) voyez (ma) ? Adresse papier : https://arxiv.org/abs/2303.11366Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!