Table des matières
Introduction à la méthode
Expériences et résultats
Maison Périphériques technologiques IA Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Apr 04, 2023 am 11:55 AM
ai gpt-4

La façon de penser du GPT-4 devient de plus en plus humaine.

Lorsque les humains font des erreurs, ils réfléchissent à leurs actions pour éviter de commettre des erreurs à nouveau. Si les grands modèles de langage tels que GPT-4 ont également la capacité de réfléchir, les performances seront améliorées d'autant.

Il est bien connu que les grands modèles de langage (LLM) ont démontré des performances sans précédent sur diverses tâches. Cependant, ces méthodes SOTA nécessitent généralement un réglage fin du modèle, une optimisation des politiques et d'autres opérations sur l'espace d'état défini. En raison du manque de données de formation de haute qualité et d’un espace d’état bien défini, il est encore difficile de mettre en œuvre un modèle optimisé. De plus, les modèles ne possèdent pas encore certaines qualités inhérentes au processus de décision humain, notamment la capacité d’apprendre de ses erreurs.

Mais maintenant, dans un article récent, des chercheurs de la Northeastern University, du MIT et d'autres institutions ont proposé Reflexion, qui donne à l'agent la capacité de se souvenir de manière dynamique et de s'auto-réfléchir.

Afin de vérifier l'efficacité de la méthode, cette étude a évalué la capacité de l'agent à accomplir des tâches de prise de décision dans l'environnement AlfWorld, et sa capacité à accomplir des tâches de questions et réponses à forte intensité de connaissances et basées sur la recherche dans l'environnement HotPotQA. Le taux de réussite dans ces deux tâches est respectivement de 97% et 51%.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Adresse papier : https://arxiv.org/pdf/2303.11366.pdf

Adresse du projet : https://github.com/GammaTauAI/reflexion-human-eval

Comme le montre l'image ci-dessous, dans AlfWorld Dans l'environnement, il y a divers objets disposés dans la pièce, et l'agent doit donner un plan de raisonnement pour obtenir un certain objet. La partie supérieure de l'image ci-dessous échoue en raison du plan inefficace de l'agent. Après réflexion, l'agent se rend compte de l'erreur, corrige la trajectoire du raisonnement, et donne une méthode de trajectoire concise (partie inférieure de la figure).

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Modèle de réflexion sur les stratégies de recherche défectueuses :

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Cet article montre que vous pouvez corriger cette erreur en demandant à GPT-4 de réfléchir à « Pourquoi vous êtes-vous trompé et de générer une nouvelle invite pour vous-même ? » sont pris en compte jusqu'à ce que le résultat soit correct, améliorant ainsi les performances du GPT-4 d'un étonnant 30 %.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Les internautes ne peuvent s'empêcher de soupirer : la vitesse de développement de l'intelligence artificielle a dépassé notre capacité d'adaptation.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Introduction à la méthode

L'architecture globale de l'agent Reflexion est présentée dans la figure 1 ci-dessous, où Reflexion utilise ReAct (Yao et al., 2023). Dans le premier essai, l'agent se voit confier une tâche de l'environnement qui constitue la requête initiale, puis l'agent exécute une séquence d'actions générée par le LLM et reçoit des observations et des récompenses de l'environnement. Pour les environnements offrant des récompenses descriptives ou continues, l’étude limite les résultats à de simples états de réussite binaires pour garantir l’applicabilité.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Après chaque action a_t, l'agent calcule une fonction heuristique h, comme le montre la figure ci-dessous

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Cette fonction heuristique est conçue pour détecter l'illusion d'information (c'est-à-dire des informations fausses ou erronées) produite par l'agent Ou inefficace, et "indiquer" à l'agent quand il doit réfléchir (réflexion), où t est le pas de temps, s_t est l'état actuel, Ω représente le nombre de cycles d'action répétés, ε représente le nombre total maximum d'actions effectuées, [ a_o, o_0 , a_(t−1), o_(t−1)] représente l'historique de la trajectoire. répéter est une fonction simple qui détermine le nombre de fois qu'une boucle d'actions répétées produit le même résultat.

Si la fonction h indique à l'agent qu'il doit réfléchir, alors l'agent interroge le LLM pour refléter sa tâche actuelle, son historique de trajectoire et sa dernière récompense, puis l'agent réinitialise l'environnement et réessaye lors des essais suivants. Si la fonction h n'indique pas à l'agent qu'une réflexion est nécessaire, alors l'agent ajoute a_t et o_t à son historique de trajectoire et interroge le LLM pour l'action suivante.

Si l'heuristique h suggère une réflexion à l'étape de temps t, l'agent réfléchira en fonction de son état actuel s_t, de sa dernière récompense r_t, des actions et observations précédentes [a_0, o_0, , a_t, o_t] et du travail existant de. l'agent est stocké dans la mémoire, ce qui lance un processus de réflexion.

Le but de la réflexion est d'aider l'agent à corriger les « illusions » et les inefficacités par essais et erreurs. Le modèle utilisé pour la réflexion est un LLM qui utilise des trajectoires d'échec spécifiques et des exemples de réflexion idéaux pour inciter.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

L'agent effectuera de manière itérative le processus de réflexion ci-dessus. Dans les expériences, l'étude a fixé le nombre de réflexions stockées dans la mémoire de l'agent à un maximum de 3 fois afin d'éviter que les requêtes ne dépassent les limites du LLM. L'exécution se terminera dans les situations suivantes :

  • Dépasse le nombre maximum d'essais ;
  • Ne parvient pas à améliorer les performances entre deux essais consécutifs ;
  • Termine la tâche.

Expériences et résultats

AlfWorld propose six tâches différentes et plus de 3 000 environnements, qui nécessitent que l'agent comprenne la tâche cible, formule un plan séquentiel pour les sous-tâches et effectue des opérations dans un environnement donné.

L'étude a testé l'agent dans 134 environnements AlfWorld, avec des tâches telles que trouver des objets cachés (par exemple, trouver un couteau à fruits dans un tiroir), déplacer des objets (par exemple, déplacer un couteau vers une planche à découper) et utiliser d'autres objets pour manipuler. d'autres objets. Un objet (par exemple, des tomates dans le réfrigérateur).

Sans réflexion, la précision de l'agent est de 63 %, puis la réflexion est ajoutée à des fins de comparaison. Les résultats ont montré que l’agent était capable de gérer 97 % de l’environnement au cours de 12 essais et n’a réussi à résoudre que 4 tâches sur 134.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

L'expérience suivante a été menée dans HotPotQA, qui est un ensemble de données basé sur Wikipédia et contient 113 000 paires de questions et réponses, principalement utilisées pour tester la capacité de l'agent à analyser le contenu et la raison.

Sur les 100 tests de paires de questions-réponses de HotpotQA, l'étude a comparé les agents de base et les agents basés sur Reflexion jusqu'à ce qu'ils ne parviennent pas à améliorer la précision au cours des essais successifs. Les résultats montrent que les performances de l'agent basique ne se sont pas améliorées. Lors du premier test, la précision de l'agent basique était de 34 % et celle de l'agent Reflexion était de 32 %. Cependant, après 7 tests, la performance de l'agent Reflexion était de 34 %. L'agent s'est considérablement amélioré. L'amélioration est proche de 30%, ce qui est bien meilleur que l'agent de base.

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

De même, GPT-4 avec Reflexion a également largement surpassé le GPT-4 classique lors du test de la capacité du modèle à écrire du code :

Quand GPT-4 réfléchit à son erreur : les performances ont augmenté de près de 30 % et la capacité de programmation a augmenté de 21 %

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle est la raison pour laquelle PS continue de montrer le chargement? Quelle est la raison pour laquelle PS continue de montrer le chargement? Apr 06, 2025 pm 06:39 PM

Les problèmes de «chargement» PS sont causés par des problèmes d'accès aux ressources ou de traitement: la vitesse de lecture du disque dur est lente ou mauvaise: utilisez Crystaldiskinfo pour vérifier la santé du disque dur et remplacer le disque dur problématique. Mémoire insuffisante: améliorez la mémoire pour répondre aux besoins de PS pour les images à haute résolution et le traitement complexe de couche. Les pilotes de la carte graphique sont obsolètes ou corrompues: mettez à jour les pilotes pour optimiser la communication entre le PS et la carte graphique. Les chemins de fichier sont trop longs ou les noms de fichiers ont des caractères spéciaux: utilisez des chemins courts et évitez les caractères spéciaux. Problème du PS: réinstaller ou réparer le programme d'installation PS.

Comment résoudre le problème du chargement lorsque PS est démarré? Comment résoudre le problème du chargement lorsque PS est démarré? Apr 06, 2025 pm 06:36 PM

Un PS est coincé sur le "chargement" lors du démarrage peut être causé par diverses raisons: désactiver les plugins corrompus ou conflictuels. Supprimer ou renommer un fichier de configuration corrompu. Fermez des programmes inutiles ou améliorez la mémoire pour éviter une mémoire insuffisante. Passez à un entraînement à semi-conducteurs pour accélérer la lecture du disque dur. Réinstaller PS pour réparer les fichiers système corrompus ou les problèmes de package d'installation. Afficher les informations d'erreur pendant le processus de démarrage de l'analyse du journal d'erreur.

Comment résoudre le problème du chargement lorsque le PS ouvre le fichier? Comment résoudre le problème du chargement lorsque le PS ouvre le fichier? Apr 06, 2025 pm 06:33 PM

Le bégaiement "Chargement" se produit lors de l'ouverture d'un fichier sur PS. Les raisons peuvent inclure: un fichier trop grand ou corrompu, une mémoire insuffisante, une vitesse du disque dur lente, des problèmes de pilote de carte graphique, des conflits de version PS ou du plug-in. Les solutions sont: vérifier la taille et l'intégrité du fichier, augmenter la mémoire, mettre à niveau le disque dur, mettre à jour le pilote de carte graphique, désinstaller ou désactiver les plug-ins suspects et réinstaller PS. Ce problème peut être résolu efficacement en vérifiant progressivement et en faisant bon usage des paramètres de performances PS et en développant de bonnes habitudes de gestion des fichiers.

Comment utiliser les plumes PS pour créer des effets transparents? Comment utiliser les plumes PS pour créer des effets transparents? Apr 06, 2025 pm 07:03 PM

Méthode de production d'effet transparent: Utilisez l'outil de sélection et les plumes pour coopérer: sélectionnez les zones transparentes et les plumes pour adoucir les bords; Modifiez le mode de mélange de couche et l'opacité pour contrôler la transparence. Utilisez des masques et des plumes: Sélectionnez et des zones de plumes; Ajouter les masques de couche et la transparence de contrôle du gradient de niveaux de gris.

Comment est la compatibilité du centrage d'images bootstrap Comment est la compatibilité du centrage d'images bootstrap Apr 07, 2025 am 07:51 AM

Bootstrap Image Centering fait face à des problèmes de compatibilité. La solution est la suivante: Utilisez MX-Auto pour centrer l'image horizontalement pour l'affichage: Block. Le centrage vertical utilise des dispositions Flexbox ou Grid pour garantir que l'élément parent est centré verticalement pour aligner les éléments enfants. Pour la compatibilité du navigateur IE, utilisez des outils tels que AutoPrefixer pour ajouter automatiquement les préfixes du navigateur. Optimiser la taille de l'image, le format et l'ordre de chargement pour améliorer les performances de la page.

Que dois-je faire si la carte PS est dans l'interface de chargement? Que dois-je faire si la carte PS est dans l'interface de chargement? Apr 06, 2025 pm 06:54 PM

L'interface de chargement de la carte PS peut être causée par le logiciel lui-même (corruption de fichiers ou conflit de plug-in), l'environnement système (corruption du pilote ou des fichiers système en raison), ou matériel (corruption du disque dur ou défaillance du bâton de mémoire). Vérifiez d'abord si les ressources informatiques sont suffisantes, fermez le programme d'arrière-plan et publiez la mémoire et les ressources CPU. Correction de l'installation de PS ou vérifiez les problèmes de compatibilité pour les plug-ins. Mettre à jour ou tomber la version PS. Vérifiez le pilote de la carte graphique et mettez-le à jour et exécutez la vérification du fichier système. Si vous résumez les problèmes ci-dessus, vous pouvez essayer la détection du disque dur et les tests de mémoire.

Comment changer la taille d'une liste de bootstrap? Comment changer la taille d'une liste de bootstrap? Apr 07, 2025 am 10:45 AM

La taille d'une liste d'amorçage dépend de la taille du conteneur qui contient la liste, pas de la liste elle-même. L'utilisation du système de grille de bootstrap ou de Flexbox peut contrôler la taille du conteneur, redimentant ainsi indirectement les éléments de la liste.

Comment ajouter des icônes à la liste Bootstrap? Comment ajouter des icônes à la liste Bootstrap? Apr 07, 2025 am 10:42 AM

Comment ajouter des icônes à la liste Bootstrap: fourre directement l'icône dans l'élément de liste & lt; li & gt;, en utilisant le nom de classe fourni par la bibliothèque d'icônes (comme Font Awesome). Utilisez la classe bootstrap pour aligner les icônes et le texte (par exemple, d-flex, justifier-content-between, align-items-center). Utilisez le composant Bootstrap Tag (badge) pour afficher les numéros ou l'état. Ajustez la position de l'icône (Flex-Direction: Row-Reverse;), Contrôlez le style (style CSS). Erreur commune: l'icône ne s'affiche pas (pas

See all articles