Aujourd'hui, nous allons présenter un article "REACT: Combining Reasoning and Behaviour in Language Models", qui est une collaboration entre des chercheurs de Google Research et de l'Université de Princeton. Ils ont publié cet article tout en explorant le potentiel de combiner le raisonnement et le comportement dans des modèles de langage. Bien que les capacités de raisonnement et d’action des grands modèles de langage (LLM) aient été étudiées séparément, c’est la première fois que ces deux capacités sont combinées en un seul système. Je pense donc que ce document est très important. Le framework ReAct permet aux agents virtuels d'utiliser une variété d'outils tels que la connexion au Web et aux bases de données SQL, offrant ainsi une évolutivité pratiquement illimitée
L'intelligence humaine est caractérisée par la tâche L'action dirigée et le raisonnement sur les prochaines étapes sont parfaitement intégrés. Cette capacité nous permet d’apprendre rapidement de nouvelles tâches et de prendre des décisions fiables, ainsi que de nous adapter aux circonstances imprévues. L'objectif de ReAct est de reproduire cette synergie dans les modèles de langage, leur permettant de générer des étapes d'inférence et des actions spécifiques à des tâches de manière entrelacée
ReAct invite de grands modèles de langage pour une tâche donnée. les étapes et les actions de l'histoire du raisonnement. Ces invites consistent en un petit nombre d’exemples contextuels qui guident la réflexion et la génération d’actions du modèle. Un exemple contextuel est donné dans la figure ci-dessous. Ces exemples guident l'agent à travers un processus cyclique : générer une idée, entreprendre une action, puis observer les résultats de l'action. En combinant des traces et des actions d'inférence, ReAct permet aux modèles d'effectuer une inférence dynamique, qui peut générer des plans de haut niveau et également interagir avec l'environnement externe pour collecter des informations supplémentaires. Pour une variété de tâches de raisonnement linguistique et de prise de décision, notamment la réponse aux questions, la vérification des faits, les jeux textuels et la navigation sur des pages Web. Les résultats sont exceptionnels, ReAct surpassant systématiquement les autres bases de référence de pointe en termes d'interprétabilité et de fiabilité
Dans les tâches de réponse aux questions et de vérification des faits, ReAct exploite l'interaction avec une simple API Wikipédia, surmontant avec succès le processus d'inférence Problèmes courants d'hallucinations et de mauvaise propagation. Il génère des étapes similaires à la façon dont les humains résoudraient la tâche et est plus facile à interpréter que les modèles de base sans traces de raisonnement. Sur les benchmarks de prise de décision interactive, ReAct surpasse considérablement les méthodes d'apprentissage par imitation et d'apprentissage par renforcement, même avec seulement un ou deux exemples contextuels
Orientations futures
Bien que ReAct ait obtenu de bons résultats, il reste encore place à l'amélioration. Les chercheurs recommandent de développer ReAct pour former et opérer sur davantage de tâches et de le combiner avec des paradigmes complémentaires tels que l'apprentissage par renforcement. De plus, le modèle peut être affiné en utilisant davantage de données annotées par l'homme pour améliorer encore les performances
Conclusion
Veuillez fournir un lien vers l'article :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!