Tout le monde a rencontré un problème séculaire.
C'est vendredi soir et vous essayez de choisir un restaurant où manger mais vous n'avez pas de réservation. Devez-vous faire la queue dans votre restaurant préféré qui regorge de monde, ou essayer un nouveau restaurant dans l’espoir de découvrir de plus savoureuses surprises ?
Ce dernier a le potentiel d'apporter des surprises, mais ce type de comportement motivé par la curiosité comporte des risques : la nourriture dans le nouveau restaurant que vous essayez peut être encore pire.
La curiosité est le moteur de l'IA pour explorer le monde, et il existe d'innombrables exemples : navigation autonome, prise de décision des robots, résultats de détection optimisés, etc.
Dans certains cas, les machines utilisent « l'apprentissage par renforcement » pour atteindre un objectif. Dans ce processus, l'agent IA apprend à plusieurs reprises des bons comportements qui sont récompensés et des mauvais comportements qui sont punis.
Tout comme le dilemme auquel les humains sont confrontés lors du choix d'un restaurant, ces agents tentent d'équilibrer le temps nécessaire pour découvrir de meilleures actions (exploration) et le temps nécessaire pour entreprendre des actions qui ont abouti à des rendements élevés dans le passé (exploitation).
Une curiosité trop forte distraira l'agent et l'empêchera de prendre une décision favorable, tandis qu'une curiosité trop faible signifie que l'agent ne pourra jamais découvrir une décision favorable.
Dans le but de faire en sorte que les agents d'IA aient « juste ce qu'il faut » de curiosité, des chercheurs du laboratoire d'informatique et d'IA (CSAIL) du MIT ont créé un algorithme qui surmonte le problème de l'IA qui est trop « curieuse » et submergée par les problèmes rencontrés. Problèmes de distraction des tâches.
L'algorithme qu'ils ont développé augmente automatiquement la curiosité en cas de besoin et la diminue si l'agent est suffisamment supervisé par l'environnement et sait déjà quoi faire.
Lien papier : https://williamd4112.github.io/pubs/neurips22_eipo.pdf
Après des tests dans plus de 60 jeux vidéo, cet algorithme est capable de réussir des tâches d'exploration de différentes difficultés, alors que les algorithmes précédents ne peut être résolu qu’individuellement en difficulté facile ou difficile. Cela signifie que les agents d’IA peuvent utiliser moins de données pour apprendre les règles de décision et maximiser les incitations.
« Si vous maîtrisez bien le compromis exploration-exploitation, vous pouvez apprendre les bonnes règles de décision plus rapidement, alors que rien de moins nécessite beaucoup de données, ce qui peut signifier que les résultats produits ne sont pas optimaux. Solutions médicales , les bénéfices des sites Web sont en baisse et les robots n'apprennent pas à faire les bonnes choses », a déclaré Pulkit Agrawal, l'un des responsables de l'étude, professeur au MIT et directeur de l'Improbable AI Lab.
La curiosité ne tue pas seulement le chat !
Avec l'apprentissage par renforcement, ce processus est émotionnellement « élagué », ramenant le problème à son niveau le plus élémentaire, mais la mise en œuvre technique est assez complexe.
Essentiellement, un agent ne doit être curieux que lorsqu'il n'y a pas assez de supervision pour essayer différentes choses, et s'il y a une supervision, il doit ajuster sa curiosité et réduire sa curiosité.
Une grande partie des tâches du jeu de test consiste en de petits agents qui courent dans l'environnement à la recherche de récompenses et effectuent une longue liste d'actions pour atteindre un objectif. Cela semble être un banc d'essai logique pour les algorithmes des chercheurs.
Dans des expériences avec des jeux tels que "Mario Kart" et "Montezuma's Revenge", les chercheurs ont divisé les jeux ci-dessus en deux catégories différentes :
Un environnement peu supervisé où l'agent reçoit moins de conseils. Un est moins, ce qui est un l'autre est un jeu d'exploration « dur » ; l'autre est un environnement plus intensément supervisé, qui est un jeu d'exploration « facile ».
Supposons que dans Mario Kart, supprimez simplement toutes les récompenses, vous ne savez pas quand un ennemi vous tue. Vous n'obtenez aucune récompense lorsque vous collectez une pièce ou sautez par-dessus un tuyau. L'agent n'est informé qu'à la fin de ses performances. Il s’agit d’un environnement peu surveillé, ce qui constitue une tâche difficile. Les algorithmes qui stimulent la curiosité fonctionnent très bien dans ce genre de tâche.
Et si l'agent se trouve dans un environnement densément supervisé, c'est-à-dire qu'il y a des récompenses pour sauter à travers des tuyaux, collecter des pièces et tuer des ennemis, alors l'algorithme le plus performant est un algorithme sans aucune curiosité, car il est fréquemment récompensé. , tant qu'il suit Suivez simplement le processus et vous gagnerez beaucoup sans exploration supplémentaire.
Si vous utilisez un algorithme qui encourage la curiosité, la vitesse d'apprentissage sera très lente.
Parce qu'un agent curieux peut essayer de courir vite de différentes manières, de se promener et de visiter tous les recoins du jeu. Ces choses sont amusantes, mais elles n’aident pas l’agent à réussir dans le jeu et à recevoir des récompenses.
Comme mentionné ci-dessus, dans l'apprentissage par renforcement, les algorithmes qui stimulent et inhibent la curiosité sont généralement utilisés pour correspondre respectivement à des tâches peu supervisées (difficiles) et intensives (simples) supervisées, et ne peuvent pas être mélangés.
Cette fois, le nouvel algorithme de l’équipe du MIT fonctionne toujours bien, quel que soit l’environnement.
Les travaux futurs pourraient impliquer de revenir à une quête qui ravit et trouble les psychologues depuis des années : une mesure appropriée de la curiosité - personne ne connaît vraiment la bonne façon de définir mathématiquement la curiosité.
Zhang Weihong, doctorant au MIT CSAIL a déclaré :
Ajustez l'algorithme en fonction du problème qui vous intéresse en améliorant l'algorithme d'exploration. Nous avons besoin de curiosité pour résoudre des problèmes complexes, mais sur certains problèmes, la curiosité peut dégrader les performances. Notre algorithme élimine le fardeau de l’ajustement de l’exploration et de l’exploitation.
Problèmes qui prenaient auparavant une semaine à résoudre, le nouvel algorithme peut obtenir des résultats satisfaisants en quelques heures.
Il est co-auteur d'un nouvel article sur ce travail avec Eric Chen '22, CSAIL M.E. au MIT.
Deepak Pathak, professeur à l'Université Carnegie Mellon, a déclaré :
« Les mécanismes de récompense intrinsèques comme la curiosité sont la base pour guider les agents dans la découverte de comportements utiles et diversifiés, mais cela ne devrait pas être la base pour bien faire une tâche. est une question importante dans l'IA, et cet article fournit un moyen d'équilibrer ce compromis. Il sera intéressant de voir comment cette approche s'étend des jeux aux agents robotiques du monde réel. Une chose intéressante. et professeur agrégé de philosophie à l'Université de Californie à Berkeley, a souligné que l'un des plus grands défis actuels de l'IA et des sciences cognitives est de savoir comment équilibrer « l'exploration et l'utilisation ». La première concerne la recherche d'informations, la seconde la recherche d'informations. récompenses.
「Cet article utilise une nouvelle technologie impressionnante pour automatiser ce travail, en concevant un agent capable d'équilibrer systématiquement la curiosité pour le monde et le désir de récompenses, permettant aux agents d'IA d'évoluer vers des choses comme C'est une étape importante vers la création de vrais enfants comme aussi intelligent que possible", a-t-il déclaré.
Références :
https://techxplore.com/news/2022-11-bad-ai-curious.html
https://www.csail.mit.edu/news/ensuring-ai-works- right -dose-curiosité
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!