Maison Périphériques technologiques IA La curiosité de l'IA ne tue pas seulement le chat ! Le nouvel algorithme d'apprentissage par renforcement du MIT, cette fois l'agent est 'difficile et facile à tout prendre'

La curiosité de l'IA ne tue pas seulement le chat ! Le nouvel algorithme d'apprentissage par renforcement du MIT, cette fois l'agent est 'difficile et facile à tout prendre'

Apr 13, 2023 pm 04:19 PM
ai 算法 mit

​Tout le monde a rencontré un problème séculaire.

C'est vendredi soir et vous essayez de choisir un restaurant où manger mais vous n'avez pas de réservation. Devez-vous faire la queue dans votre restaurant préféré qui regorge de monde, ou essayer un nouveau restaurant dans l’espoir de découvrir de plus savoureuses surprises ?

Ce dernier a le potentiel d'apporter des surprises, mais ce type de comportement motivé par la curiosité comporte des risques : la nourriture dans le nouveau restaurant que vous essayez peut être encore pire.

La curiosité est le moteur de l'IA pour explorer le monde, et il existe d'innombrables exemples : navigation autonome, prise de décision des robots, résultats de détection optimisés, etc.

Dans certains cas, les machines utilisent « l'apprentissage par renforcement » pour atteindre un objectif. Dans ce processus, l'agent IA apprend à plusieurs reprises des bons comportements qui sont récompensés et des mauvais comportements qui sont punis.

La curiosité de lIA ne tue pas seulement le chat ! Le nouvel algorithme dapprentissage par renforcement du MIT, cette fois lagent est difficile et facile à tout prendre

Tout comme le dilemme auquel les humains sont confrontés lors du choix d'un restaurant, ces agents tentent d'équilibrer le temps nécessaire pour découvrir de meilleures actions (exploration) et le temps nécessaire pour entreprendre des actions qui ont abouti à des rendements élevés dans le passé (exploitation).

Une curiosité trop forte distraira l'agent et l'empêchera de prendre une décision favorable, tandis qu'une curiosité trop faible signifie que l'agent ne pourra jamais découvrir une décision favorable.

Dans le but de faire en sorte que les agents d'IA aient « juste ce qu'il faut » de curiosité, des chercheurs du laboratoire d'informatique et d'IA (CSAIL) du MIT ont créé un algorithme qui surmonte le problème de l'IA qui est trop « curieuse » et submergée par les problèmes rencontrés. Problèmes de distraction des tâches.

L'algorithme qu'ils ont développé augmente automatiquement la curiosité en cas de besoin et la diminue si l'agent est suffisamment supervisé par l'environnement et sait déjà quoi faire.

La curiosité de lIA ne tue pas seulement le chat ! Le nouvel algorithme dapprentissage par renforcement du MIT, cette fois lagent est difficile et facile à tout prendre

Lien papier : https://williamd4112.github.io/pubs/neurips22_eipo.pdf

Après des tests dans plus de 60 jeux vidéo, cet algorithme est capable de réussir des tâches d'exploration de différentes difficultés, alors que les algorithmes précédents ne peut être résolu qu’individuellement en difficulté facile ou difficile. Cela signifie que les agents d’IA peuvent utiliser moins de données pour apprendre les règles de décision et maximiser les incitations.

« Si vous maîtrisez bien le compromis exploration-exploitation, vous pouvez apprendre les bonnes règles de décision plus rapidement, alors que rien de moins nécessite beaucoup de données, ce qui peut signifier que les résultats produits ne sont pas optimaux. Solutions médicales , les bénéfices des sites Web sont en baisse et les robots n'apprennent pas à faire les bonnes choses », a déclaré Pulkit Agrawal, l'un des responsables de l'étude, professeur au MIT et directeur de l'Improbable AI Lab.

La curiosité ne tue pas seulement le chat !

Il semble difficile d'expliquer les fondements psychologiques de la curiosité d'un point de vue psychologique. Nous n'avons pas encore une compréhension approfondie des principes neurologiques sous-jacents à ce comportement de recherche de défi.

Avec l'apprentissage par renforcement, ce processus est émotionnellement « élagué », ramenant le problème à son niveau le plus élémentaire, mais la mise en œuvre technique est assez complexe.

Essentiellement, un agent ne doit être curieux que lorsqu'il n'y a pas assez de supervision pour essayer différentes choses, et s'il y a une supervision, il doit ajuster sa curiosité et réduire sa curiosité.

Une grande partie des tâches du jeu de test consiste en de petits agents qui courent dans l'environnement à la recherche de récompenses et effectuent une longue liste d'actions pour atteindre un objectif. Cela semble être un banc d'essai logique pour les algorithmes des chercheurs.

La curiosité de lIA ne tue pas seulement le chat ! Le nouvel algorithme dapprentissage par renforcement du MIT, cette fois lagent est difficile et facile à tout prendreDans des expériences avec des jeux tels que "Mario Kart" et "Montezuma's Revenge", les chercheurs ont divisé les jeux ci-dessus en deux catégories différentes :

Un environnement peu supervisé où l'agent reçoit moins de conseils. Un est moins, ce qui est un l'autre est un jeu d'exploration « dur » ; l'autre est un environnement plus intensément supervisé, qui est un jeu d'exploration « facile ».

Supposons que dans Mario Kart, supprimez simplement toutes les récompenses, vous ne savez pas quand un ennemi vous tue. Vous n'obtenez aucune récompense lorsque vous collectez une pièce ou sautez par-dessus un tuyau. L'agent n'est informé qu'à la fin de ses performances. Il s’agit d’un environnement peu surveillé, ce qui constitue une tâche difficile. Les algorithmes qui stimulent la curiosité fonctionnent très bien dans ce genre de tâche.

Et si l'agent se trouve dans un environnement densément supervisé, c'est-à-dire qu'il y a des récompenses pour sauter à travers des tuyaux, collecter des pièces et tuer des ennemis, alors l'algorithme le plus performant est un algorithme sans aucune curiosité, car il est fréquemment récompensé. , tant qu'il suit Suivez simplement le processus et vous gagnerez beaucoup sans exploration supplémentaire.

La curiosité de lIA ne tue pas seulement le chat ! Le nouvel algorithme dapprentissage par renforcement du MIT, cette fois lagent est difficile et facile à tout prendreSi vous utilisez un algorithme qui encourage la curiosité, la vitesse d'apprentissage sera très lente.

Parce qu'un agent curieux peut essayer de courir vite de différentes manières, de se promener et de visiter tous les recoins du jeu. Ces choses sont amusantes, mais elles n’aident pas l’agent à réussir dans le jeu et à recevoir des récompenses.

Comme mentionné ci-dessus, dans l'apprentissage par renforcement, les algorithmes qui stimulent et inhibent la curiosité sont généralement utilisés pour correspondre respectivement à des tâches peu supervisées (difficiles) et intensives (simples) supervisées, et ne peuvent pas être mélangés.

Cette fois, le nouvel algorithme de l’équipe du MIT fonctionne toujours bien, quel que soit l’environnement.

Les travaux futurs pourraient impliquer de revenir à une quête qui ravit et trouble les psychologues depuis des années : une mesure appropriée de la curiosité - personne ne connaît vraiment la bonne façon de définir mathématiquement la curiosité.

Zhang Weihong, doctorant au MIT CSAIL a déclaré :

Ajustez l'algorithme en fonction du problème qui vous intéresse en améliorant l'algorithme d'exploration. Nous avons besoin de curiosité pour résoudre des problèmes complexes, mais sur certains problèmes, la curiosité peut dégrader les performances. Notre algorithme élimine le fardeau de l’ajustement de l’exploration et de l’exploitation.

Problèmes qui prenaient auparavant une semaine à résoudre, le nouvel algorithme peut obtenir des résultats satisfaisants en quelques heures.

Il est co-auteur d'un nouvel article sur ce travail avec Eric Chen '22, CSAIL M.E. au MIT.

Deepak Pathak, professeur à l'Université Carnegie Mellon, a déclaré :

« Les mécanismes de récompense intrinsèques comme la curiosité sont la base pour guider les agents dans la découverte de comportements utiles et diversifiés, mais cela ne devrait pas être la base pour bien faire une tâche. est une question importante dans l'IA, et cet article fournit un moyen d'équilibrer ce compromis. Il sera intéressant de voir comment cette approche s'étend des jeux aux agents robotiques du monde réel. Une chose intéressante. et professeur agrégé de philosophie à l'Université de Californie à Berkeley, a souligné que l'un des plus grands défis actuels de l'IA et des sciences cognitives est de savoir comment équilibrer « l'exploration et l'utilisation ». La première concerne la recherche d'informations, la seconde la recherche d'informations. récompenses.

「Cet article utilise une nouvelle technologie impressionnante pour automatiser ce travail, en concevant un agent capable d'équilibrer systématiquement la curiosité pour le monde et le désir de récompenses, permettant aux agents d'IA d'évoluer vers des choses comme C'est une étape importante vers la création de vrais enfants comme aussi intelligent que possible", a-t-il déclaré.

Références :

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail.mit.edu/news/ensuring-ai-works- right -dose-curiosité

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

À l'ère Chatgpt, comment la communauté technique des questions et réponses peut-elle répondre aux défis? À l'ère Chatgpt, comment la communauté technique des questions et réponses peut-elle répondre aux défis? Apr 01, 2025 pm 11:51 PM

La communauté technique de questions-réponses à l'ère Chatgpt: Stratégie de réponse de SegmentFault StackOverflow ...

Comment gérer gracieusement l'erreur 'Pipe fermé' dans la communication de tuyaux multi-processus Python? Comment gérer gracieusement l'erreur 'Pipe fermé' dans la communication de tuyaux multi-processus Python? Apr 01, 2025 pm 11:12 PM

Erreur de tuyau multi-processus Python "Le tuyau est fermé"? Lorsque vous utilisez la méthode du tuyau dans le module multiprocesseur de Python pour la communication de processus parent-enfant, vous pouvez rencontrer ...

Comment résoudre le problème du contenu de chargement dynamique manquant lors de l'obtention de données de page Web? Comment résoudre le problème du contenu de chargement dynamique manquant lors de l'obtention de données de page Web? Apr 01, 2025 pm 11:24 PM

Problèmes et solutions rencontrés lors de l'utilisation de la bibliothèque de requêtes pour faire craquer les données de la page Web. Lorsque vous utilisez la bibliothèque des demandes pour obtenir des données de page Web, vous rencontrez parfois le ...

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Apr 01, 2025 pm 11:39 PM

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Récemment, j'ai utilisé Python ...

Comment faire fonctionner le réglage des performances de Zookeeper sur Debian Comment faire fonctionner le réglage des performances de Zookeeper sur Debian Apr 02, 2025 am 07:42 AM

Cet article décrit comment optimiser les performances de Zookeeper sur Debian Systems. Nous fournirons des conseils sur le matériel, le système d'exploitation, la configuration du gardien de zoo et la surveillance. 1. Optimiser la mise à niveau des supports de stockage au niveau du système: le remplacement des disques durs mécaniques traditionnels par des disques à l'état solide SSD améliorera considérablement les performances des E / S et réduira la latence d'accès. Désactiver le partitionnement du swap: en ajustant les paramètres du noyau, réduisez la dépendance des partitions de swap et évitez les pertes de performances causées par des swaps de mémoire et de disque fréquents. Améliorer le descripteur de fichier Limite supérieure: augmenter le nombre de descripteurs de fichiers autorisés à être ouverts en même temps par le système pour éviter les limitations des ressources affectant l'efficacité de traitement de Zookeeper. 2. Configuration de la configuration zoo

Comment faire des paramètres de sécurité Oracle sur Debian Comment faire des paramètres de sécurité Oracle sur Debian Apr 02, 2025 am 07:48 AM

Pour renforcer la sécurité de la base de données Oracle sur le système Debian, il faut de nombreux aspects pour commencer. Les étapes suivantes fournissent un cadre pour la configuration sécurisée: 1. Installation de la base de données Oracle et préparation du système de configuration initiale: Assurez-vous que le système Debian a été mis à jour vers la dernière version, la configuration du réseau est correcte et tous les packages logiciels requis sont installés. Il est recommandé de se référer à des documents officiels ou à des ressources tierces fiables pour l'installation. Utilisateurs et groupes: Créez un groupe d'utilisateurs Oracle dédié (tel que Oinstall, DBA, BackupDBA) et définissez-le pour lui. 2. Restrictions de sécurité Définir les restrictions de ressources: Edit /etc/security/limits.d/30-oracle.conf

See all articles