


L'IA a appris à jouer à 'Minecraft' à partir de zéro, DeepMind AI a fait une percée dans la généralisation
L'intelligence générale doit résoudre des tâches dans plusieurs domaines. On pense que les algorithmes d’apprentissage par renforcement ont ce potentiel, mais il a été entravé par les ressources et les connaissances nécessaires pour les adapter à de nouvelles tâches. Dans une nouvelle étude de DeepMind, les chercheurs démontrent DreamerV3, un algorithme général et évolutif basé sur un modèle mondial qui surpasse les méthodes précédentes dans un large éventail de domaines avec des hyperparamètres fixes.
DreamerV3 se conforme à des domaines comprenant les actions continues et discrètes, les entrées visuelles et de faible dimension, les mondes 2D et 3D, les volumes de données variables, les fréquences de récompense et les niveaux de récompense. Il convient de mentionner que DreamerV3 est le premier algorithme à collecter des diamants dans Minecraft à partir de zéro, sans données humaines ni éducation active. Les chercheurs affirment qu’un tel algorithme général pourrait permettre des applications généralisées de l’apprentissage par renforcement et pourrait potentiellement être étendu à des problèmes de prise de décision difficiles.
Les diamants sont l'un des objets les plus populaires du jeu "Minecraft". Ils sont l'un des objets les plus rares du jeu et peuvent être utilisés pour fabriquer la plupart des outils, armes et armures les plus puissants du jeu. Comme les diamants ne se trouvent que dans les couches rocheuses les plus profondes, leur production est faible.
DreamerV3 est le premier algorithme permettant de collecter des diamants dans Minecraft sans avoir besoin de démonstrations humaines ou de création manuelle de cours. Cette vidéo montre le premier diamant collecté, qui s'est produit dans les 30 millions d'étapes d'environnement / 17 jours de jeu.
Si vous n'avez aucune idée de l'IA jouant à Minecraft, Jim Fan, scientifique en IA de NVIDIA, a déclaré que par rapport à AlphaGo jouant à Go, le nombre de tâches Minecraft est illimité, les changements d'environnement sont illimités et les connaissances contiennent également des informations cachées.
Pour les humains, explorer et construire dans Minecraft est amusant, tandis que Go semble un peu compliqué pour l'IA, la situation est tout le contraire. AlphaGo a vaincu le champion humain il y a 6 ans, mais il n'existe désormais aucun algorithme capable de rivaliser avec les maîtres humains de Minecraft.
Dès l'été 2019, la société de développement de Minecraft a proposé le "Diamond Challenge", offrant une récompense pour un algorithme d'IA capable de trouver des diamants dans le jeu jusqu'à NeurIPS 2019, parmi les plus de 660 candidatures soumises. , Aucune IA n’est à la hauteur.
Mais l'émergence de DreamerV3 a changé cette situation. Les diamants sont une tâche hautement combinée et à long terme qui nécessite une exploration et une planification complexes. Le nouvel algorithme peut collecter des diamants sans aucune aide de données artificielles. Il y a peut-être encore beaucoup à faire en termes d'efficacité, mais le fait que l'agent IA puisse désormais apprendre à collecter des diamants à partir de zéro est une étape importante .
Présentation de la méthode DreamerV3
Article "Maîtriser divers domaines à travers des modèles mondiaux" :
Lien article : https://arxiv.org/abs/2301.04104v1
L'algorithme DreamerV3 est propulsé par Il se compose de trois réseaux de neurones, à savoir le modèle mondial, le critique et l'acteur. Les trois réseaux de neurones sont formés simultanément sur la base de l'expérience de relecture sans partager de gradients. La figure 3 (a) ci-dessous montre l'apprentissage du modèle mondial et la figure (b) montre l'apprentissage de l'acteur critique.
Pour réussir dans tous les domaines, ces composants doivent s'adapter à différentes amplitudes de signal et équilibrer de manière robuste les termes sur leurs cibles. Cela constitue un défi car l’apprentissage est requis non seulement pour des tâches similaires au sein du même domaine, mais également dans différents domaines à l’aide d’hyperparamètres fixes.
DeepMind explique d'abord des transformations simples pour prédire des ordres de grandeur inconnus, puis présente les modèles du monde, les critiques, les acteurs et leurs objectifs d'apprentissage solides. Il a été constaté que la combinaison de l'équilibre KL et des bits libres permet d'apprendre le modèle mondial sans ajustement et d'obtenir un régulateur d'entropie politique fixe en réduisant les rendements importants sans exagérer les petits rendements.
Prédictions Symlog
Reconstruire les entrées et prédire les récompenses et les valeurs est un défi car leur échelle peut varier d'un domaine à l'autre. L’utilisation de la perte carrée pour prédire des cibles importantes conduit à une divergence, tandis que la perte absolue et la perte de Huber bloquent l’apprentissage. En revanche, les objectifs de normalisation basés sur des statistiques d'exploitation introduisent de la non-stationnarité dans l'optimisation. Par conséquent, DeepMind propose la prédiction symlog comme solution simple à ce problème.
Pour ce faire, un réseau de neurones f (x, θ) avec l'entrée x et le paramètre θ apprend à prédire une version transformée de sa cible y. Pour lire la prédiction du réseau y^, DeepMind utilise une transformation inverse, comme le montre l'équation (1) ci-dessous.
Comme vous pouvez le voir sur la figure 4 ci-dessous, les cibles avec des valeurs négatives ne peuvent pas être prédites en utilisant le logarithme (logarithme) comme transformation.
Par conséquent, DeepMind sélectionne une fonction de la famille des logarithmes bisymétriques, nommée symlog, comme transformation, et utilise la fonction symexp comme fonction inverse. La fonction
symlog compresse la taille des grandes valeurs positives et négatives. DreamerV3 utilise la prédiction symlog dans le décodeur, le prédicteur de récompense et le critique, et utilise également la fonction symlog pour compresser l'entrée de l'encodeur.
Apprentissage du modèle mondial
Le modèle mondial apprend une représentation compacte des entrées sensorielles grâce à l'auto-encodage et permet la planification en prédisant les représentations futures et les récompenses pour les actions potentielles.
Comme le montre la figure 3 ci-dessus, DeepMind implémente le modèle mondial en tant que modèle spatial à états récurrents (RSSM). Tout d’abord, un encodeur mappe l’entrée sensorielle x_t à une représentation aléatoire z_t, puis un modèle de séquence avec des états récurrents h_t prédit une séquence de ces représentations étant donné une action passée a_t−1. La concaténation de h_t et z_t forme l'état du modèle à partir duquel la récompense r_t et l'indicateur de continuité d'épisode c_t ∈ {0, 1} sont prédits et l'entrée est reconstruite pour garantir la représentation des informations, comme le montre l'équation (3) ci-dessous.
La figure 5 ci-dessous visualise la prédiction vidéo à long terme du monde mondial. L'encodeur et le décodeur utilisent un réseau neuronal convolutif (CNN) pour l'entrée visuelle et un perceptron multicouche (MLP) pour l'entrée de faible dimension. Les prédicteurs de dynamique, de récompense et de persistance sont également des MLP, et ces représentations sont échantillonnées à partir de vecteurs de distributions softmax. DeepMind utilise des gradients pass-through dans l'étape d'échantillonnage.
Apprentissage des critiques d'acteurs
Les réseaux neuronaux des critiques d'acteurs apprennent le comportement entièrement à partir de séquences abstraites prédites par un modèle mondial. Lors des interactions avec l'environnement, DeepMind sélectionne les actions par échantillonnage dans le réseau d'acteurs, sans nécessiter de planification préalable.
acteur et critique opèrent dans un état modèle et peuvent bénéficier de la représentation markovienne apprise par le modèle mondial. L'objectif de l'acteur est de maximiser le rendement attendu
avec un facteur d'actualisation γ = 0,997 pour chaque état modèle. Pour tenir compte des récompenses au-delà de la plage de prédiction T = 16, le critique apprend à prédire la récompense pour chaque état en fonction du comportement actuel de l'acteur.
À partir d'une représentation de l'entrée rejouée, les prédicteurs et acteurs dynamiques produisent une séquence d'états de modèle attendus s_1:T , d'actions a_1:T , de récompenses r_1:T et d'indicateurs de continuation c_1:T . Pour estimer les rendements des récompenses en dehors de l'horizon prévu, DeepMind calcule les rendements λ bootstrapés, qui intègrent les rendements et la valeur attendus.
Résultats expérimentaux
DeepMind a mené une étude empirique approfondie pour évaluer la généralité et l'évolutivité de DreamerV3 dans différents domaines (plus de 150 tâches) sous des hyperparamètres fixes et par rapport aux méthodes SOTA existantes dans la littérature. DreamerV3 a également été appliqué au jeu vidéo stimulant Minecraft.
Pour DreamerV3, DeepMind simplifie la configuration en signalant directement les performances des stratégies de formation stochastiques et en évitant des évaluations séparées avec des stratégies déterministes. Tous les agents DreamerV3 sont formés sur un GPU Nvidia V100. Le tableau 1 ci-dessous donne un aperçu des critères de référence.
Pour évaluer la généralité de DreamerV3, DeepMind a mené des évaluations empiriques approfondies dans sept domaines, notamment les actions continues et discrètes, les entrées visuelles et de faible dimension, les récompenses denses et clairsemées, différentes échelles de récompense, le monde 2D et 3D et génération procédurale. Les résultats de la figure 1 ci-dessous montrent que DreamerV3 atteint de solides performances dans tous les domaines et surpasse tous les algorithmes précédents dans 4 d'entre eux, tout en utilisant des hyperparamètres fixes dans tous les benchmarks.
Veuillez vous référer à l'article original pour plus de détails techniques et de résultats expérimentaux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Le prix de Bitcoin varie de 20 000 $ à 30 000 $. 1. Le prix de Bitcoin a radicalement fluctué depuis 2009, atteignant près de 20 000 $ en 2017 et près de 60 000 $ en 2021. 2. Les prix sont affectés par des facteurs tels que la demande du marché, l'offre et l'environnement macroéconomique. 3. Obtenez des prix en temps réel via les échanges, les applications mobiles et les sites Web. 4. Le prix du bitcoin est très volatil, tiré par le sentiment du marché et les facteurs externes. 5. Il a une certaine relation avec les marchés financiers traditionnels et est affecté par les marchés boursiers mondiaux, la force du dollar américain, etc. 6. La tendance à long terme est optimiste, mais les risques doivent être évalués avec prudence.

Les dix premiers échanges de crypto-monnaie au monde en 2025 incluent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex et Poloniex, qui sont tous connus pour leur volume et leur sécurité commerciaux élevés.

Les dix principales plates-formes de trading de crypto-monnaie au monde comprennent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi Global, BitFinex, Bittrex, Kucoin et Poloniex, qui fournissent toutes une variété de méthodes de trading et de puissantes mesures de sécurité.

Les dix premiers échanges de devises numériques tels que Binance, OKX, Gate.io ont amélioré leurs systèmes, des transactions diversifiées efficaces et des mesures de sécurité strictes.

Memebox 2.0 redéfinit la gestion des actifs cryptographiques grâce à une architecture innovante et à des percées de performance. 1) Il résout trois principaux points de douleur: les silos d'actifs, la désintégration du revenu et le paradoxe de la sécurité et de la commodité. 2) Grâce à des pôles d'actifs intelligents, à la gestion des risques dynamiques et aux moteurs d'amélioration du rendement, la vitesse de transfert croisée, le taux de rendement moyen et la vitesse de réponse aux incidents de sécurité sont améliorés. 3) Fournir aux utilisateurs la visualisation des actifs, l'automatisation des politiques et l'intégration de la gouvernance, réalisant la reconstruction de la valeur utilisateur. 4) Grâce à la collaboration écologique et à l'innovation de la conformité, l'efficacité globale de la plate-forme a été améliorée. 5) À l'avenir, les pools d'assurance-contrat intelligents, l'intégration du marché des prévisions et l'allocation d'actifs axés sur l'IA seront lancés pour continuer à diriger le développement de l'industrie.

Actuellement classé parmi les dix premiers échanges de devises virtuels: 1. Binance, 2. Okx, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9. Bitcoin, 10. Bit Stamp.

Plate-forme de trading de devises numériques fiables recommandées: 1. Okx, 2. Binance, 3. Coinbase, 4. Kraken, 5. Huobi, 6. Kucoin, 7. Bitfinex, 8. Gemini, 9. Bitstamp, 10. Poloniex, ces plates-formes sont connu

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron
