La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème d'apprentissage par renforcement multi-agents-IA-php.cn

Table des matières

Connaissances de base

Formulation de problèmes

Théorème de décomposition de dominance multi-agents

Méthodes MARL existantes

Transformateur multi-agent

Résultats expérimentaux

Performances sur les benchmarks MARL collaboratifs

MAT pour l'apprentissage en quelques coups

Maison

Périphériques technologiques

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème d'apprentissage par renforcement multi-agents

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 08:31 AM

架构强化学习智能

L'apprentissage par renforcement multi-agents (MARL) est un problème difficile qui nécessite non seulement d'identifier la direction de l'amélioration des politiques pour chaque agent, mais également de combiner conjointement les mises à jour des politiques des agents individuels pour améliorer les performances globales. Récemment, ce problème a été initialement résolu et certains chercheurs ont introduit la méthode d'exécution décentralisée de formation centralisée (CTDE), qui permet à l'agent d'accéder à des informations globales pendant la phase de formation. Cependant, ces méthodes ne peuvent pas couvrir toute la complexité des interactions multi-agents.

En fait, certaines de ces méthodes se sont révélées être des échecs. Afin de résoudre ce problème, quelqu’un a proposé le théorème de décomposition de dominance multi-agents. Sur cette base, les algorithmes HATRPO et HAPPO sont dérivés. Cependant, ces approches présentent des limites, qui reposent toujours sur des objectifs de maximisation soigneusement conçus.

Ces dernières années, les modèles de séquence (SM) ont fait des progrès substantiels dans le domaine du traitement du langage naturel (NLP). Par exemple, les séries GPT et BERT fonctionnent bien sur un large éventail de tâches en aval et obtiennent de bonnes performances sur des tâches de généralisation de petits échantillons.

Étant donné que les modèles de séquence s'adaptent naturellement aux caractéristiques de séquence du langage, ils peuvent être utilisés pour des tâches linguistiques, mais les méthodes de séquence ne se limitent pas aux tâches de PNL, mais constituent un modèle de base général largement applicable. Par exemple, en vision par ordinateur (CV), on peut diviser une image en sous-images et les organiser dans une séquence comme s'il s'agissait de jetons dans une tâche PNL. Les modèles récents les plus connus comme Flamingo, DALL-E, GATO, etc. ont tous l'ombre de la méthode séquence.

Avec l'émergence d'architectures de réseau telles que Transformer, la technologie de modélisation de séquence a également attiré une grande attention de la communauté RL, qui a promu une série de développements RL hors ligne basés sur l'architecture Transformer. Ces méthodes montrent un grand potentiel pour résoudre certains des problèmes de formation RL les plus fondamentaux.

Malgré le succès notable de ces méthodes, aucune n'a été conçue pour modéliser l'aspect le plus difficile (et propre à MARL) des systèmes multi-agents : les interactions entre agents. En fait, si nous donnons simplement à tous les agents une politique Transformer et les formons individuellement, cela n’est toujours pas garanti pour améliorer les performances communes de MARL. Par conséquent, bien qu’il existe un grand nombre de modèles de séquence puissants disponibles, MARL ne tire pas vraiment parti des performances des modèles de séquence.

Comment utiliser le modèle de séquence pour résoudre le problème MARL ? Des chercheurs de l'Université Jiao Tong de Shanghai, du Digital Brain Lab, de l'Université d'Oxford, etc. ont proposé une nouvelle architecture de transformateur multi-agent (MAT, Multi-Agent Transformer), qui peut transformer efficacement les problèmes MARL collaboratifs en problèmes de modèle de séquence. séquence d'observation de l'agent à la séquence d'action optimale de l'agent.

L'objectif de cet article est de construire un pont entre MARL et SM afin de débloquer les capacités de modélisation des modèles de séquence modernes pour MARL. Le cœur de MAT est l'architecture codeur-décodeur, qui utilise le théorème de décomposition des avantages multi-agents pour transformer le problème de recherche de stratégie conjointe en un processus de prise de décision séquentiel, de sorte que le problème multi-agent présente une complexité temporelle linéaire, et la plupart plus important encore, cela garantit une amélioration monotone des performances de MAT. Contrairement aux techniques précédentes telles que Decision Transformer qui nécessitent des données hors ligne pré-collectées, MAT est formé de manière stratégique en ligne par essais et erreurs en ligne à partir de l'environnement.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Adresse papier : https://arxiv.org/pdf/2205.14953.pdf
Page d'accueil du projet : https://sites.google.com/view/multi -agent-transformer

Pour vérifier MAT, les chercheurs ont mené des expériences approfondies sur StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation et Google Research Football benchmarks. Les résultats montrent que MAT a de meilleures performances et une meilleure efficacité des données par rapport aux bases de référence solides telles que MAPPO et HAPPO. En outre, cette étude a également prouvé que, quel que soit l'évolution du nombre d'agents, MAT est plus performant sur des tâches invisibles, mais on peut dire qu'il est un excellent apprenant sur petit échantillon.

Connaissances de base

Dans cette section, le chercheur présente d'abord la formule collaborative du problème MARL et le théorème de décomposition de dominance multi-agents, qui sont les pierres angulaires de cet article. Ensuite, ils examinent les méthodes MARL existantes liées à MAT, menant finalement à Transformer.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Comparaison du paradigme d'apprentissage multi-agent traditionnel (à gauche) et du paradigme de prise de décision en séquence multi-agent (à droite).

Formulation de problèmes

Les problèmes MARL collaboratifs sont généralement modélisés par des processus décisionnels de Markov discrets partiellement observables (Dec-POMDP) La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents .

Théorème de décomposition de dominance multi-agents

Les agents évaluent les valeurs des actions et des observations à travers Q_π(o, a) et V_π(o), qui sont définis comme suit.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Théorème 1 (Décomposition de dominance multi-agents) : Soit i_1:n l'arrangement des agents. La formule suivante est toujours valable sans autres hypothèses.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Il est important de noter que le théorème 1 fournit une intuition sur la manière de choisir des actions d'amélioration incrémentielle.

Méthodes MARL existantes

Les chercheurs ont résumé les deux algorithmes SOTA MARL actuels, tous deux basés sur l'optimisation de politique proximale (PPO). PPO est une méthode RL connue pour sa simplicité et sa stabilité des performances.

L'optimisation des politiques proximales multi-agents (MAPPO) est la première et la plus directe méthode pour appliquer le PPO à MARL.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

L'optimisation de la politique proximale d'agent hétérogène (HAPPO) est l'un des algorithmes SOTA actuels, qui peut utiliser pleinement le théorème (1) pour réaliser un apprentissage de domaine de confiance multi-agent avec une garantie d'amélioration monotone.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Modèle Transformer

Basé sur les propriétés de séquence décrites dans le théorème (1) et le principe derrière HAPPO, il est désormais intuitif d'envisager d'utiliser le modèle Transformer pour implémenter une région de confiance multi-agents apprentissage. En traitant une équipe d'agents comme une séquence, l'architecture Transformer permet de modéliser des équipes d'agents avec des nombres et des types variables tout en évitant les défauts de MAPPO/HAPPO.

Transformateur multi-agent

Afin de réaliser le paradigme de modélisation de séquence de MARL, la solution proposée par les chercheurs est le transformateur multi-agent (MAT). L'idée d'appliquer l'architecture Transformer vient du fait que l'agent observe la relation entre l'entrée de la séquence (o^i_1,..., o^i_n) et la sortie de la séquence d'action (a^i_1, . ., a^i_n) Le mappage est une tâche de modélisation de séquence similaire à la traduction automatique. Comme l'évite le théorème (1), l'action a^i_m dépend des décisions précédentes de tous les agents a^i_1:m−1.

Par conséquent, comme le montre la figure (2) ci-dessous, MAT contient un encodeur pour apprendre une représentation d'observation conjointe et un décodeur qui génère des actions pour chaque agent de manière autorégressive.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Les paramètres de l'encodeur sont notés φ, qui prend une séquence d'observations (o^i_1, . . . , o^i_n) dans un ordre arbitraire et les transmet à travers plusieurs calculs. blocs. Chaque bloc se compose d'un mécanisme d'auto-attention, d'un perceptron multicouche (MLP) et de connexions résiduelles pour empêcher la disparition des gradients et la dégradation du réseau avec l'augmentation de la profondeur. Les paramètres du décodeur

sont représentés par θ, qui transmet l'action conjointe intégrée a^i_0:m−1 , m = {1, . n} (où a^i_0 est un symbole arbitraire indiquant le début. de décodage) à la séquence de blocs décodée. Fondamentalement, chaque bloc de décodage possède un mécanisme d’auto-attention masqué. Pour entraîner le décodeur, nous minimisons l'objectif PPO recadré comme suit. Le flux de données détaillé dans

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

MAT est présenté dans l'animation ci-dessous.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Résultats expérimentaux

Pour évaluer si MAT répond aux attentes, les chercheurs ont effectué des expériences sur le benchmark StarCraft II Multi-Agent Challenge (SMAC) (MAPPO a des performances supérieures) et le benchmark multi-agent MuJoCo (HAPPO sur MAT a été testé avec les performances SOTA ci-dessus.

De plus, les chercheurs ont également mené des tests étendus sur MAT sur la manipulation bimanuelle des mains (Bi-DexHands) et les benchmarks Google Research Football. Le premier propose une gamme de tâches difficiles à deux mains, et le second propose une gamme de scénarios coopératifs dans un match de football.

Enfin, étant donné que le modèle Transformer montre généralement de fortes performances de généralisation sur de petits échantillons de tâches, les chercheurs pensent que MAT peut également avoir des capacités de généralisation tout aussi fortes sur des tâches MARL invisibles. Par conséquent, ils ont conçu des expériences à tir nul et à petit tir sur les tâches SMAC et MuJoCo multi-agents.

Performances sur les benchmarks MARL collaboratifs

Comme le montrent le tableau 1 et la figure 4 ci-dessous, pour les benchmarks SMAC, MuJoCo multi-agents et Bi-DexHands, MAT surpasse considérablement MAPPO et HAPPO sur presque toutes les tâches, il montre sa construction puissante capacité sur des tâches d’agents homogènes et hétérogènes. De plus, MAT atteint également de meilleures performances que MAT-Dec, ce qui indique l'importance de l'architecture du décodeur dans la conception de MAT.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

De même, les chercheurs ont également obtenu des résultats de performance similaires sur le benchmark Google Research Football, comme le montre la figure 5 ci-dessous.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

MAT pour l'apprentissage en quelques coups

Les résultats zéro et quelques coups pour chaque algorithme sont résumés dans les tableaux 2 et 3, où les chiffres en gras indiquent les meilleures performances.

Les chercheurs ont également fourni les performances de MAT dans les mêmes conditions de données, qui ont été formées à partir de zéro comme le groupe témoin. Comme le montre le tableau ci-dessous, MAT obtient la plupart des meilleurs résultats, ce qui démontre les solides performances de généralisation de l'apprentissage en quelques étapes de MAT.

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème dapprentissage par renforcement multi-agents

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7325

Tutoriel Java

1625

Tutoriel CakePHP

1350

Tutoriel Laravel

1262

Tutoriel PHP

1209

Afficher plus

Related knowledge

Les traits du visage volent, ouvrent la bouche, regardent fixement et lèvent les sourcils. L'IA peut les imiter parfaitement, ce qui rend impossible la prévention des escroqueries vidéo. Dec 14, 2023 pm 11:30 PM

Avec une capacité d'imitation de l'IA aussi puissante, il est vraiment impossible de l'empêcher. Le développement de l’IA a-t-il atteint ce niveau aujourd’hui ? Votre pied avant fait voler les traits de votre visage, et sur votre pied arrière, la même expression est reproduite. Regarder fixement, lever les sourcils, faire la moue, aussi exagérée que soit l'expression, tout est parfaitement imité. Augmentez la difficulté, haussez les sourcils, ouvrez plus grand les yeux, et même la forme de la bouche est tordue, et l'avatar du personnage virtuel peut parfaitement reproduire l'expression. Lorsque vous ajustez les paramètres à gauche, l'avatar virtuel à droite modifiera également ses mouvements en conséquence pour donner un gros plan de la bouche et des yeux. On ne peut pas dire que l'imitation soit exactement la même, seule l'expression est exactement la même. idem (extrême droite). La recherche provient d'institutions telles que l'Université technique de Munich, qui propose GaussianAvatars, qui

Apprentissage par renforcement Deep Q-learning utilisant la simulation de bras robotique de Panda-Gym Oct 31, 2023 pm 05:57 PM

L'apprentissage par renforcement (RL) est une méthode d'apprentissage automatique qui permet à un agent d'apprendre comment se comporter dans son environnement par essais et erreurs. Les agents sont récompensés ou punis pour avoir pris des mesures qui conduisent aux résultats souhaités. Au fil du temps, l'agent apprend à prendre des mesures qui maximisent la récompense attendue. Les agents RL sont généralement formés à l'aide d'un processus de décision markovien (MDP), un cadre mathématique pour modéliser des problèmes de décision séquentielle. Le MDP se compose de quatre parties : État : un ensemble d'états possibles de l'environnement. Action : un ensemble d'actions qu'un agent peut entreprendre. Fonction de transition : fonction qui prédit la probabilité de transition vers un nouvel état en fonction de l'état et de l'action actuels. Fonction de récompense : fonction qui attribue une récompense à l'agent pour chaque conversion. L'objectif de l'agent est d'apprendre une fonction politique,

Problèmes de conception des fonctions de récompense dans l'apprentissage par renforcement Oct 09, 2023 am 11:58 AM

Problèmes de conception de fonctions de récompense dans l'apprentissage par renforcement Introduction L'apprentissage par renforcement est une méthode qui apprend des stratégies optimales grâce à l'interaction entre un agent et l'environnement. Dans l’apprentissage par renforcement, la conception de la fonction de récompense est cruciale pour l’effet d’apprentissage de l’agent. Cet article explorera les problèmes de conception des fonctions de récompense dans l'apprentissage par renforcement et fournira des exemples de code spécifiques. Le rôle de la fonction de récompense et de la fonction de récompense cible constituent une partie importante de l'apprentissage par renforcement et sont utilisés pour évaluer la valeur de récompense obtenue par l'agent dans un certain état. Sa conception aide à guider l'agent pour maximiser la fatigue à long terme en choisissant les actions optimales.

1,3 ms prend 1,3 ms ! La dernière architecture de réseau neuronal mobile open source de Tsinghua, RepViT Mar 11, 2024 pm 12:07 PM

Adresse papier : https://arxiv.org/abs/2307.09283 Adresse code : https://github.com/THU-MIG/RepViTRepViT fonctionne bien dans l'architecture ViT mobile et présente des avantages significatifs. Ensuite, nous explorons les contributions de cette étude. Il est mentionné dans l'article que les ViT légers fonctionnent généralement mieux que les CNN légers sur les tâches visuelles, principalement en raison de leur module d'auto-attention multi-têtes (MSHA) qui permet au modèle d'apprendre des représentations globales. Cependant, les différences architecturales entre les ViT légers et les CNN légers n'ont pas été entièrement étudiées. Dans cette étude, les auteurs ont intégré des ViT légers dans le système efficace.

Quelle est l'architecture et le principe de fonctionnement de Spring Data JPA ? Apr 17, 2024 pm 02:48 PM

SpringDataJPA est basé sur l'architecture JPA et interagit avec la base de données via le mappage, l'ORM et la gestion des transactions. Son référentiel fournit des opérations CRUD et les requêtes dérivées simplifient l'accès à la base de données. De plus, il utilise le chargement paresseux pour récupérer les données uniquement lorsque cela est nécessaire, améliorant ainsi les performances.

Savez-vous que les programmeurs seront en déclin dans quelques années ? Nov 08, 2023 am 11:17 AM

Le magazine "ComputerWorld" a écrit un article disant que "la programmation disparaîtra d'ici 1960" parce qu'IBM a développé un nouveau langage FORTRAN, qui permet aux ingénieurs d'écrire les formules mathématiques dont ils ont besoin, puis de les soumettre à l'ordinateur pour que la programmation se termine. Picture Quelques années plus tard, nous avons entendu un nouveau dicton : tout homme d'affaires peut utiliser des termes commerciaux pour décrire ses problèmes et dire à l'ordinateur quoi faire. Grâce à ce langage de programmation appelé COBOL, les entreprises n'ont plus besoin de programmeurs. Plus tard, il est dit qu'IBM a développé un nouveau langage de programmation appelé RPG qui permet aux employés de remplir des formulaires et de générer des rapports, de sorte que la plupart des besoins de programmation de l'entreprise puissent être satisfaits grâce à lui.

MotionLM : technologie de modélisation de langage pour la prédiction de mouvement multi-agents Oct 13, 2023 pm 12:09 PM

Cet article est reproduit avec la permission du compte public Autonomous Driving Heart. Veuillez contacter la source pour la réimpression. Titre original : MotionLM : Multi-Agent Motion Forecasting as Language Modeling Lien vers l'article : https://arxiv.org/pdf/2309.16534.pdf Affiliation de l'auteur : Conférence Waymo : ICCV2023 Idée d'article : Pour la planification de la sécurité des véhicules autonomes, prédisez de manière fiable le comportement futur des agents routiers est cruciale. Cette étude représente les trajectoires continues sous forme de séquences de jetons de mouvement discrets et traite la prédiction de mouvement multi-agents comme une tâche de modélisation du langage. Le modèle que nous proposons, MotionLM, présente les avantages suivants :

Quelle est la courbe d'apprentissage de l'architecture du framework Golang ? Jun 05, 2024 pm 06:59 PM

La courbe d'apprentissage de l'architecture du framework Go dépend de la familiarité avec le langage Go et le développement back-end ainsi que de la complexité du framework choisi : une bonne compréhension des bases du langage Go. Il est utile d’avoir une expérience en développement back-end. Les cadres qui diffèrent en complexité entraînent des différences dans les courbes d'apprentissage.

See all articles

La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème d'apprentissage par renforcement multi-agents

Connaissances de base

Formulation de problèmes

Théorème de décomposition de dominance multi-agents

Méthodes MARL existantes

Transformateur multi-agent

​Résultats expérimentaux

Performances sur les benchmarks MARL collaboratifs

MAT pour l'apprentissage en quelques coups

Outils d'IA chauds

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds

Résultats expérimentaux