


La référence de confrontation coopérative de StarCraft II surpasse SOTA, la nouvelle architecture Transformer résout le problème d'apprentissage par renforcement multi-agents
L'apprentissage par renforcement multi-agents (MARL) est un problème difficile qui nécessite non seulement d'identifier la direction de l'amélioration des politiques pour chaque agent, mais également de combiner conjointement les mises à jour des politiques des agents individuels pour améliorer les performances globales. Récemment, ce problème a été initialement résolu et certains chercheurs ont introduit la méthode d'exécution décentralisée de formation centralisée (CTDE), qui permet à l'agent d'accéder à des informations globales pendant la phase de formation. Cependant, ces méthodes ne peuvent pas couvrir toute la complexité des interactions multi-agents.
En fait, certaines de ces méthodes se sont révélées être des échecs. Afin de résoudre ce problème, quelqu’un a proposé le théorème de décomposition de dominance multi-agents. Sur cette base, les algorithmes HATRPO et HAPPO sont dérivés. Cependant, ces approches présentent des limites, qui reposent toujours sur des objectifs de maximisation soigneusement conçus.
Ces dernières années, les modèles de séquence (SM) ont fait des progrès substantiels dans le domaine du traitement du langage naturel (NLP). Par exemple, les séries GPT et BERT fonctionnent bien sur un large éventail de tâches en aval et obtiennent de bonnes performances sur des tâches de généralisation de petits échantillons.
Étant donné que les modèles de séquence s'adaptent naturellement aux caractéristiques de séquence du langage, ils peuvent être utilisés pour des tâches linguistiques, mais les méthodes de séquence ne se limitent pas aux tâches de PNL, mais constituent un modèle de base général largement applicable. Par exemple, en vision par ordinateur (CV), on peut diviser une image en sous-images et les organiser dans une séquence comme s'il s'agissait de jetons dans une tâche PNL. Les modèles récents les plus connus comme Flamingo, DALL-E, GATO, etc. ont tous l'ombre de la méthode séquence.
Avec l'émergence d'architectures de réseau telles que Transformer, la technologie de modélisation de séquence a également attiré une grande attention de la communauté RL, qui a promu une série de développements RL hors ligne basés sur l'architecture Transformer. Ces méthodes montrent un grand potentiel pour résoudre certains des problèmes de formation RL les plus fondamentaux.
Malgré le succès notable de ces méthodes, aucune n'a été conçue pour modéliser l'aspect le plus difficile (et propre à MARL) des systèmes multi-agents : les interactions entre agents. En fait, si nous donnons simplement à tous les agents une politique Transformer et les formons individuellement, cela n’est toujours pas garanti pour améliorer les performances communes de MARL. Par conséquent, bien qu’il existe un grand nombre de modèles de séquence puissants disponibles, MARL ne tire pas vraiment parti des performances des modèles de séquence.
Comment utiliser le modèle de séquence pour résoudre le problème MARL ? Des chercheurs de l'Université Jiao Tong de Shanghai, du Digital Brain Lab, de l'Université d'Oxford, etc. ont proposé une nouvelle architecture de transformateur multi-agent (MAT, Multi-Agent Transformer), qui peut transformer efficacement les problèmes MARL collaboratifs en problèmes de modèle de séquence. séquence d'observation de l'agent à la séquence d'action optimale de l'agent.
L'objectif de cet article est de construire un pont entre MARL et SM afin de débloquer les capacités de modélisation des modèles de séquence modernes pour MARL. Le cœur de MAT est l'architecture codeur-décodeur, qui utilise le théorème de décomposition des avantages multi-agents pour transformer le problème de recherche de stratégie conjointe en un processus de prise de décision séquentiel, de sorte que le problème multi-agent présente une complexité temporelle linéaire, et la plupart plus important encore, cela garantit une amélioration monotone des performances de MAT. Contrairement aux techniques précédentes telles que Decision Transformer qui nécessitent des données hors ligne pré-collectées, MAT est formé de manière stratégique en ligne par essais et erreurs en ligne à partir de l'environnement.
- Adresse papier : https://arxiv.org/pdf/2205.14953.pdf
- Page d'accueil du projet : https://sites.google.com/view/multi -agent-transformer
Pour vérifier MAT, les chercheurs ont mené des expériences approfondies sur StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation et Google Research Football benchmarks. Les résultats montrent que MAT a de meilleures performances et une meilleure efficacité des données par rapport aux bases de référence solides telles que MAPPO et HAPPO. En outre, cette étude a également prouvé que, quel que soit l'évolution du nombre d'agents, MAT est plus performant sur des tâches invisibles, mais on peut dire qu'il est un excellent apprenant sur petit échantillon.
Connaissances de base
Dans cette section, le chercheur présente d'abord la formule collaborative du problème MARL et le théorème de décomposition de dominance multi-agents, qui sont les pierres angulaires de cet article. Ensuite, ils examinent les méthodes MARL existantes liées à MAT, menant finalement à Transformer.
Comparaison du paradigme d'apprentissage multi-agent traditionnel (à gauche) et du paradigme de prise de décision en séquence multi-agent (à droite).
Formulation de problèmes
Les problèmes MARL collaboratifs sont généralement modélisés par des processus décisionnels de Markov discrets partiellement observables (Dec-POMDP) .
Théorème de décomposition de dominance multi-agents
Les agents évaluent les valeurs des actions et des observations à travers Q_π(o, a) et V_π(o), qui sont définis comme suit.
Théorème 1 (Décomposition de dominance multi-agents) : Soit i_1:n l'arrangement des agents. La formule suivante est toujours valable sans autres hypothèses.
Il est important de noter que le théorème 1 fournit une intuition sur la manière de choisir des actions d'amélioration incrémentielle.
Méthodes MARL existantes
Les chercheurs ont résumé les deux algorithmes SOTA MARL actuels, tous deux basés sur l'optimisation de politique proximale (PPO). PPO est une méthode RL connue pour sa simplicité et sa stabilité des performances.
L'optimisation des politiques proximales multi-agents (MAPPO) est la première et la plus directe méthode pour appliquer le PPO à MARL.
L'optimisation de la politique proximale d'agent hétérogène (HAPPO) est l'un des algorithmes SOTA actuels, qui peut utiliser pleinement le théorème (1) pour réaliser un apprentissage de domaine de confiance multi-agent avec une garantie d'amélioration monotone.
Modèle Transformer
Basé sur les propriétés de séquence décrites dans le théorème (1) et le principe derrière HAPPO, il est désormais intuitif d'envisager d'utiliser le modèle Transformer pour implémenter une région de confiance multi-agents apprentissage. En traitant une équipe d'agents comme une séquence, l'architecture Transformer permet de modéliser des équipes d'agents avec des nombres et des types variables tout en évitant les défauts de MAPPO/HAPPO.
Transformateur multi-agent
Afin de réaliser le paradigme de modélisation de séquence de MARL, la solution proposée par les chercheurs est le transformateur multi-agent (MAT). L'idée d'appliquer l'architecture Transformer vient du fait que l'agent observe la relation entre l'entrée de la séquence (o^i_1,..., o^i_n) et la sortie de la séquence d'action (a^i_1, . ., a^i_n) Le mappage est une tâche de modélisation de séquence similaire à la traduction automatique. Comme l'évite le théorème (1), l'action a^i_m dépend des décisions précédentes de tous les agents a^i_1:m−1.
Par conséquent, comme le montre la figure (2) ci-dessous, MAT contient un encodeur pour apprendre une représentation d'observation conjointe et un décodeur qui génère des actions pour chaque agent de manière autorégressive.
Les paramètres de l'encodeur sont notés φ, qui prend une séquence d'observations (o^i_1, . . . , o^i_n) dans un ordre arbitraire et les transmet à travers plusieurs calculs. blocs. Chaque bloc se compose d'un mécanisme d'auto-attention, d'un perceptron multicouche (MLP) et de connexions résiduelles pour empêcher la disparition des gradients et la dégradation du réseau avec l'augmentation de la profondeur. Les paramètres du décodeur
sont représentés par θ, qui transmet l'action conjointe intégrée a^i_0:m−1 , m = {1, . n} (où a^i_0 est un symbole arbitraire indiquant le début. de décodage) à la séquence de blocs décodée. Fondamentalement, chaque bloc de décodage possède un mécanisme d’auto-attention masqué. Pour entraîner le décodeur, nous minimisons l'objectif PPO recadré comme suit. Le flux de données détaillé dans
MAT est présenté dans l'animation ci-dessous.
Résultats expérimentaux
Pour évaluer si MAT répond aux attentes, les chercheurs ont effectué des expériences sur le benchmark StarCraft II Multi-Agent Challenge (SMAC) (MAPPO a des performances supérieures) et le benchmark multi-agent MuJoCo (HAPPO sur MAT a été testé avec les performances SOTA ci-dessus.
De plus, les chercheurs ont également mené des tests étendus sur MAT sur la manipulation bimanuelle des mains (Bi-DexHands) et les benchmarks Google Research Football. Le premier propose une gamme de tâches difficiles à deux mains, et le second propose une gamme de scénarios coopératifs dans un match de football.
Enfin, étant donné que le modèle Transformer montre généralement de fortes performances de généralisation sur de petits échantillons de tâches, les chercheurs pensent que MAT peut également avoir des capacités de généralisation tout aussi fortes sur des tâches MARL invisibles. Par conséquent, ils ont conçu des expériences à tir nul et à petit tir sur les tâches SMAC et MuJoCo multi-agents.
Performances sur les benchmarks MARL collaboratifs
Comme le montrent le tableau 1 et la figure 4 ci-dessous, pour les benchmarks SMAC, MuJoCo multi-agents et Bi-DexHands, MAT surpasse considérablement MAPPO et HAPPO sur presque toutes les tâches, il montre sa construction puissante capacité sur des tâches d’agents homogènes et hétérogènes. De plus, MAT atteint également de meilleures performances que MAT-Dec, ce qui indique l'importance de l'architecture du décodeur dans la conception de MAT.
De même, les chercheurs ont également obtenu des résultats de performance similaires sur le benchmark Google Research Football, comme le montre la figure 5 ci-dessous.
MAT pour l'apprentissage en quelques coups
Les résultats zéro et quelques coups pour chaque algorithme sont résumés dans les tableaux 2 et 3, où les chiffres en gras indiquent les meilleures performances.
Les chercheurs ont également fourni les performances de MAT dans les mêmes conditions de données, qui ont été formées à partir de zéro comme le groupe témoin. Comme le montre le tableau ci-dessous, MAT obtient la plupart des meilleurs résultats, ce qui démontre les solides performances de généralisation de l'apprentissage en quelques étapes de MAT.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Avec une capacité d'imitation de l'IA aussi puissante, il est vraiment impossible de l'empêcher. Le développement de l’IA a-t-il atteint ce niveau aujourd’hui ? Votre pied avant fait voler les traits de votre visage, et sur votre pied arrière, la même expression est reproduite. Regarder fixement, lever les sourcils, faire la moue, aussi exagérée que soit l'expression, tout est parfaitement imité. Augmentez la difficulté, haussez les sourcils, ouvrez plus grand les yeux, et même la forme de la bouche est tordue, et l'avatar du personnage virtuel peut parfaitement reproduire l'expression. Lorsque vous ajustez les paramètres à gauche, l'avatar virtuel à droite modifiera également ses mouvements en conséquence pour donner un gros plan de la bouche et des yeux. On ne peut pas dire que l'imitation soit exactement la même, seule l'expression est exactement la même. idem (extrême droite). La recherche provient d'institutions telles que l'Université technique de Munich, qui propose GaussianAvatars, qui

L'apprentissage par renforcement (RL) est une méthode d'apprentissage automatique qui permet à un agent d'apprendre comment se comporter dans son environnement par essais et erreurs. Les agents sont récompensés ou punis pour avoir pris des mesures qui conduisent aux résultats souhaités. Au fil du temps, l'agent apprend à prendre des mesures qui maximisent la récompense attendue. Les agents RL sont généralement formés à l'aide d'un processus de décision markovien (MDP), un cadre mathématique pour modéliser des problèmes de décision séquentielle. Le MDP se compose de quatre parties : État : un ensemble d'états possibles de l'environnement. Action : un ensemble d'actions qu'un agent peut entreprendre. Fonction de transition : fonction qui prédit la probabilité de transition vers un nouvel état en fonction de l'état et de l'action actuels. Fonction de récompense : fonction qui attribue une récompense à l'agent pour chaque conversion. L'objectif de l'agent est d'apprendre une fonction politique,

Problèmes de conception de fonctions de récompense dans l'apprentissage par renforcement Introduction L'apprentissage par renforcement est une méthode qui apprend des stratégies optimales grâce à l'interaction entre un agent et l'environnement. Dans l’apprentissage par renforcement, la conception de la fonction de récompense est cruciale pour l’effet d’apprentissage de l’agent. Cet article explorera les problèmes de conception des fonctions de récompense dans l'apprentissage par renforcement et fournira des exemples de code spécifiques. Le rôle de la fonction de récompense et de la fonction de récompense cible constituent une partie importante de l'apprentissage par renforcement et sont utilisés pour évaluer la valeur de récompense obtenue par l'agent dans un certain état. Sa conception aide à guider l'agent pour maximiser la fatigue à long terme en choisissant les actions optimales.

Adresse papier : https://arxiv.org/abs/2307.09283 Adresse code : https://github.com/THU-MIG/RepViTRepViT fonctionne bien dans l'architecture ViT mobile et présente des avantages significatifs. Ensuite, nous explorons les contributions de cette étude. Il est mentionné dans l'article que les ViT légers fonctionnent généralement mieux que les CNN légers sur les tâches visuelles, principalement en raison de leur module d'auto-attention multi-têtes (MSHA) qui permet au modèle d'apprendre des représentations globales. Cependant, les différences architecturales entre les ViT légers et les CNN légers n'ont pas été entièrement étudiées. Dans cette étude, les auteurs ont intégré des ViT légers dans le système efficace.

SpringDataJPA est basé sur l'architecture JPA et interagit avec la base de données via le mappage, l'ORM et la gestion des transactions. Son référentiel fournit des opérations CRUD et les requêtes dérivées simplifient l'accès à la base de données. De plus, il utilise le chargement paresseux pour récupérer les données uniquement lorsque cela est nécessaire, améliorant ainsi les performances.

Le magazine "ComputerWorld" a écrit un article disant que "la programmation disparaîtra d'ici 1960" parce qu'IBM a développé un nouveau langage FORTRAN, qui permet aux ingénieurs d'écrire les formules mathématiques dont ils ont besoin, puis de les soumettre à l'ordinateur pour que la programmation se termine. Picture Quelques années plus tard, nous avons entendu un nouveau dicton : tout homme d'affaires peut utiliser des termes commerciaux pour décrire ses problèmes et dire à l'ordinateur quoi faire. Grâce à ce langage de programmation appelé COBOL, les entreprises n'ont plus besoin de programmeurs. Plus tard, il est dit qu'IBM a développé un nouveau langage de programmation appelé RPG qui permet aux employés de remplir des formulaires et de générer des rapports, de sorte que la plupart des besoins de programmation de l'entreprise puissent être satisfaits grâce à lui.

Cet article est reproduit avec la permission du compte public Autonomous Driving Heart. Veuillez contacter la source pour la réimpression. Titre original : MotionLM : Multi-Agent Motion Forecasting as Language Modeling Lien vers l'article : https://arxiv.org/pdf/2309.16534.pdf Affiliation de l'auteur : Conférence Waymo : ICCV2023 Idée d'article : Pour la planification de la sécurité des véhicules autonomes, prédisez de manière fiable le comportement futur des agents routiers est cruciale. Cette étude représente les trajectoires continues sous forme de séquences de jetons de mouvement discrets et traite la prédiction de mouvement multi-agents comme une tâche de modélisation du langage. Le modèle que nous proposons, MotionLM, présente les avantages suivants :

La courbe d'apprentissage de l'architecture du framework Go dépend de la familiarité avec le langage Go et le développement back-end ainsi que de la complexité du framework choisi : une bonne compréhension des bases du langage Go. Il est utile d’avoir une expérience en développement back-end. Les cadres qui diffèrent en complexité entraînent des différences dans les courbes d'apprentissage.
