Précédemment, nous avons introduit l'application de méthodes de modélisation de séquence basées sur le modèle de transformateur et de diffusion dans l'apprentissage par renforcement, en particulier dans le domaine du contrôle continu hors ligne. Parmi eux, Trajectory Transformer (TT) et Diffusser sont des algorithmes de planification basés sur des modèles. Ils montrent une prédiction de trajectoire de très haute précision et une bonne flexibilité, mais le délai de prise de décision est relativement élevé. En particulier, TT discrétise chaque dimension indépendamment sous forme de symbole dans la séquence, ce qui rend la séquence entière très longue, et le temps de génération de séquence augmentera rapidement à mesure que les dimensions des états et des actions augmentent.
Afin de permettre au modèle de génération de trajectoire d'atteindre une vitesse de prise de décision de niveau pratique, nous avons lancé le projet de génération de trajectoire et de prise de décision efficaces en parallèle avec Diffusser (qui se chevauchent mais probablement plus tard). Notre première pensée est d'utiliser Transformateur + Mélange de Gaussien dans un espace continu au lieu d'une distribution discrète pour s'adapter à l'ensemble de la distribution de trajectoire. Bien que des problèmes de mise en œuvre ne soient pas exclus, nous n’avons pas pu obtenir un modèle de génération relativement stable avec cette approche. Ensuite, nous avons essayé Variational Autoencoder (VAE) et réalisé quelques avancées. Cependant, la précision de reconstruction du VAE n’est pas particulièrement idéale, ce qui rend les performances du contrôle en aval très différentes de celles du TT. Après plusieurs séries d'itérations, nous avons finalement sélectionné VQ-VAE comme modèle de base pour la génération de trajectoires, et avons finalement obtenu un nouvel algorithme capable d'échantillonner et de planifier efficacement, et qui fonctionne bien mieux que les autres méthodes basées sur des modèles sur les tâches de contrôle de grande dimension. Nous avons appelé Trajectory Autoencoding Planner (TAP).
Sous un seul GPU, TAP peut facilement effectuer une prise de décision en ligne avec une efficacité de prise de décision de 20 Hz. Dans la tâche D4RL de faible dimension, le délai de prise de décision. ne représente qu'environ 1% de TT. Plus important encore, avec l'augmentation du statut de la tâche et de la dimension d'action D, le délai de prise de décision théorique de TT augmentera avec le cube , Diffusser croîtra théoriquement de manière linéaire , alors que la vitesse de prise de décision de TAP ne l'est pas. affecté par la dimension . En termes de performances décisionnelles de l'agent, à mesure que la dimension d'action augmente, les performances de TAP s'améliorent par rapport aux autres méthodes, et l'amélioration par rapport aux méthodes basées sur un modèle (telles que TT) est particulièrement évidente.
L'importance du délai de prise de décision pour les tâches de prise de décision et de contrôle est très évidente. Bien que les algorithmes comme MuZero fonctionnent bien dans les environnements de simulation, lorsqu'ils sont confrontés à des tâches qui nécessitent une réponse rapide et en temps réel dans le monde réel, la décision est prise. - des délais trop importants deviendront une difficulté majeure dans son déploiement. De plus, dans le cadre d'un environnement de simulation, la lenteur de la prise de décision entraînera également des coûts de test élevés pour des algorithmes similaires, et le coût de leur utilisation dans l'apprentissage par renforcement en ligne sera également relativement élevé.
De plus, nous pensons que permettre à la méthode de modélisation par génération de séquences d'être étendue en douceur à des tâches de dimensions plus élevées est également une contribution très importante de TAP. Dans le monde réel, la plupart des problèmes que nous espérons pouvoir résoudre par l’apprentissage par renforcement ont en réalité des dimensions d’état et d’action plus élevées. Par exemple, pour la conduite autonome, il est peu probable que les entrées des différents capteurs soient inférieures à 100, même après un prétraitement à différents niveaux de perception. La commande complexe d'un robot présente souvent également un espace d'action élevé. Les degrés de liberté de toutes les articulations humaines sont d'environ 240, ce qui correspond à un espace d'action d'au moins 240 dimensions. Un robot aussi flexible qu'un humain nécessite également une action de même dimension. espace.
Quatre ensembles de tâches aux dimensions progressivement croissantes
Changements dans la latence de décision et les performances relatives du modèle à mesure que les dimensions de la tâche augmentent
Tout d'abord, entraînez la partie auto-encodeurs du VQ-VAE, qui est la même que le VQ-VAE d'origine. Deux différents . La première différence est que l'encodeur et le décodeur sont tous deux basés sur Causal Transformer au lieu de CNN. La deuxième différence est que nous apprenons une distribution de probabilité conditionnelle et que les trajectoires possibles modélisées doivent partir de l'état actuel . L'auto-encodeur apprend une cartographie bidirectionnelle entre les trajectoires à partir de l'état actuel et les codes latents. Ces codes latents sont classés par ordre chronologique comme la trajectoire originale, et chaque code latent sera mappé à la trajectoire réelle des étapes. Parce que nous utilisons Causal Transformer, les codes latents avec un classement temporel inférieur (tels que ) ne transmettront pas d'informations aux séquences de rang supérieur (telles que ), ce qui permet à TAP de transmettre les N premiers codes latents Décode partiellement une trajectoire de longueur NL, ce qui est très utile lors de son utilisation pour une planification ultérieure.
Ensuite, nous utiliserons un autre transformateur de style GPT-2 pour modéliser la distribution de probabilité conditionnelle de ces codes latents :
Lors de la prise de décisions, nous pouvons transmettre les variables latentes Optimisez dans l'espace pour trouver la meilleure trajectoire future, plutôt que d'optimiser dans l'espace d'action d'origine. Une méthode très simple mais efficace consiste à échantillonner directement à partir de la distribution de codage latent, puis à sélectionner la trajectoire la plus performante, comme indiqué ci-dessous :
Le score cible référencé lors de la sélection de la trajectoire optimale (score objectif) sera considérer à la fois le retour attendu de la trajectoire (récompense plus la valorisation de la dernière étape) et la faisabilité ou probabilité de la trajectoire elle-même. Comme la formule suivante, où est un nombre bien supérieur au rendement le plus élevé. Lorsque la probabilité d'une trajectoire est supérieure à un seuil , le critère pour juger de cette trajectoire sera son rendement attendu (surligné en rouge). ), sinon cette La probabilité de la trajectoire elle-même sera la partie dominante (surlignée en bleu). Autrement dit, TAP sélectionnera celle ayant le rendement attendu le plus élevé parmi les trajectoires supérieures au seuil.
Bien que le nombre d'échantillons soit suffisamment grand, l'échantillonnage direct peut également être très efficace lorsque la séquence de prédiction est courte, sous réserve de limiter le nombre d'échantillons et le temps total requis pour la planification, l'utilisation d'un meilleur optimiseur apportera toujours de meilleurs résultats. résultats. Bonnes performances. Les deux animations suivantes montrent la différence entre les trajectoires générées par l'échantillonnage direct et la recherche de faisceau lors de la prévision de 144 pas dans le futur. Ces trajectoires sont triées selon le score cible final. Les trajectoires situées en haut de la couche supérieure ont des scores plus élevés, et les trajectoires empilées derrière elles ont des scores plus faibles. De plus, les trajectoires avec des scores faibles auront également une transparence moindre.
Sur l'image, nous pouvons voir que de nombreuses dynamiques des trajectoires générées par l'échantillonnage direct sont instables et ne sont pas conformes aux lois physiques. En particulier, les trajectoires plus légères en arrière-plan sont presque flottantes. Ce sont toutes des trajectoires avec une probabilité relativement faible et seront éliminées lors de la sélection du plan final. La trajectoire au premier rang semble plus dynamique, mais la performance correspondante est relativement mauvaise, et il semble qu'elle va baisser. En revanche, la recherche de faisceau prendra en compte dynamiquement la probabilité de la trajectoire lors de l'expansion de la prochaine variable cachée, de sorte que les branches avec une très faible probabilité seront terminées plus tôt, de sorte que les trajectoires candidates générées se concentreront sur les meilleures performances et possibilités. sont autour. E Échantillonnage direct des résultats expérimentaux d'aBeam Search
sans évaluation de niveau supérieur ni amélioration stratégique, s'appuyant uniquement sur les avantages de la précision prédictive, sur des tâches de faible dimension, TAP a atteint des performances comparables à d'autres apprentissages par renforcement hors ligne :
contrôle de la locomotion dans une salle de sport
Sur les tâches de grande dimension, TAP a réalisé bien plus que les autres méthodes basées sur les performances des méthodes basées sur un modèle surpasse également les méthodes courantes sans modèle. Il y a en fait deux questions ouvertes auxquelles on n’a pas encore répondu. La première est la raison pour laquelle les méthodes précédentes basées sur un modèle ont donné de mauvais résultats dans ces tâches d'apprentissage par renforcement hors ligne de grande dimension, et la seconde est la raison pour laquelle TAP peut surpasser de nombreuses méthodes sans modèle sur ces tâches. L’une de nos hypothèses est qu’il est très difficile d’optimiser une politique sur un problème de grande dimension tout en prenant en compte le fait d’éviter que la politique ne s’écarte trop de la politique comportementale. Lorsqu’un modèle est appris, des erreurs dans le modèle lui-même peuvent amplifier cette difficulté. TAP déplace l'espace d'optimisation vers un petit espace variable caché discret, ce qui rend l'ensemble du processus d'optimisation plus robuste.
Contrôle manuel robotique adroit
Quelques études de tranches
Pour de nombreuses conceptions dans TAP, nous avons également réalisé une série d'études de tranches sur la tâche de contrôle de la locomotion en salle de sport. Le premier est le nombre d'étapes de la trajectoire auxquelles correspond réellement chaque code latent (histogramme jaune). Les faits ont prouvé que laisser une variable latente correspondre à une transition d'état en plusieurs étapes présente non seulement des avantages informatiques, mais améliore également le modèle final. performance. En ajustant le seuil qui déclenche des pénalités de trajectoire de faible probabilité dans la fonction objectif de recherche(histogramme rouge), nous avons également confirmé que les deux parties de la fonction objectif sont effectivement utiles aux performances finales du modèle. Un autre point est que le nombre d'étapes planifiées dans le futur (horizon de planification, histogramme bleu) a peu d'impact sur les performances du modèle dans la recherche post-déploiement, même si une seule variable cachée est développée, les performances de l'agent final ne seront que réduites. de 10 % environ.
Enfin nous avons testé les performances du TAP sous échantillonnage direct (histogramme vert). Notez que le nombre d'échantillons échantillonnés ici est de 2 048, alors que le nombre dans l'animation ci-dessus n'est que de 256, et que l'animation ci-dessus génère un plan pour les 144 prochaines étapes, mais en fait notre modèle de base dirige la planification de 15 étapes. La conclusion est que l'échantillonnage direct peut atteindre des performances similaires à celles de la recherche par faisceau lorsque le nombre d'échantillons est suffisant et que le trajet prévu n'est pas long. Mais il s’agit d’un cas d’échantillonnage à partir de la distribution conditionnelle apprise des variables latentes. Si nous échantillonnons directement avec une probabilité égale à partir du codage latent, ce sera finalement bien pire que le modèle TAP complet.
Résultats de l'étude des tranches
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!