L'apprentissage robotique multitâche est d'une grande importance pour faire face à des scénarios divers et complexes. Cependant, les méthodes actuelles sont limitées par des problèmes de performances et des difficultés de collecte d'ensembles de données de formation.
Cet article propose GeRM (Generic Robot Model), dans lequel les chercheurs exploitent l'apprentissage par renforcement hors ligne pour optimiser les stratégies d'utilisation des données, en apprenant à partir de démonstrations et de données sous-optimales, transcendant ainsi les limites des démonstrations humaines.
Auteurs : Song Wenxuan, Zhao Han, Ding Pengxiang, Cui Can, Lu Shangke, Fan Yaning, Wang Donglin
Auteur : West Lake University, Zhejiang University
Adresse papier : https : //arxiv.org/abs/2403.13358
Adresse du projet : https://songwxuan.github.io/GeRM/
Ensuite, un modèle vision-langage-action basé sur Transformer est utilisé pour traiter le multimodal. actions d’entrée et de sortie.
En introduisant une structure hybride experte, GeRM atteint une vitesse d'inférence plus rapide et une capacité globale de modèle plus élevée, résolvant ainsi le problème du volume limité des paramètres d'apprentissage par renforcement, améliorant les performances du modèle dans l'apprentissage multitâche, tout en contrôlant le calcul du coût.
Il est prouvé à travers une série d'expériences que GeRM surpasse les autres méthodes dans toutes les tâches, tout en vérifiant son efficacité dans les processus de formation et d'inférence.
De plus, les chercheurs ont également fourni l'ensemble de données QUARD-Auto pour soutenir la formation. La construction de cet ensemble de données suit le nouveau paradigme de collecte d'automatisation des données proposé dans l'article. Cette méthode peut réduire le coût de collecte des données des robots. et promouvoir l’apprentissage multitâche.
Principales contributions :
1 Proposé pour la première fois un modèle expert hybride pour l'apprentissage par renforcement à quatre pattes, qui est formé sur des données de qualité mixte et a le potentiel d'apprendre des stratégies optimales.
2. Par rapport aux méthodes existantes, GeRM affiche un taux de réussite plus élevé lorsqu'il n'active que la moitié de ses propres paramètres, active les capacités d'émergence et démontre une meilleure utilisation des données pendant le processus de formation.
3. Proposition d'un paradigme pour la collecte entièrement automatique d'ensembles de données de robots et collecte d'un ensemble de données open source à grande échelle.
La structure du réseau GeRM est illustrée à la figure 1. L'entrée visuo-linguistique comprenant les données de démonstration et les données d'échec est entrée dans le décodeur de la structure experte hybride à 8 couches après être passée respectivement par l'encodeur et le tokenizer, et génère des jetons d'action, puis convertis en données d'action discrètes du robot et déployés sur le robot via la stratégie sous-jacente. De plus, nous utilisons l'apprentissage par renforcement pour la formation.
Figure 1 Diagramme de structure du réseau GeRM
GeRM Decoder est un modèle d'architecture Transformer Decoder, dans lequel le réseau à action directe (FFN) est sélectionné parmi un ensemble de 8 réseaux experts différents.
A chaque couche, pour chaque jeton, le réseau fermé sélectionne deux experts pour traiter le jeton et combiner leurs sorties de manière pondérée.
Différents experts sont bons dans différentes tâches/différentes dimensions d'action pour résoudre des problèmes dans différents scénarios, apprenant ainsi un modèle commun pour plusieurs tâches. Cette architecture augmente la quantité de paramètres de réseau tout en gardant le coût de calcul essentiellement inchangé.
Figure 2 Schéma de structure du décodeur
Nous proposons un paradigme automatique pour collecter des données multimodales de robots. De cette manière, nous avons construit QUARD-Auto, un ensemble de données robotiques à grande échelle contenant une combinaison de données de démonstration et de données sous-optimales. Il comprend 5 tâches et 99 sous-tâches, avec un total de 257 000 trajectoires. Nous allons ouvrir la source pour promouvoir le développement de la communauté robotique.
Tableau 1 Introduction à l'ensemble de données
Figure 3 Statistiques sur le volume de données
Nous avons mené une série complète et robuste d'expériences couvrant les 99 sous-tâches, dont chacune a été soigneusement testée sur 400 trajectoires.
Comme le montre le tableau 1, GeRM a le taux de réussite le plus élevé parmi toutes les tâches. Comparé au RT-1 et à d’autres variantes de GeRM, il apprend efficacement à partir de données de qualité mixte, surpasse les autres méthodes et présente des capacités supérieures dans plusieurs tâches. Dans le même temps, le module MoE équilibre le coût et les performances de calcul en activant certains paramètres lors de l'inférence.
Tableau 2 Expérience de comparaison multi-tâches
GeRM montre une efficacité de formation louable. Comparé à d'autres méthodes, GeRM atteint des pertes extrêmement faibles et un taux de réussite élevé avec seulement quelques lots, soulignant la capacité de GeRM à optimiser les stratégies d'utilisation des données.
Figure 4 Taux de réussite/Courbe de changement de perte
GeRM a démontré des capacités émergentes en matière de planification dynamique de parcours adaptatifs. Comme le montre la vidéo, le robot quadrupède a un champ de vision limité dans la position initiale et il est difficile de déterminer la direction du mouvement. Pour éviter l’obstacle, il choisit au hasard de tourner à gauche.
Par la suite, lorsqu'il rencontre une entrée visuelle erronée, le robot effectue une réorientation drastique pour s'aligner sur la bonne cible en dehors du champ de vision d'origine. Il continue ensuite vers sa destination, accomplissant finalement sa mission.
Il convient de noter que de telles trajectoires ne relèvent pas de la distribution de notre ensemble de données d'entraînement. Cela démontre les capacités émergentes de GeRM en matière de planification dynamique et adaptative de trajectoires dans le contexte d'une scène, c'est-à-dire sa capacité à prendre des décisions basées sur la perception visuelle, à planifier les trajectoires futures et à modifier les prochaines étapes si nécessaire.
Figure 5 Capacité émergente
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!