En s'entraînant simplement à l'aide de 7 500 données de trajectoire, ce robot peut démontrer 12 compétences opérationnelles différentes dans 38 tâches, non seulement limitées au prélèvement et à la poussée, mais incluant également la manipulation conjointe d'objets et le repositionnement d'objets. De plus, ces compétences peuvent être appliquées à des centaines de situations inconnues différentes, notamment des objets inconnus, des tâches inconnues et même des environnements de cuisine complètement inconnus. Ce genre de robot est vraiment cool !
Créer un robot capable de manipuler des objets arbitraires dans divers environnements est un objectif insaisissable depuis des décennies. L'une des raisons est le manque d'ensembles de données robotiques diversifiés pour former de tels agents, ainsi que le manque d'agents polyvalents capables de générer de tels ensembles de données
Pour surmonter ce problème, des chercheurs de l'Université Carnegie Mellon et Meta L'auteur de AI a passé deux ans à développer un RoboAgent universel. Leur objectif principal est de développer un paradigme efficace capable de former un agent général capable de compétences multiples avec des données limitées, et de généraliser ces compétences à diverses situations inconnues
RoboAgent Composé de manière modulaire de :
Pour construire un agent robot qui peut être généralisé dans de nombreuses situations différentes, vous avez d'abord besoin d'un ensemble de données avec une large couverture. Étant donné que les efforts de mise à l'échelle sont souvent utiles (par exemple, RT-1 a démontré des résultats sur environ 130 000 trajectoires de robots), il est nécessaire de comprendre les principes d'efficacité et de généralisation des systèmes d'apprentissage dans le contexte d'ensembles de données limités, souvent de faible niveau de données. situations. Conduira à un surapprentissage. Par conséquent, l’objectif principal des auteurs est de développer un paradigme puissant capable d’apprendre des stratégies générales généralisables dans des situations de faibles données tout en évitant les problèmes de surapprentissage.
Le panorama des compétences et des données dans l'apprentissage des robots est un domaine important. Dans l’apprentissage robotique, les compétences font référence aux capacités qu’un robot acquiert grâce à l’apprentissage et à la formation et qui peuvent être utilisées pour effectuer des tâches spécifiques. Le développement de ces compétences ne peut être dissocié du support de grandes quantités de données. Les données constituent la base de l’apprentissage des robots. En analysant et en traitant les données, les robots peuvent en tirer des leçons et améliorer leurs compétences. Les compétences et les données sont donc deux aspects indispensables de l’apprentissage des robots. Ce n'est qu'en apprenant et en acquérant continuellement de nouvelles données que les robots pourront continuer à améliorer leurs niveaux de compétences et faire preuve d'une intelligence et d'une efficacité supérieures dans diverses tâches
L'ensemble de données utilisé pour entraîner RoboAgent, RoboSet (MT-ACT), ne comprend que 7 500 trajectoires (18 fois moins que les données de RT-1). Cet ensemble de données est collecté au préalable et reste figé. L'ensemble de données se compose de trajectoires de haute qualité collectées lors de téléopérations humaines à l'aide de matériel robotique standard (robot Franka-Emika équipé de la pince Robotiq) pour plusieurs tâches et scénarios. RoboSet (MT-ACT) couvre peu 12 compétences uniques dans plusieurs contextes différents. Les données ont été collectées en divisant les activités quotidiennes de cuisine (par exemple préparer le thé, cuisiner) en différentes sous-tâches, chacune représentant une compétence unique. L'ensemble de données comprend des compétences communes de sélection et de placement, mais également des compétences riches en contacts telles que l'essuyage, l'operculage et des compétences impliquant des objets articulés. Contenu réécrit : L'ensemble de données utilisé pour entraîner RoboAgent, RoboSet (MT-ACT), ne comprend que 7 500 trajectoires (18 fois moins que les données de RT-1). Cet ensemble de données est collecté au préalable et reste figé. L'ensemble de données se compose de trajectoires de haute qualité collectées lors de téléopérations humaines à l'aide de matériel robotique standard (robot Franka-Emika équipé de la pince Robotiq) pour plusieurs tâches et scénarios. RoboSet (MT-ACT) couvre peu 12 compétences uniques dans plusieurs contextes différents. Les données ont été collectées en divisant les activités quotidiennes de cuisine (par exemple préparer le thé, cuisiner) en différentes sous-tâches, chacune représentant une compétence unique. L'ensemble de données comprend des compétences communes de sélection et de placement, mais également des compétences riches en contacts telles que l'essuyage, le bouchage et des compétences impliquant des objets articulés. apprend des stratégies générales dans des situations de faibles données sur la base de deux informations clés. Il utilise la connaissance préalable du modèle de base pour éviter l'effondrement des modes et adopte une représentation stratégique nouvelle et efficace pour pouvoir ingérer des données hautement multimodales
Le contenu qui doit être réécrit est : 1. Amélioration sémantique : RoboAgent En améliorant sémantiquement RoboSet (MT-ACT), une connaissance préalable du monde à partir du modèle de base existant y est injectée. L'ensemble de données résultant combine l'expérience du robot avec une connaissance préalable du monde sans coûts humains/robot supplémentaires. Utilisez SAM pour segmenter les objets cibles et les améliorer sémantiquement en termes de changements de forme, de couleur et de texture. Contenu réécrit : 1. Amélioration sémantique : RoboAgent injecte les connaissances mondiales antérieures du modèle de base existant dans RoboSet (MT-ACT) en l'améliorant sémantiquement. De cette manière, l'expérience du robot et sa connaissance préalable du monde peuvent être combinées sans coûts humains/robot supplémentaires. Utilisez SAM pour segmenter les objets cibles et effectuer une amélioration sémantique en termes de changements de forme, de couleur et de texture
. Résultats expérimentaux
L'efficacité des échantillons de RoboAgent est supérieure à celle des méthodes existantes
RoboAgent excelle à plusieurs niveaux d'abstraction
La figure suivante montre les résultats des méthodes de test de l'auteur à différents niveaux de généralisation. Dans le même temps, le niveau de généralisation est également démontré par la visualisation, où L1 représente les changements de pose des objets, L2 représente divers arrière-plans de bureau et facteurs de distraction, et L3 représente de nouvelles combinaisons compétence-objet. Ensuite, les auteurs montrent comment chaque méthode fonctionne à ces niveaux de généralisation. Dans des études d'évaluation rigoureuses, MT-ACT a obtenu des résultats nettement meilleurs que les autres méthodes, en particulier au niveau de généralisation plus difficile (L3). d'amélioration sémantique dans une activité de 5 compétences. Comme le montre la figure ci-dessous, à mesure que les données augmentent (c'est-à-dire que le nombre d'améliorations par image augmente), les performances s'améliorent considérablement à tous les niveaux de généralisation. Il est particulièrement intéressant de noter que dans la tâche la plus difficile (généralisation L3), l'amélioration des performances est plus évidente
RoboAgent est capable de démontrer ses compétences dans une variété d'activités différentes
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!