Ces dernières années, de nombreux développements intéressants ont émergé dans le domaine de la robotique, comme les chiens robots qui peuvent danser et jouer au football, et les robots bipèdes qui font bouger les choses. Généralement, ces robots s'appuient sur la génération de stratégies de contrôle basées sur des entrées sensorielles. Bien que cette approche évite les défis liés au développement de modules d’estimation d’état, à la modélisation des propriétés des objets et au réglage des gains du contrôleur, elle nécessite une expertise significative dans le domaine. Même avec de nombreux progrès, les goulots d’étranglement en matière d’apprentissage font qu’il est difficile pour les robots d’effectuer des tâches arbitraires et d’atteindre des objectifs généraux.
Pour comprendre la clé de l'apprentissage des robots, une question centrale est la suivante : comment collectons-nous les données d'entraînement des robots ? Une approche consiste à collecter des données sur le robot grâce à une stratégie de collecte de données auto-supervisée. Bien que cette approche soit relativement robuste, elle nécessite souvent des milliers d’heures d’interaction de données avec le monde réel, même pour des tâches opérationnelles relativement simples. L'autre consiste à s'entraîner sur des données simulées puis à transférer vers des robots réels (Sim2Real). Cela permet aux robots d’apprendre des comportements robotiques complexes de plusieurs ordres de grandeur plus rapidement. Cependant, la mise en place d'un environnement robotique simulé et la spécification des paramètres du simulateur nécessitent souvent une expertise approfondie du domaine.
En fait, il existe une troisième méthode. Pour collecter des données de formation, vous pouvez également demander à des enseignants humains de faire des démonstrations, puis entraîner le robot à imiter rapidement des démonstrations humaines. Cette approche d’imitation a récemment montré un grand potentiel dans une variété de problèmes opérationnels difficiles. Cependant, la plupart de ces travaux souffrent d’une limitation fondamentale : il est difficile de collecter des données de démonstration de haute qualité pour les robots.
Sur la base des problèmes ci-dessus, des chercheurs de l'Université de New York et de Meta AI ont proposé HOLO-DEX, un nouveau cadre pour collecter des données de démonstration et entraîner des robots adroits. Il utilise un casque VR (comme le Quest 2) pour placer des enseignants humains dans un monde virtuel immersif. Dans ce monde virtuel, les enseignants peuvent voir ce que le robot « voit » à travers les yeux du robot et contrôler le manipulateur Allegro via des détecteurs de pose intégrés.
Cela ressemble à un humain apprenant au robot à effectuer des actions "étape par étape" :
HOLODEX permet aux humains de fournir de manière transparente des données de démonstration de haute qualité au robot grâce à un système de retour d'observation à faible latence. . Il présente les trois avantages suivants :
Lien papier : https://arxiv.org/pdf/2210.06463.pdf
Lien du projet : https://holo-dex.github.io/
Lien du code : https://github.com/SridharPandian/Holo-Dex
Pour évaluer les performances de HOLO-DEX, l'étude a mené des expériences sur six tâches nécessitant une opération adroite, y compris des objets portatifs, dévisser les bouchons des bouteilles. , etc. d'une seule main. L'étude a révélé que les enseignants humains utilisant HOLO-DEX étaient 1,8 fois plus rapides que les travaux antérieurs sur la téléopération à image unique (téléopération). Sur 4/6 tâches, le taux de réussite de la stratégie d'apprentissage HOLO-DEX dépasse les 90%. De plus, l’étude a révélé que les stratégies adroites apprises grâce à HOLO-DEX peuvent se généraliser à de nouveaux objets cibles invisibles.
Dans l'ensemble, les contributions de cette étude comprennent :
De plus, l'API de réalité mixte, les démonstrations de collections de recherche et le code de formation lié à HOLO-DEX ont été open source : https://holo-dex.github.io/
Comme le montre la figure 1 ci-dessous, HOLO-DEX fonctionne en deux étapes. Dans la première phase, un enseignant humain utilise un casque de réalité virtuelle (VR) pour faire une démonstration au robot. Cette étape comprend la création d'un monde virtuel pour l'enseignement, l'estimation de la posture de la main de l'enseignant, le déplacement de la posture de la main de l'enseignant vers la main du robot et enfin le contrôle de la main du robot. Après avoir collecté quelques démonstrations dans la première phase, la deuxième phase de HOLO-DEX apprend des stratégies visuelles pour résoudre les tâches démontrées.
L'étude a placé des enseignants humains dans un monde virtuel à l'aide d'un casque Meta Quest 2 VR avec une résolution de 1832 × 1920 et un taux de rafraîchissement de 72 Hz. La version de base du casque coûte 399 $ et est relativement légère (503 grammes), ce qui rend les présentations plus faciles et plus confortables pour les enseignants. De plus, l'interface API de Quest 2 permet la création de mondes de réalité mixte personnalisés qui visualisent des systèmes robotiques ainsi que des panneaux de diagnostic en VR.
Par rapport aux travaux antérieurs sur la téléopération adroite, l'utilisation de casques VR présente trois avantages dans l'estimation des poses des mains pour les enseignants humains. Premièrement, puisque Quest 2 utilise 4 caméras monochromes, son estimateur de gestes est beaucoup plus puissant que l'estimateur à caméra unique. Deuxièmement, étant donné que les caméras sont étalonnées en interne, elles ne nécessitent pas les procédures d’étalonnage spécialisées requises dans les précédents cadres de téléopération multi-caméras. Troisièmement, puisque l’estimateur de pose de la main est intégré à l’appareil, il est capable de transmettre des poses en temps réel à 72 Hz. Des recherches antérieures ont souligné qu'un défi majeur dans la téléopération adroite consiste à acquérir des postures de main avec une précision et une fréquence élevées. HOLO-DEX simplifie considérablement ce problème en utilisant un casque VR de qualité commerciale.
Ensuite, la pose de la main de l'enseignant extraite de la réalité virtuelle doit être reciblée sur la main du robot. Il s'agit d'abord de calculer les angles de chaque articulation de la main de l'enseignant, puis une méthode de réorientation directe consiste à « commander » aux articulations du robot de se déplacer vers les angles correspondants. Cette méthode a fonctionné pour tous les doigts de l'étude, à l'exception du pouce, mais la forme de la main robotique Allegro ne correspond pas exactement à celle des humains, donc la méthode ne fonctionne pas entièrement avec le pouce.
Pour résoudre ce problème, cette étude mappe les coordonnées spatiales de la pointe du pouce de l'enseignant à la pointe du pouce du robot, puis calcule l'angle de l'articulation du pouce grâce à un solveur cinématique inverse. Il convient de noter que puisque le manipulateur Allegro n’a pas de petit doigt, l’étude a ignoré l’angle du petit doigt de l’enseignant.
L'ensemble du processus de redirection de posture ne nécessite aucun calibrage ni ajustement spécifique à l'enseignant pour collecter des démos. Mais l'étude a révélé que la redirection du pouce pourrait être améliorée en trouvant une cartographie spécifique entre le pouce de l'enseignant et celui du robot. L’ensemble du processus est peu coûteux en termes de calcul et peut transmettre la pose souhaitée de la main du robot à 60 Hz.
Allegro Hand effectue un contrôle asynchrone via le cadre de communication ROS. Compte tenu des positions des articulations des mains du robot calculées par le programme de réorientation, cette étude utilise un contrôleur PD pour produire le couple requis à 300 Hz. Pour réduire l'erreur en régime permanent, cette étude utilise un module de compensation gravitationnelle pour calculer le couple de décalage. Lors des tests de latence, l'étude a révélé qu'une latence inférieure à 100 millisecondes était obtenue lorsque le casque VR était sur le même réseau local que la main robotique. Une faible latence et de faibles taux d’erreur sont essentiels pour HOLO-DEX, car ils permettent une téléopération intuitive de la main robotique par un enseignant humain.
Lorsque les enseignants humains contrôlent la main du robot, ils peuvent voir les changements du robot en temps réel (60 Hz). Cela permet à l'enseignant de corriger les erreurs d'exécution de la main du robot. Au cours du processus d'enseignement, l'étude a enregistré les données d'observation de trois caméras RGBD et les informations de mouvement du robot à une fréquence de 5 Hz. L'étude a dû réduire la fréquence d'enregistrement en raison de l'empreinte de données importante et de la bande passante associée requise pour enregistrer plusieurs caméras.
Après la collecte des données, HOLO-DEX doit entraîner la stratégie visuelle sur les données. Cette étude adopte l'algorithme d'imitation du plus proche voisin (INN) pour l'apprentissage. Dans des travaux antérieurs, il a été démontré que INN produisait des politiques étatiques intelligentes sur Allegro. HOLO-DEX va plus loin et démontre que ces stratégies visuelles se généralisent à de nouveaux objets dans une variété de tâches de manipulation adroites.
Afin de choisir l'algorithme d'apprentissage pour obtenir des intégrations de faible dimension, cette étude a essayé plusieurs algorithmes d'apprentissage auto-supervisés de pointe et a constaté que BYOL fournissait les meilleurs résultats de voisin le plus proche, donc BYOL a été sélectionné comme la méthode d’apprentissage auto-supervisée de base.
Le tableau 1 ci-dessous montre que HOLO-DEX collecte les démos réussies 1,8 fois plus rapidement que DIME. Pour 3 tâches sur 6 nécessitant un mouvement 3D précis, l’étude a révélé que la téléopération sur une seule image n’était même pas suffisante pour collecter une seule démonstration.
Cette étude a examiné la performance de diverses stratégies d'apprentissage par imitation sur des tâches de dextérité. Les taux de réussite de chaque tâche selon différentes stratégies sont présentés dans le tableau 2 ci-dessous.
Étant donné que les stratégies proposées dans cette étude sont basées sur la vision et ne nécessitent pas d'estimation explicite de l'état de l'objet, elles sont compatibles avec les objets invisibles en formation. L'étude a évalué ses stratégies de manipulation manuelle qui ont été entraînées pour effectuer des tâches de rotation de plan, de retournement d'objet et de rotation de canettes sur des objets ayant diverses apparences visuelles et géométries, comme le montre la figure 5 ci-dessous.
De plus, l'étude a également testé les performances de HOLO-DEX sur des ensembles de données de différentes tailles pour différentes tâches, et les résultats de visualisation sont présentés dans la figure ci-dessous.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!