Les grands modèles à contexte long aident les robots à comprendre le monde.
Récemment, Google DeepMind a soudainement commencé à montrer ses robots.
Ce robot peut facilement suivre les instructions humaines, effectuer une navigation visuelle et utiliser le bon sens pour trouver des chemins dans un espace tridimensionnel. Il utilise le Gemini 1.5 Pro, un grand modèle récemment sorti par Google. Lorsqu'ils utilisent des modèles d'IA traditionnels, les robots ont souvent des difficultés à se souvenir des détails environnementaux en raison des limitations de longueur du contexte, mais la longueur de contexte de jeton de plusieurs millions de niveaux de Gemini 1.5 Pro offre aux robots de puissantes capacités de mémoire environnementale. Dans un scénario de bureau réel, les ingénieurs guident le robot à travers des zones spécifiques et marquent les emplacements clés qui doivent être rappelés, tels que « le bureau de Lewis » ou la « zone de bureau temporaire ». Après avoir bouclé un cercle, si quelqu'un le demande, le robot peut l'emmener à ces endroits en fonction de ces souvenirs. Même si vous ne pouvez pas indiquer l'endroit précis où vous souhaitez aller, mais simplement exprimer votre objectif, le robot peut vous emmener à l'endroit correspondant. C’est la manifestation spécifique de la capacité de raisonnement des grands modèles chez les robots. Tout cela est indissociable d'une stratégie de navigation appelée Mobility VLA.
- Titre de l'article : Mobility VLA : Navigation d'instructions multimodales avec des VLM à contexte long et des graphiques topologiques
- Lien de l'article : https://arxiv.org/pdf/2407.07775v1
DeepMind affirme que ce travail représente la prochaine étape dans l’interaction homme-machine. À l’avenir, les utilisateurs pourront simplement filmer leurs visites environnementales avec leur smartphone. Après avoir regardé la vidéo, leur assistant robotique personnel a pu comprendre et naviguer dans l’environnement. Mobility VLA : navigation d'instructions multimodales utilisant un VLM à contexte long et une carte topologiqueAvec le développement continu de la technologie de l'IA, la navigation des robots a fait de grands progrès. Les premiers travaux reposaient sur la spécification par les utilisateurs de coordonnées physiques dans un environnement pré-dessiné. La navigation par objectif d'objet (ObjNav) et la navigation par langage visuel (VLN) constituent un grand pas en avant dans la convivialité des robots, car elles permettent aux utilisateurs d'utiliser un langage de vocabulaire ouvert pour définir des objectifs de navigation, tels que « Aller sur le canapé ». Afin de rendre les robots vraiment utiles et omniprésents dans notre vie quotidienne, des chercheurs de Google DeepMind ont proposé de mettre à niveau l'espace de langage naturel d'ObjNav et de VLN vers un espace multimodal, ce qui signifie que les robots peuvent accepter le langage naturel à en même temps des commandes verbales et/ou visuelles pour réaliser un nouveau bond en avant. Par exemple, une personne peu familière avec un bâtiment pourrait tenir une boîte en plastique et demander : « Où dois-je la remettre ? » et le robot guiderait l'utilisateur pour remettre la boîte sur une étagère en fonction du contexte verbal et visuel. Ils appellent ce type de tâche de navigation navigation indiquée multimodale (MIN). MIN est une vaste mission qui comprend l'exploration environnementale et la navigation guidée par commande. Dans de nombreux cas, cependant, on peut explorer en profitant des vidéos de démonstration. Les visites de démonstration présentent plusieurs avantages :
- Facile à collecter : les utilisateurs peuvent contrôler le robot à distance ou enregistrer une vidéo avec leur smartphone tout en se promenant dans l'environnement. De plus, il existe des algorithmes d'exploration qui peuvent être utilisés pour créer des visites.
- Cela est conforme aux habitudes des utilisateurs : lorsque les utilisateurs acquièrent un nouveau robot domestique, ils emmèneront naturellement le robot dans leur maison, et ils pourront présenter verbalement les lieux d'intérêt lors de la visite.
- Dans certains cas, il est souhaitable de limiter les activités du robot à des zones prédéfinies pour des raisons de sécurité et de confidentialité. À cette fin, l'auteur présente et étudie ce type de tâche dans cet article, à savoir « Multimodal Instruction Tour Navigation (MINT) », qui utilise des visites de démonstration et se concentre sur la satisfaction des instructions multimodales de l'utilisateur.
Récemment, les modèles de langage visuel (VLM) à grande échelle ont montré un grand potentiel pour résoudre le problème MINT, grâce à leurs capacités impressionnantes en matière de compréhension du langage et des images ainsi que de raisonnement de bon sens, qui sont des éléments clés pour la mise en œuvre MENTHE.Cependant, le VLM seul est difficile à résoudre le problème MINT pour les raisons suivantes :
- En raison de contraintes de longueur de contexte, de nombreux VLM ont un nombre très limité d'images d'entrée, ce qui limite considérablement la fidélité de la compréhension de l'environnement au sens large. environnements.
- Résoudre le problème MINT nécessite de calculer les actions du robot. Les requêtes demandant de telles actions au robot sont souvent incompatibles avec ce sur quoi le VLM a été (pré)entraîné. Par conséquent, les performances des robots sans échantillon sont souvent insatisfaisantes.
Pour résoudre le problème MINT, DeepMind a proposé Mobility VLA, une stratégie de navigation Vision-Langage-Action (VLA) en couches. Il combine la compréhension environnementale et les capacités de raisonnement de bon sens du VLM à contexte long avec une stratégie de navigation robuste de bas niveau basée sur des graphiques topologiques. Plus précisément, VLM de haut niveau utilise une vidéo de visite de démonstration et des instructions utilisateur multimodales pour trouver l'image cible dans la vidéo de visite. Ensuite, une stratégie classique de bas niveau utilise des cadres cibles et des cartes topologiques (construites hors ligne à partir de cadres de visite) pour générer des actions de robot (waypoints) à chaque pas de temps. L'utilisation de VLM à contexte long résout le problème de fidélité de la compréhension de l'environnement, et la carte topologique comble le fossé entre la distribution de formation du VLM et les actions du robot requises pour résoudre MINT. Les auteurs ont évalué le VLA mobile dans des environnements de bureau et domestiques réels (836 m2). Mobility VLA a obtenu 86 % et 90 % sur des tâches MINT auparavant irréalisables impliquant un raisonnement complexe (tel que "Je veux stocker quelque chose hors de la vue du public, où dois-je aller ?") et des taux de réussite multimodaux (26 % et 60 %). plus élevé que les méthodes de référence, respectivement). L'auteur a également démontré une énorme amélioration dans la commodité de l'interaction de l'utilisateur avec le robot. Les utilisateurs peuvent utiliser leur smartphone pour effectuer des visites vidéo commentées dans un environnement domestique, puis demander "Où est mon coaster ?" .
Mobilit VLA est une stratégie de navigation à plusieurs niveaux (illustré dans la figure 1), comprenant des parties en ligne et hors ligne. Dans la phase hors ligne, la carte topologique G est générée sur la base de la visite de démonstration (N, F). Dans la phase en ligne, la stratégie de haut niveau trouve l'indice de trame cible de navigation g à travers des visites de démonstration et des instructions utilisateur multimodales (d, I), qui est un nombre entier correspondant à une trame spécifique de la visite. Dans l'étape suivante, la stratégie de bas niveau utilise la carte topologique, les données d'observation actuelles de la caméra (O) et g pour générer une action de point de cheminement (a) à chaque pas de temps que le robot doit exécuter. où h et l représentent respectivement des stratégies de haut niveau et de bas niveau. Visites de démonstration et génération de cartes topologiques hors ligne Mobility VLA utilise des visites de démonstration environnementales pour résoudre les problèmes MINT. De telles visites peuvent être effectuées à distance par un utilisateur humain, ou une vidéo peut être enregistrée avec un smartphone tout en se promenant dans l'environnement. Ensuite, Mobility VLA hors ligne construit un graphe topologique G = (V, E), où chaque sommet v_i∈V correspond à l'image f_i dans la vidéo de visite de démonstration (F, N). Les auteurs ont utilisé COLMAP, un pipeline de structure à partir du mouvement disponible dans le commerce, pour déterminer la pose approximative de la caméra à 6 degrés de liberté pour chaque image et la stocker dans les sommets. Ensuite, si le sommet cible est « devant » le sommet source (à moins de 90 degrés de différence d’attitude par rapport au sommet source) et à moins de 2 mètres, une arête dirigée est ajoutée à G. Par rapport au pipeline de navigation traditionnel (comme la cartographie de l'environnement, l'identification des zones traversables, puis la construction d'un PRM), l'approche de la carte topologique est beaucoup plus simple car elle capture la connectivité générale de l'environnement en fonction de la trajectoire de la visite. . Recherche de cibles de haut niveau basée sur un VLM multimodal à contexte longPendant l'exécution en ligne, la stratégie de haut niveau utilise la capacité de raisonnement de bon sens du VLM pour déterminer une cible de navigation à partir du visite de démonstration, pour satisfaire une variété d'instructions utilisateur multimodales, familières et souvent ambiguës. À cette fin, le chercheur a préparé une invite P (F, N, d, I) composée de texte et d'images entrelacés. Ce qui suit est un exemple spécifique de commande utilisateur multimodale, correspondant à une question du tableau 1 : « Où dois-je renvoyer ceci ? » You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?
Copier après la connexion
VLM Renvoie un index de trame cible entier g. Utiliser la carte topologique pour atteindre l'objectif de bas niveau Une fois que la stratégie de haut niveau détermine l'indice de trame cible g, la stratégie de bas niveau (algorithme 1) prend le relais et exécute le tâche à chaque pas de temps Génère une action waypoint (Formule 1). A chaque pas de temps, les auteurs utilisent un système de localisation visuelle hiérarchique en temps réel pour estimer la pose du robot T et le sommet de départ le plus proche v_s∈G en utilisant l'observation actuelle de la caméra O (ligne 5). Le système de localisation trouve les k trames candidates les plus proches dans G via des descripteurs globaux puis calcule T via PnP. Ensuite, le chemin le plus court S sur le graphe topologique entre v_s et le sommet cible v_g (le sommet correspondant à g) est déterminé par l'algorithme de Dijkstra (ligne 9). Enfin, la politique de bas niveau renvoie une action de point de cheminement, qui est le Δx, Δy, Δθ du prochain sommet v_1 dans S par rapport à T (ligne 10). Pour démontrer les performances de Mobility VLA et mieux comprendre la conception clé, les auteurs ont conçu des expériences pour répondre aux questions de recherche suivantes :
- Question 1 : Dans dans le monde réel, Mobility VLA fonctionne-t-il bien dans MINT ?
- Question 2 : Mobility VLA surpassera-t-il les alternatives en raison de l'utilisation de VLM à contexte long ?
- Question 3 : Une carte topologique est-elle nécessaire ? Le VLM peut-il générer directement de l’action ?
Mobility VLA offre des performances de bout en bout robustes dans des environnements réels 1. Taux de réussite de bout en bout élevé. Le tableau 2 montre que Mobility VLA atteint des taux de réussite de navigation de bout en bout élevés dans la plupart des catégories d'instructions utilisateur, y compris les « exigences de raisonnement » et les instructions « multimodales » qui étaient auparavant irréalisables. 2. Objectif de bas niveau robuste atteint. Le tableau 2 montre également la robustesse dans le monde réel (taux de réussite de 100 %) de la stratégie d’atteinte des objectifs de bas niveau de Mobility VLA. La visite de démonstration incluse a été enregistrée plusieurs mois avant l'expérience, alors que de nombreux objets, meubles et conditions d'éclairage étaient différents. Le VLM à contexte long surpasse les alternatives en matière de recherche avancée de cibles 1. Mobility VLA surpasse les alternatives. Le tableau 3 montre que le taux de réussite de la recherche d'objectifs de haut niveau de Mobility VLA est nettement supérieur à celui des méthodes de comparaison. Étant donné que le taux de réussite de bas niveau est de 100 %, ce taux de réussite de recherche de cible de haut niveau représente le taux de réussite de bout en bout. 2. L'utilisation d'un VLM à contexte long pour traiter des vidéos de tournée à fréquence d'images élevée est la clé du succès. La saisie d'une visite de démonstration complète d'un vaste environnement dans un VLM à contexte non long est un défi car chaque image nécessite un budget de centaines de jetons. Une solution pour réduire le nombre de jetons d’entrée consiste à réduire la fréquence d’images de la vidéo de visite, au prix de la perte d’images intermédiaires. Le tableau 4 montre qu'à mesure que la fréquence d'images du tour diminue, le taux de réussite de la recherche de cible de haut niveau diminue également. Cela n'est pas surprenant, car les vidéos de tournée avec des fréquences d'images inférieures perdent parfois les images cibles de navigation. De plus, si l'on compare les VLM de pointe, seul Gemini 1.5 Pro a un taux de réussite satisfaisant, grâce à sa longueur de contexte pouvant atteindre 1 million de jetons. La carte topologique est la clé du succèsLe tableau 5 montre les performances de bout en bout du Mobility VLA dans les simulations par rapport au fonctionnement rapide du point de cheminement à sortie directe du VLM. Le taux de réussite de bout en bout de 0 % montre que Gemini 1.5 Pro est incapable de réaliser une navigation zéro tir du robot sans carte topologique. Sur la base d'expériences, l'auteur a découvert que Gemini génère presque toujours une action de point de cheminement « avancer », quelle que soit l'observation actuelle de la caméra. De plus, l'API Gemini 1.5 actuelle nécessite le téléchargement des 948 images de visite à chaque appel d'inférence, ce qui entraîne un coût prohibitif de 26 secondes d'exécution pour chaque mètre parcouru par le robot. D'un autre côté, le VLM de haut niveau de Mobility VLA prendra 10 à 30 secondes pour trouver l'index cible, puis le robot utilisera la carte topologique de bas niveau pour naviguer vers la cible, ce qui donnera lieu à un système très robuste et efficace (0,19 secondes par étape) système pour résoudre le problème MINT.Veuillez vous référer au document original pour plus de détails. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!