Figure AI dévoile l'hélice: un robot humanoïde révolutionnaire propulsé par un cadre d'action en vision-action (VLA). Cette approche innovante permet à Helix de raisonner et d'opérer avec des capacités humaines sans précédent, de combler l'écart entre la robotique industrielle contrôlée et la dynamique imprévisible des environnements domestiques. Cet aperçu détaillé explore les capacités d'Helix basées sur la documentation et les démos récemment publiées.
Table des matières:
Comprendre Helix:
Helix possède 35 degrés de liberté (DOF), offrant une dextérité et une autonomie inégalées pour un robot humanoïde. Contrairement aux robots traditionnels nécessitant une programmation manuelle approfondie, Helix exécute dynamiquement des tâches complexes à long terme en utilisant des instructions simples en langage naturel. Cette percée fait progresser considérablement le praticité des robots en milieu domestique, où l'adaptabilité à divers objets et scénarios imprévisibles est primordial.
Conception architecturale: système 1 et système 2:
L'architecture d'Helix reflète les processus cognitifs humains, s'inspirant du modèle de "pensée, rapide et lent" de Kahneman:
Système 2: Le "Big Brain": Ce modèle de langue visuelle (VLM) de 7 milliards de dollars gère le raisonnement de haut niveau, la compréhension du langage et la compréhension de la scène visuelle. Il traduit les commandes abstraites (comme "ramasser l'élément désertique") en étapes exploitables.
Système 1: Exécution précise de l'action: Cette politique visuomotrice de 80 millions de paramètres garantit un contrôle rapide et de bas niveau pour des actions précises telles que la gestion et la manipulation d'objets, sur la base des directives du système 2. Sa taille compacte permet des réponses en temps réel rapides.
Les deux systèmes fonctionnent sur des GPU intégrés à faible puissance, éliminant la dépendance à l'égard des ressources informatiques externes et ouvrant la voie à la viabilité commerciale.
Avancements technologiques clés:
Vidéos de démonstration:
Figure AI présente les capacités d'Helix à travers plusieurs vidéos convaincantes:
Manipulation de l'épicerie collaborative:
Cette vidéo met en évidence deux robots, contrôlés par une seule instance d'hélice, stockant efficacement les éléments d'épicerie divers et inconnus. Leur coordination, y compris les transferts d'articles et le placement dans les tiroirs / conteneurs, est entraîné par des invites en langage naturel ("remettre le sac de cookies ...", "Placez-le dans le tiroir ouvert"). Cela démontre la collaboration multi-robot d'Helix et les capacités de généralisation de zéro-shot.
Contrôle moteur complet du haut du corps:
Cette démonstration présente le contrôle de 35 DOF d'Helix à 200 Hz. Le robot manipule en douceur les objets, coordonnant tout son haut du corps (torse, tête, poignets, doigts) pour une portée et une précision optimales. Cela met en évidence la dextérité et la stabilité en temps réel d'Hélix, surmontant les défis associés aux systèmes à DOF élevé.
Manipulation d'objets guidés par le langage:
Cette vidéo met l'accent sur la capacité d'Helix à traduire les commandes de haut niveau en actions précises. Répondant à «Ramasser l'élément du désert», Helix identifie et sélectionne un cactus jouet, démontrant sa capacité à relier la compréhension du langage abstrait à un contrôle moteur complexe.
Résumé:
Figure L'hélice d'Ai représente un bond en avant significatif dans la robotique humanoïde. Son cadre VLA innovant, associé à ses capacités d'architecture à double système et de traitement à bord, permet un raisonnement et une dextérité de type humain, ce qui le rend idéal pour les applications du monde réel, en particulier dans les environnements domestiques. La capacité d'Helix à comprendre et à répondre aux instructions du langage naturel tout en gérant un large éventail d'objets sans formation préalable marque un changement de pas substantiel dans le domaine de la robotique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!