Maison Périphériques technologiques IA Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

Jan 16, 2024 am 11:24 AM
四足机器人 理论 système interactif

Une interaction simple et efficace entre les humains et les robots quadrupèdes est le moyen de créer des robots assistants intelligents et performants, pointant vers un avenir où la technologie améliorera nos vies bien au-delà de notre imagination. Pour de tels systèmes d’interaction homme-robot, la clé est de donner au robot quadrupède la capacité de répondre aux commandes en langage naturel.

Les modèles de langage à grande échelle (LLM) se sont développés rapidement récemment et ont montré leur potentiel pour effectuer une planification de haut niveau. Cependant, il est encore difficile pour LLM de comprendre les instructions de bas niveau, telles que les objectifs d'angle des articulations ou les couples moteurs, en particulier pour les robots à pattes qui sont intrinsèquement instables et nécessitent des signaux de commande à haute fréquence. Par conséquent, la plupart des travaux existants supposent que le LLM est doté d'une API de haut niveau qui détermine le comportement du robot, ce qui limite fondamentalement les capacités d'expression du système.

Dans l'article CoRL 2023 « SayTap : Language to Quadrupedal Locomotion », Google DeepMind et l'Université de Tokyo ont proposé une nouvelle méthode qui utilise les modèles de contact avec les pieds comme lien entre les instructions du langage naturel humain et les commandes de bas niveau. Pont de contrôleur de mouvement.

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

  • Adresse papier : https://arxiv.org/abs/2306.07580
  • Site Web du projet : https://saytap.github.io/

Modèle de contact du pied (pied modèle de contact) fait référence à l'ordre et à la manière dont un agent quadrupède pose ses pieds sur le sol lorsqu'il se déplace. Sur cette base, ils ont développé un système de robot quadrupède interactif qui permet aux utilisateurs de développer de manière flexible différents comportements de mouvement. Par exemple, les utilisateurs peuvent utiliser un langage simple pour commander au robot de marcher, courir, sauter ou effectuer d'autres actions.

Leurs contributions incluent une conception d'invite LLM, une fonction de récompense et une méthode qui permet au contrôleur SayTap d'utiliser des distributions de modèles de contact réalisables.

La recherche montre que le contrôleur SayTap peut réaliser plusieurs modes de mouvement, et ces capacités peuvent également être transférées au matériel réel du robot.

Méthode SayTap

La méthode SayTap utilise un modèle de mode contact, qui est un 4 Les pieds touchent le sol. De haut en bas, chaque rangée de la matrice donne respectivement le modèle de contact du pied de l'avant-pied gauche (FL), de l'avant-pied droit (FR), de l'arrière-pied gauche (RL) et de l'arrière-pied droit (RR). La fréquence de contrôle de SayTap est de 50 Hz, ce qui signifie que chaque 0 ou 1 dure 0,02 seconde. Cette étude définit le modèle de contact du pied souhaité comme une fenêtre coulissante cyclique de taille L_w et de forme 4 X L_w. Cette fenêtre coulissante extrait les quadruples drapeaux de mise à la terre du modèle de motif de contact, qui indiquent si le pied du robot était au sol ou dans les airs entre les instants t + 1 et t + L_w. La figure ci-dessous donne un aperçu de la méthode SayTap.

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

Présentation de la méthode SayTap

SayTap introduit les modèles de contact du pied souhaités en tant que nouvelle interface entre les commandes utilisateur en langage naturel et les contrôleurs de mouvement. Le contrôleur de mouvement est utilisé pour effectuer des tâches principales (telles que suivre une vitesse spécifiée) et pour placer le pied du robot sur le sol à des moments précis afin que le modèle de contact du pied obtenu soit aussi proche que possible du modèle de contact souhaité.

Pour ce faire, à chaque pas de temps, le contrôleur de mouvement prend en entrée le modèle de contact du pied souhaité, ainsi que des données proprioceptives (telles que les positions et les vitesses des articulations) et des entrées liées à la tâche (telles que les commandes de vitesse spécifiques à l'utilisateur). ). DeepMind a utilisé l'apprentissage par renforcement pour entraîner le contrôleur de mouvement et l'a représenté comme un réseau neuronal profond. Au cours de la formation du contrôleur, les chercheurs ont utilisé un générateur aléatoire pour échantillonner les modèles de contact du pied souhaités, puis ont optimisé la politique pour générer des actions de robot de bas niveau permettant d'obtenir les modèles de contact du pied souhaités. Au moment du test, LLM est utilisé pour traduire les commandes de l'utilisateur en modèles de contact avec le pied.

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

SayTap utilise des modèles de contact avec les pieds comme pont entre les commandes utilisateur en langage naturel et les commandes de contrôle de bas niveau. SayTap prend en charge à la fois des instructions simples et directes (telles que « Avancez lentement en jogging ») et des commandes utilisateur vagues (telles que « Bonne nouvelle, nous allons faire un pique-nique ce week-end ! ») Grâce à des contrôleurs de mouvement basés sur l'apprentissage par renforcement, quatre Le). Le robot à pied réagit en fonction des commandes

La recherche montre qu'en utilisant des invites correctement conçues, LLM a la capacité de mapper avec précision les commandes de l'utilisateur dans des formats spécifiques de modèles de modèles de contact du pied, même si les commandes de l'utilisateur ne sont pas structurées ou floues. Lors de la formation, les chercheurs ont utilisé un générateur de modèles aléatoires pour générer plusieurs modèles de modèles de contact, qui ont différentes longueurs de modèle T et sont basés sur le rapport de contact pied-sol d'un type de démarche G donné dans un cycle, tel que le mouvement. Le contrôleur est capable d'apprendre sur une large gamme de distributions de modèles de mouvement et d'obtenir de meilleures capacités de généralisation. Voir l'article pour plus de détails

Résultats expérimentaux

En utilisant seulement trois pieds communs. Exemples de contexte en mode contact, LLM peut traduire avec précision diverses commandes humaines en modes de contact, même en généralisant à des situations où il n'y a pas de spécification explicite sur la façon dont le robot doit se comporter.

L'invite SayTap est simple et compacte :

(1) Une description générale pour décrire les tâches que le LLM doit accomplir
(2) Une définition de la démarche pour rappeler au LLM de prêter attention aux connaissances de base sur la démarche quadrupède et leur association avec les émotions ; (3) Définition du format de sortie ;
(4) Exemple de démonstration pour permettre à LLM d'apprendre des situations en contexte
Les chercheurs ont également défini cinq vitesses pour que le robot puisse avancer ou reculer, vite ou lentement, ou rester. toujours

Suivez des commandes simples et directes
L'animation ci-dessous montre un exemple de SayTap exécutant avec succès une commande directe et claire. La commande n'est pas incluse dans les trois exemples contextuels, mais elle peut quand même guider. LLM pour exprimer les connaissances internes acquises au cours de la phase de pré-formation. Cela utilisera le « module de définition de la démarche » dans l'invite, qui est la deuxième invite du module d'invite ci-dessus.

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique Suivez des commandes non structurées ou ambiguës

Mais la capacité de SayTap à gérer des instructions non structurées et ambiguës est encore plus intéressante. Il suffit de quelques indices pour relier certaines allures à des impressions émotionnelles générales, comme par exemple le robot qui saute de haut en bas après avoir entendu quelque chose d'excitant (comme « Allons pique-niquer ! »). De plus, il peut représenter avec précision des scènes. Par exemple, lorsqu’on lui dit que le sol est très chaud, le robot se déplacera rapidement pour empêcher ses pieds de toucher le moins possible le sol.

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique

Google utilise un grand modèle pour entraîner un chien robot à comprendre des instructions vagues et est impatient de partir en pique-nique


Résumé et travaux futurs

SayTap est un système interactif pour robots quadrupèdes qui permet aux utilisateurs de formuler de manière flexible différents comportements de locomotion. SayTap introduit les modèles de contact du pied souhaités comme interface entre le langage naturel et les contrôleurs de bas niveau. La nouvelle interface est à la fois simple et flexible, et permet au robot de suivre à la fois des instructions directes et des commandes qui n'indiquent pas explicitement comment le robot doit se comporter.

Les chercheurs de DeepMind ont déclaré qu'une direction de recherche future majeure consisterait à tester si les commandes qui impliquent des sentiments spécifiques peuvent permettre au LLM de produire la démarche souhaitée. Dans le module de définition de la démarche des résultats ci-dessus, les chercheurs ont fourni une phrase reliant les émotions heureuses à la démarche sautée. Fournir plus d'informations pourrait améliorer la capacité de LLM à interpréter les commandes, telles que le décodage des sentiments implicites. Dans les évaluations expérimentales, le lien entre les émotions heureuses et une démarche rebondissante a permis au robot de se comporter énergiquement tout en suivant de vagues instructions humaines. Une autre direction de recherche future intéressante est l’introduction d’entrées multimodales, telles que la vidéo et l’audio. Théoriquement, les modèles de contact du pied traduits à partir de ces signaux conviennent également au flux de travail nouvellement proposé ici et devraient ouvrir la voie à des cas d'utilisation plus intéressants.

Lien original : https://blog.research.google/2023/08/saytap-lingual-to-quadrupedal.html

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Jul 26, 2024 pm 05:38 PM

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Jul 26, 2024 pm 02:40 PM

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Le point de vue de la nature : les tests de l'intelligence artificielle en médecine sont dans le chaos. Que faut-il faire ? Le point de vue de la nature : les tests de l'intelligence artificielle en médecine sont dans le chaos. Que faut-il faire ? Aug 22, 2024 pm 04:37 PM

Editeur | ScienceAI Sur la base de données cliniques limitées, des centaines d'algorithmes médicaux ont été approuvés. Les scientifiques se demandent qui devrait tester les outils et comment le faire au mieux. Devin Singh a vu un patient pédiatrique aux urgences subir un arrêt cardiaque alors qu'il attendait un traitement pendant une longue période, ce qui l'a incité à explorer l'application de l'IA pour réduire les temps d'attente. À l’aide des données de triage des salles d’urgence de SickKids, Singh et ses collègues ont construit une série de modèles d’IA pour fournir des diagnostics potentiels et recommander des tests. Une étude a montré que ces modèles peuvent accélérer les visites chez le médecin de 22,3 %, accélérant ainsi le traitement des résultats de près de 3 heures par patient nécessitant un examen médical. Cependant, le succès des algorithmes d’intelligence artificielle dans la recherche ne fait que le vérifier.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Aug 08, 2024 pm 09:22 PM

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont ​​développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Les performances de SOTA, la méthode d'IA de prédiction d'affinité protéine-ligand multimodale de Xiamen, combinent pour la première fois des informations sur la surface moléculaire Les performances de SOTA, la méthode d'IA de prédiction d'affinité protéine-ligand multimodale de Xiamen, combinent pour la première fois des informations sur la surface moléculaire Jul 17, 2024 pm 06:37 PM

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel Jun 22, 2024 am 07:16 AM

Auteur | Rédacteur Bai Fan, Université chinoise de Hong Kong | ScienceAI Récemment, l'Université chinoise de Hong Kong et Zhiyuan ont proposé conjointement la série de travaux M3D, comprenant M3D-Data, M3D-LaMed et M3D-Bench, pour promouvoir les images médicales 3D. de tous les aspects des ensembles de données, des modèles et des évaluations. Développement d'analyses. (1) M3D-Data est actuellement le plus grand ensemble de données d'images médicales 3D, comprenant M3D-Cap (120 000 paires d'images et de textes 3D), M3D-VQA (510 000 paires de questions et réponses), M3D-Seg (150 000 paires de masques 3D), M3D-RefSeg ( Segmentation d'inférence 3K) au total quatre sous-ensembles de données. (2) M3D-LaMed est actuellement le grand modèle médical multimodal 3D le plus polyvalent pouvant

See all articles