Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.-IA-php.cn

Table des matières

Langage interactif : Conversation avec le robot en temps réel

Open Source Benchmark

Apprentissage du comportement verbal en temps réel

Conclusion

Maison

Périphériques technologiques

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

PHPz

Apr 21, 2023 pm 07:34 PM

谷歌机器人

Regardez bien, l'homme en face de vous donne constamment des instructions en langage naturel à un robot, telles que "Poussez l'étoile verte entre les blocs rouges", "Déplacez le bloc bleu vers le coin inférieur gauche", répond le robot. à chaque instruction saisie une fois peut être complétée en temps réel.

Depuis les années 1960, les experts en robotique tentent de faire comprendre aux robots les « instructions en langage naturel » des gens et d'effectuer des actions spécifiques.

Idéalement, les futurs robots réagiront en temps réel à toute tâche pertinente que les utilisateurs pourront décrire en langage naturel.

Surtout dans un environnement humain ouvert, les utilisateurs peuvent avoir besoin de personnaliser le comportement lorsque le robot se comporte, en fournissant des corrections rapides, telles que « arrêtez-vous, bougez un peu le bras vers le haut » ou spécifiez des limites « déplacez-vous lentement vers la droite ».

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

De plus, le langage en temps réel peut faciliter la collaboration entre les humains et les robots sur des tâches complexes à long terme, où les humains peuvent guider les opérations des robots de manière itérative et interactive, avec des commentaires verbaux occasionnels.

Le travail actuel peut être grossièrement divisé en trois parties suivantes :

1 Le corps du robot doit exister dans le monde réel

2. commandes en langage naturel riches ;

3. Capacité à exécuter des commandes en langage interactif (interactives), c'est-à-dire que le robot doit accepter de nouvelles instructions en langage naturel pendant l'exécution de la tâche.

Quant au troisième point, la vitesse actuelle de développement interactif dans le domaine des robots est encore très lente, ce qui fait également que les robots manquent de « sens de la vie ».

Récemment, Google a publié un article proposant un tout nouveau cadre capable de produire des robots interactifs du monde réel et en temps réel qui exécutent des instructions en langage naturel, et les ensembles de données, environnements, références et stratégies pertinents sont tous ouverts à l'utilisation.

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

Lien papier : https://arxiv.org/pdf/2210.06407.pdf

Page d'accueil du projet : https://interactive-langage.github.io/

Grâce à la formation au clonage comportemental sur un ensemble de données de centaines de milliers de trajectoires annotées linguistiquement, la politique qui en résulte peut exécuter avec habileté un ordre de grandeur supérieur à celui des travaux précédents réalisés. Dans le monde réel, les chercheurs ont estimé que la méthode avait un taux de réussite de 93,5 % sur 87 000 chaînes différentes en langage naturel.

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

Et la même stratégie peut être guidée par les humains en temps réel via le langage naturel pour résoudre un large éventail d'objectifs précis de réarrangement à longue distance, tels que "faire un smiley avec des blocs de construction", etc.

L'ensemble de données publié avec l'article comprend près de 600 000 trajectoires étiquetées par langue, ce qui est un ordre de grandeur plus grand que les ensembles de données précédemment disponibles.

Langage interactif : Conversation avec le robot en temps réel

Pour intégrer le robot dans le monde réel, le plus important est de pouvoir traiter des instructions ouvertes en langage naturel, mais dans une perspective d'apprentissage automatique, laissez le robot apprendre un vocabulaire ouvert La langue est un énorme défi.

Les modèles de représentation ouverte doivent effectuer un grand nombre de tâches, notamment de petites instructions correctives, etc. Les configurations d'apprentissage multitâches existantes utilisent des ensembles de données d'apprentissage par imitation soigneusement conçus ou des fonctions complexes de récompense d'apprentissage par renforcement pour piloter l'apprentissage pour chaque tâche, et les ensembles prédéfinis conçus de cette manière sont destinés à ne pas être très volumineux.

Par conséquent, une question clé dans la tâche de vocabulaire ouvert est la suivante : comment le processus de collecte de données sur les robots peut-il être étendu pour couvrir des milliers d'actions dans des environnements réels, et comment tous ces comportements peuvent-ils être liés aux utilisateurs finaux ? est-il possible de réellement fournir des instructions en langage naturel ?

Dans les langages interactifs, la clé du cadre d'apprentissage par simulation à grande échelle proposé par Google est l'évolutivité de la création de grands ensembles de données de démonstration de robots conditionnés multilingues.

Contrairement à la configuration précédente où toutes les compétences devaient être définies, puis une démonstration organisée de chaque compétence collectée, les chercheurs travaillent constamment sur plusieurs robots sans réinitialisation de scène ni segmentation des compétences de bas niveau.

Toutes les données, y compris les données ayant échoué (telles que le retrait de blocs d'une table), doivent passer par un processus de réétiquetage du langage HindSight avant d'être associées au texte.

Dans ce processus, les annotateurs doivent regarder de longues vidéos de robots pour identifier autant de comportements que possible, marquer l'heure de début et de fin de chaque comportement et utiliser des formes illimitées de langage naturel pour décrire chaque segment.

La chose la plus importante est que par rapport à l'ensemble de bootstrapping précédent, toutes les compétences utilisées pour la formation sont révélées de bas en haut à partir des données elles-mêmes, plutôt que prédéterminées par les chercheurs.

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

Les chercheurs simplifient intentionnellement la méthode d'apprentissage et l'architecture autant que possible. Le Robot Policy Network est un transformateur d'attention croisée qui mappe la vidéo et le texte à 5 Hz aux actions du robot à 5 Hz sans perte auxiliaire (perte auxiliaire). . pertes) en utilisant un comportement d’apprentissage supervisé standard pour cloner la cible.

Pendant les tests, de nouvelles commandes en langage naturel peuvent être envoyées au réseau politique via la synthèse vocale à des fréquences allant jusqu'à 5 Hz.

Open Source Benchmark

Au cours du processus d'annotation, les chercheurs ont collecté un ensemble de données Language-Table contenant plus de 440 000 démonstrations réelles et 180 000 simulées de robots exécutant des commandes en langage naturel, ainsi que les actions entreprises par les robots lors des démonstrations. . séquence d'actions.

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

Il s'agit également actuellement du plus grand ensemble de données de démonstration de robots conditionnés par le langage, directement amélioré d'un ordre de grandeur.

Language-Table a lancé un benchmark d'apprentissage par simulation, qui peut être utilisé pour la sélection de modèles ou pour évaluer la capacité de robots entraînés par différentes méthodes à exécuter des instructions.

Apprentissage du comportement verbal en temps réel

Au cours d'expériences, les chercheurs ont découvert que lorsqu'un robot peut suivre des instructions en langage naturel saisies en temps réel, la capacité du robot devient particulièrement puissante.

Sur le site Web du projet, les chercheurs ont démontré que les utilisateurs peuvent guider le robot à travers des séquences complexes à long horizon en utilisant uniquement le langage naturel pour résoudre des objectifs qui nécessitent beaucoup de temps pour un contrôle coordonné précis.

Les robots de Google parviennent à un langage interactif avec une précision de 93,5 % et la quantité de données open source est décuplée.

Par exemple, s'il y a plusieurs blocs sur la table, la commande peut être "faire un smiley avec les yeux verts" ou "les mettre tous sur une ligne verticale" etc.

Étant donné que le robot a été entraîné à suivre un langage à lexique ouvert, l'expérience a vu le robot répondre à une gamme de corrections verbales différentes, telles que "Déplacez doucement l'étoile rouge vers la droite".

Enfin, les chercheurs ont exploré les avantages du langage en temps réel, notamment en rendant la collecte de données sur les robots plus efficace. Un opérateur humain peut contrôler quatre robots en utilisant le langage parlé en même temps, ce qui pourrait potentiellement élargir l'échelle de la collecte de données sur les robots. l'avenir, sans qu'il soit nécessaire d'équiper chaque robot d'un annotateur.

Conclusion

Bien que le projet soit actuellement limité à un ensemble fixe d'objets sur le bureau, les résultats expérimentaux sur les langages interactifs peuvent fournir des indications préliminaires selon lesquelles l'apprentissage par imitation à grande échelle peut effectivement produire des robots interactifs en temps réel capables de suivre librement -form terminaux Commande utilisateur.

Afin de promouvoir l'avancement de la technologie de contrôle du langage en temps réel pour les robots physiques, les chercheurs ont créé Language-Table en open source, qui constitue actuellement le plus grand ensemble de données de démonstration de robots réels basé sur des conditions linguistiques et peut également être utilisé comme référence de simulation connexe.

Les chercheurs pensent que le rôle de cet ensemble de données ne se limite peut-être pas au domaine du contrôle des robots, mais peut également être utilisé pour étudier la prédiction vidéo conditionnelle du langage et de l'action, la modélisation du langage conditionnel vidéo des robots ou la recherche dans un domaine plus large. environnement d'apprentissage automatique De nombreuses autres questions actives intéressantes constituent un nouveau point de départ.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7686

Tutoriel Java

1639

Tutoriel CakePHP

1393

Tutoriel Laravel

1287

Tutoriel PHP

1229

Afficher plus

Related knowledge

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

Bitget Trading Plateforme Adresse de téléchargement et d'installation de l'application officielle Feb 25, 2025 pm 02:42 PM

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que

La dernière adresse de téléchargement de Bitget en 2025: étapes pour obtenir l'application officielle Feb 25, 2025 pm 02:54 PM

See all articles