Table des matières

Un modèle « généraliste » couvrant les domaines de la robotique et de la vision-langage

Résultats de l'évaluation" >Résultats de l'évaluation

Maison

Google a publié PaLM-E, le plus grand modèle polyvalent de l'histoire, qui possède 562 milliards de paramètres, est appelé le cerveau le plus puissant de Terminator et peut interagir avec les robots via des images.

Google a publié PaLM-E, le plus grand modèle polyvalent de l'histoire, qui possède 562 milliards de paramètres, est appelé le cerveau le plus puissant de Terminator et peut interagir avec les robots via des images.

王林

May 09, 2023 pm 08:28 PM

谷歌模型

La « mutation » rapide des grands modèles de langage a donné à la société humaine une direction de plus en plus science-fiction. Après avoir éclairé cet arbre technologique, la réalité de "Terminator" semble se rapprocher de plus en plus de nous.

Il y a quelques jours, Microsoft vient d'annoncer un framework expérimental pouvant utiliser ChatGPT pour contrôler des robots et des drones.

Bien sûr, Google n'est pas loin derrière. Lundi, une équipe de Google et de l'Université technique de Berlin a lancé le plus grand modèle de langage visuel de l'histoire - PaLM-E. .

Google a publié PaLM-E, le plus grand modèle polyvalent de lhistoire, qui possède 562 milliards de paramètres, est appelé le cerveau le plus puissant de Terminator et peut interagir avec les robots via des images.

Adresse papier : https://arxiv.org /abs/2303.03378

En tant que modèle de langage visuel incarné (VLM) multimodal, PaLM-E peut non seulement comprendre des images, générer du langage, et peut même combiner les deux pour traiter des instructions robotiques complexes.

De plus, grâce à la combinaison du modèle de langage PaLM-540B et du modèle de transformateur visuel ViT-22B, le nombre final de paramètres de PaLM-E est aussi élevé comme 562 milliards.

Un modèle « généraliste » couvrant les domaines de la robotique et de la vision-langage

# 🎜🎜#

PaLM-E, le nom complet est Pathways Language Model with Embodied, est un modèle de langage visuel incarné.

Sa puissance réside dans sa capacité à utiliser des données visuelles pour améliorer ses capacités de traitement du langage. Lorsque nous formons le plus grand modèle de langage visuel, que se passe-t-il lorsque vous le combinez avec un robot ? Le résultat est PaLM-E, un langage visuel généraliste incarné, à usage général, de 562 milliards de paramètres, couvrant la robotique, la vision et le langage. Introduction, PaLM-E est un LLM uniquement par décodeur, capable de générer des complétions de texte de manière autorégressive étant donné un préfixe ou une invite.

Ses données d'entraînement sont des phrases multimodales contenant une estimation visuelle et continue de l'état et un encodage de saisie de texte.

Après un entraînement avec une seule invite d'image, PaLM-E peut non seulement guider le robot pour accomplir diverses tâches complexes, mais également générer un langage pour décrire l'image.

On peut dire que PaLM-E fait preuve d'une flexibilité et d'une adaptabilité sans précédent et représente un grand pas en avant, notamment dans le domaine de l'interaction homme-machine.

Plus important encore, les chercheurs ont démontré qu'en s'entraînant sur différentes combinaisons de tâches hybrides de plusieurs robots et d'un langage visuel général, il est possible de provoquer un transfert du langage visuel vers plusieurs les méthodes de prise de décision incarnée permettent aux robots d’utiliser efficacement les données lors de la planification des tâches.

De plus, PaLM-E est particulièrement remarquable en ce sens, Posséder une forte capacités de migration positives.

PaLM-E formé dans différents domaines, y compris les tâches générales de langage de vision à l'échelle d'Internet, atteint des performances considérablement améliorées par rapport aux modèles de robots effectuant des tâches uniques.

À l'échelle du modèle, les chercheurs ont observé des avantages significatifs.

Plus le modèle de langage est grand, plus la capacité linguistique est maintenue pendant l'entraînement au langage visuel et aux tâches robotiques.

Du point de vue de l'échelle du modèle, PaLM-E avec 562 milliards de paramètres conserve presque toutes ses capacités linguistiques.

Bien qu'il ait été formé uniquement sur une seule image, PaLM-E montre des capacités exceptionnelles dans des tâches telles que le raisonnement en chaîne de pensée multimodale et le raisonnement multi-images.

PaLM-E atteint un nouveau SOTA sur le benchmark OK-VQA.

Résultats de l'évaluation

Dans le test, les chercheurs ont montré comment utiliser PaLM-E pour effectuer des tâches de planification et de longue durée sur deux entités différentes.

Il est à noter que tous ces résultats ont été obtenus en utilisant le même modèle entraîné sur les mêmes données.

Dans le passé, les robots avaient généralement besoin d'une assistance humaine pour accomplir des tâches de longue durée. Mais désormais, PaLM-E peut le faire grâce à un apprentissage indépendant.

Par exemple, des instructions telles que « Sortez les chips du tiroir » incluent plusieurs étapes de planification et un retour visuel de la caméra du robot.

PaLM-E, qui a été formé de bout en bout, peut planifier le robot directement à partir des pixels. Le modèle étant intégré dans une boucle de contrôle, le robot est résistant aux perturbations lors de la collecte des chips.

Humain : Apportez-moi des chips.

Robot : 1. Allez dans le tiroir 2. Ouvrez le tiroir du haut 3. Ramassez les chips vertes dans le tiroir du haut 4. Placez-le sur le comptoir.

De même, lorsqu'il demande au robot de récupérer une pomme, après avoir donné l'image, le robot effectue la tâche comme suit -

Humain : apporte-moi une pomme.

Robot : 1. Marchez vers la pomme 2. Ramassez la pomme 3. Apportez-la à l'opérateur 4. Posez la pomme 5. Terminé.

En plus d'effectuer des tâches à long terme, PaLM-E peut permettre au robot d'effectuer des tâches de planification, telles que l'organisation des blocs de construction.

Les chercheurs ont mené avec succès une planification en plusieurs étapes basée sur des entrées visuelles et verbales, combinées à un retour visuel à long terme, permettant au modèle de planifier avec succès une tâche à long terme consistant à « trier les blocs de construction en différentes catégories par couleur ». . coin".

Comme indiqué ci-dessous, en termes d'agencement et de combinaison, le robot se transforme en généraliste et trie les blocs de construction selon la couleur.

En termes de généralisation du modèle, le robot contrôlé par PaLM-E peut déplacer le bloc de construction rouge sur le côté de la tasse à café.

Il convient de mentionner que l'ensemble de données ne contient que trois démos avec des tasses à café, mais aucune d'entre elles n'inclut de blocs de construction rouges.

De même, bien que le modèle n'ait jamais vu de tortue auparavant, il peut toujours réussir à pousser le bloc vert vers la tortue

En termes d'inférence sans échantillon, PaLM - E peut raconter des blagues à partir d'images et a démontré des capacités telles que la perception, le dialogue basé sur la vision et la planification.

PaLM-E peut également comprendre la relation entre plusieurs images, par exemple l'endroit où se trouve l'image 1 (à gauche) dans l'image 2 (à droite).

De plus, PaLM-E peut également effectuer des opérations mathématiques à partir d'une image avec des chiffres manuscrits.

Par exemple, pour la photo manuscrite du menu du restaurant ci-dessous, combien coûtent 2 pizzas ? PaLM-E peut le calculer directement.

ainsi que l'assurance qualité générale, les annotations et d'autres tâches.

Enfin, les résultats de la recherche montrent également que le gel des modèles linguistiques est une voie réalisable vers des modèles multimodaux incarnés universels qui conservent pleinement leurs capacités linguistiques.

Mais en même temps, les chercheurs ont également découvert une voie alternative pour débloquer le modèle, c'est-à-dire qu'augmenter la taille du modèle de langage peut réduire considérablement les oublis catastrophiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7659

Tutoriel CakePHP

1393

Tutoriel C#

1205

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

Afficher plus

Related knowledge

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

Bitget Trading Plateforme Adresse de téléchargement et d'installation de l'application officielle Feb 25, 2025 pm 02:42 PM

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que

La dernière adresse de téléchargement de Bitget en 2025: étapes pour obtenir l'application officielle Feb 25, 2025 pm 02:54 PM

See all articles