Table des matières
​Aperçu du modèle LM-Nav
Résultats expérimentaux
Évaluation qualitative​
Évaluation quantitative​
Maison Périphériques technologiques IA Le nouveau travail du gourou de l'apprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

Le nouveau travail du gourou de l'apprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

Apr 12, 2023 pm 11:55 PM
机器人 机器学习 预训练模型

​Un robot doté d'un grand modèle intégré a appris à suivre des instructions linguistiques pour atteindre sa destination sans regarder une carte. Cette réussite est issue du nouveau travail du gourou de l'apprentissage par renforcement, Sergey Levine.

Étant donné une destination, est-il difficile d'arriver avec succès sans traces de navigation ?

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

Cette tâche est également très difficile pour les humains ayant un mauvais sens de l'orientation. Mais dans une étude récente, plusieurs universitaires ont « enseigné » le robot en utilisant seulement trois modèles pré-entraînés.

Nous savons tous que l'un des principaux défis de l'apprentissage des robots est de permettre aux robots d'effectuer diverses tâches selon des instructions humaines de haut niveau. Cela nécessite des robots capables de comprendre les instructions humaines et d’être équipés d’un grand nombre d’actions différentes pour exécuter ces instructions dans le monde réel.

Pour l'instruction suite aux tâches de navigation, les travaux antérieurs se sont principalement concentrés sur l'apprentissage à partir de trajectoires annotées d'instructions textuelles. Cela peut permettre de comprendre des instructions textuelles, mais le coût de l'annotation des données a entravé l'utilisation généralisée de cette technique. D’un autre côté, des travaux récents ont montré que la formation auto-supervisée de politiques conditionnées par des objectifs peut permettre d’acquérir une navigation robuste. Ces méthodes entraînent des contrôleurs basés sur la vision sur de grands ensembles de données non étiquetés par réétiquetage post-hoc. Ces méthodes sont évolutives, générales et robustes, mais nécessitent souvent l’utilisation de mécanismes fastidieux de spécification de cible basés sur la localisation ou l’image.

Dans un dernier article, des chercheurs de l'UC Berkeley, de Google et d'autres institutions visent à combiner les avantages de ces deux méthodes pour créer un système auto-supervisé de navigation robot applicable aux données de navigation sans aucune annotation de l'utilisateur, en utilisant une pré-formation. du modèle pour exécuter des instructions en langage naturel. Les chercheurs utilisent ces modèles pour construire une « interface » qui communique les tâches au robot. Ce système exploite les capacités de généralisation des modèles de langage pré-entraînés et de langage de vision pour permettre aux systèmes robotiques d'accepter des instructions complexes de haut niveau.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

  • Lien papier : https://arxiv.org/pdf/2207.04429.pdf
  • Lien code : https://github.com/blazejosinski/lm_nav

Le chercheur a observé , des interfaces peuvent être créées en tirant parti de modèles pré-entraînés disponibles dans le commerce, formés sur de vastes corpus d'ensembles de données visuelles et linguistiques largement disponibles et qui ont montré des capacités de généralisation sans tir pour permettre le suivi d'instructions spécifiques. Pour y parvenir, les chercheurs ont combiné les avantages des modèles pré-entraînés indépendants des robots en matière de vision et de langage ainsi que des modèles de navigation pré-entraînés. Plus précisément, ils ont utilisé un modèle de navigation visuelle (VNM : ViNG) pour créer la sortie visuelle d'un robot dans une « carte mentale » topologique de l'environnement. Étant donné une instruction textuelle de forme libre, un grand modèle de langage pré-entraîné (LLM : GPT-3) est utilisé pour décoder l'instruction en une série de points caractéristiques de forme textuelle. Ensuite, un modèle de langage visuel (VLM : CLIP) est utilisé pour établir ces points caractéristiques du texte dans la carte topologique en déduisant la vraisemblance conjointe des points caractéristiques et des nœuds. Un nouvel algorithme de recherche est ensuite utilisé pour maximiser la fonction objectif probabiliste et trouver le chemin d'instruction du robot, qui est ensuite exécuté par le VNM. L'apport principal de la recherche est la méthode de navigation sous modèles à grande échelle (LM Nav), un système de suivi d'instructions spécifique. Il combine trois grands modèles indépendants pré-entraînés : un modèle de contrôle de robot auto-supervisé qui exploite les observations visuelles et les actions physiques (VNM), un modèle de langage visuel qui place les images dans le texte mais sans environnement de mise en œuvre concret (VLM) et un grand modèle de langage capable d'analyser et de traduire du texte, mais n'ayant aucune base visuelle ni sens incarné (LLM) pour permettre le suivi des instructions à long terme dans des environnements réels complexes. Pour la première fois, les chercheurs ont instancié l'idée de combiner des modèles de vision et de langage pré-entraînés avec des contrôleurs conditionnels à la cible pour dériver des chemins d'instructions exploitables dans l'environnement cible sans aucun réglage précis. Notamment, les trois modèles sont formés sur des ensembles de données à grande échelle, disposent de fonctions objectives auto-supervisées et sont utilisés immédiatement sans réglage fin - la formation de LM Nav ne nécessite pas d'annotation humaine des données de navigation du robot.

​Des expériences montrent que LM Nav est capable de suivre avec succès des instructions en langage naturel dans un nouvel environnement tout en utilisant des commandes précises pour éliminer l'ambiguïté du chemin lors d'une navigation suburbaine complexe de 100 mètres.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

​Aperçu du modèle LM-Nav

Alors, comment les chercheurs utilisent-ils des modèles d'images et de langage pré-entraînés pour fournir des interfaces texte pour les modèles de navigation visuelle ?

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

​1. Étant donné un ensemble d'observations dans l'environnement cible, utilise la fonction de distance conditionnelle cible, qui fait partie du modèle de navigation visuelle (VNM), pour déduire la connectivité entre elles et construire la topologie de l'environnement. schéma de connectivité.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

​2. Le grand modèle de langage (LLM) est utilisé pour analyser les instructions en langage naturel en une série de points caractéristiques, Ces points caractéristiques peuvent être utilisés comme sous-objectifs intermédiaires pour la navigation.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

3. Le modèle de langage visuel (VLM) est utilisé pour créer des observations visuelles basées sur des phrases de points caractéristiques. Le modèle de langage visuel déduit une distribution de probabilité conjointe sur les descriptions de points caractéristiques et les images (formant les nœuds dans le graphique ci-dessus).

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

​4. En utilisant la distribution de probabilité de VLM et la connectivité graphique déduite par VNM, adopte un nouvel algorithme de recherche pour récupérer un chemin d'instruction optimal dans l'environnement, lequel chemin d'instruction (i) satisfait à l'original instruction, (ii) est le chemin le plus court dans le graphique qui peut atteindre l’objectif.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

5. Ensuite, Le chemin d'instruction est exécuté par la politique conditionnelle cible, qui fait partie du VNM. ​

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

Résultats expérimentaux

Évaluation qualitative​

La figure 4 montre quelques exemples du chemin emprunté par le robot (à noter que le robot ne peut pas obtenir l'image au-dessus de la tête et le positionnement spatial des points caractéristiques, ce qui est montré n'est qu'un effet visuel).

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

​Dans la figure 4(a), LM-Nav est capable de localiser avec succès des points caractéristiques simples de ses traversées précédentes et de trouver un court chemin vers l'objectif. Bien qu'il existe plusieurs points caractéristiques de stationnement dans l'environnement, la fonction objectif de l'équation 3 permet au robot de sélectionner le point caractéristique de stationnement correct dans le contexte, minimisant ainsi la distance de déplacement globale.

La figure 4(b) met en évidence la capacité de LM-Nav à analyser des itinéraires spécifiés avec plusieurs points caractéristiques : même si atteindre directement le dernier point caractéristique est l'itinéraire le plus court en ignorant le chemin d'instruction, le robot peut toujours trouver un chemin A qui visite tous les points caractéristiques dans le bon ordre.

​Utilisez des directives pour lever l'ambiguïté. Puisque le but de LM Nav est de suivre des instructions, et pas seulement d'atteindre l'objectif final, différentes instructions peuvent entraîner des traversées différentes. La figure 5 montre un exemple dans lequel la modification des instructions peut lever l'ambiguïté sur plusieurs chemins vers un objectif. Pour les invites plus courtes (bleues), LM Nav préfère le chemin le plus direct. Lors de la spécification d'un itinéraire plus fin (magenta), LM Nav emprunte des chemins alternatifs à travers différents ensembles de points caractéristiques.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

​La situation des points caractéristiques manquants. Bien que LM-Nav puisse analyser efficacement les points caractéristiques dans les instructions, les localiser sur le graphique et trouver le chemin vers l'objectif, ce processus repose sur l'hypothèse que les points caractéristiques (i) existent dans l'environnement réel et (ii) peuvent être reconnu par VLM. La figure 4(c) montre une situation dans laquelle le chemin exécutable ne parvient pas à visiter l'un des points caractéristiques (une bouche d'incendie) et emprunte un chemin autour du haut du bâtiment au lieu du bas. Ce cas de panne était dû à l'incapacité du VLM à détecter les bouches d'incendie à partir des observations du robot.

Dans une évaluation indépendante de l'efficacité du VLM dans la récupération des points caractéristiques, les chercheurs ont découvert que bien qu'il s'agisse du meilleur modèle standard pour ce type de tâche, CLIP est incapable de récupérer un petit nombre de points caractéristiques « durs ». , y compris les bouches d'incendie et les bétonnières. Mais dans de nombreuses situations réelles, le robot peut toujours trouver un chemin pour visiter les points caractéristiques restants.

Évaluation quantitative​

Le tableau 1 résume les performances quantitatives de ce système en 20 instructions. Dans 85 % des expérimentations, LM-Nav a pu suivre systématiquement les instructions sans collision ni détachement (en moyenne une intervention tous les 6,4 kilomètres de trajet). Par rapport au modèle de base sans navigation, LM-Nav fonctionne systématiquement mieux dans l'exécution de trajectoires cibles efficaces et sans collision. Dans toutes les expériences infructueuses, l’échec peut être attribué à des capacités insuffisantes lors de la phase de planification – l’incapacité de l’algorithme de recherche à localiser intuitivement certains points caractéristiques « durs » dans le graphique – entraînant une exécution incomplète des instructions. Une enquête sur ces modes de défaillance a révélé que la partie la plus critique du système est la capacité du VLM à détecter des points caractéristiques inconnus, tels que des bouches d'incendie, et des scènes dans des conditions d'éclairage difficiles, telles que des images sous-exposées.

Le nouveau travail du gourou de lapprentissage par renforcement Sergey Levine : trois grands modèles apprennent aux robots à reconnaître leur chemin

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Jun 01, 2024 am 10:58 AM

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Identifier le surapprentissage et le sous-apprentissage grâce à des courbes d'apprentissage Identifier le surapprentissage et le sous-apprentissage grâce à des courbes d'apprentissage Apr 29, 2024 pm 06:50 PM

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains Apr 29, 2024 pm 03:25 PM

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

Comment l'IA peut-elle rendre les robots plus autonomes et adaptables ? Comment l'IA peut-elle rendre les robots plus autonomes et adaptables ? Jun 03, 2024 pm 07:18 PM

Dans le domaine de la technologie de l’automatisation industrielle, il existe deux points chauds récents qu’il est difficile d’ignorer : l’intelligence artificielle (IA) et Nvidia. Ne changez pas le sens du contenu original, affinez le contenu, réécrivez le contenu, ne continuez pas : « Non seulement cela, les deux sont étroitement liés, car Nvidia ne se limite pas à son unité de traitement graphique d'origine (GPU ), il étend son GPU. La technologie s'étend au domaine des jumeaux numériques et est étroitement liée aux technologies émergentes d'IA "Récemment, NVIDIA a conclu une coopération avec de nombreuses entreprises industrielles, notamment des sociétés d'automatisation industrielle de premier plan telles qu'Aveva, Rockwell Automation, Siemens. et Schneider Electric, ainsi que Teradyne Robotics et ses sociétés MiR et Universal Robots. Récemment, Nvidiahascoll

IA explicable : Expliquer les modèles IA/ML complexes IA explicable : Expliquer les modèles IA/ML complexes Jun 03, 2024 pm 10:08 PM

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

Cinq écoles d'apprentissage automatique que vous ne connaissez pas Cinq écoles d'apprentissage automatique que vous ne connaissez pas Jun 05, 2024 pm 08:51 PM

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Le robot de balayage et de nettoyage Cloud Whale Xiaoyao 001 a un « cerveau » ! Expérience | Le robot de balayage et de nettoyage Cloud Whale Xiaoyao 001 a un « cerveau » ! Expérience | Apr 26, 2024 pm 04:22 PM

Les robots de balayage et de nettoyage sont l’un des appareils électroménagers intelligents les plus populaires auprès des consommateurs ces dernières années. La commodité d'utilisation qu'il apporte, voire l'absence d'opération, permet aux paresseux de libérer leurs mains, permettant aux consommateurs de « se libérer » des tâches ménagères quotidiennes et de consacrer plus de temps à ce qu'ils aiment. Une qualité de vie améliorée sous une forme déguisée. Surfant sur cet engouement, presque toutes les marques d'électroménager du marché fabriquent leurs propres robots de balayage et de nettoyage, rendant l'ensemble du marché des robots de balayage et de nettoyage très vivant. Cependant, l'expansion rapide du marché entraînera inévitablement un danger caché : de nombreux fabricants utiliseront la tactique de la mer de machines pour occuper rapidement plus de parts de marché, ce qui entraînera de nombreux nouveaux produits sans aucun point de mise à niveau. ce sont des modèles de "matriochka". Ce n'est pas une exagération. Cependant, tous les robots de balayage et de nettoyage ne sont pas

See all articles