Une nouvelle chaîne de perception tridimensionnelle de l'intelligence incarnée, TeleAI et Shanghai AI Lab ont proposé un modèle incarné de fusion multiperspective 'SAM-E'-IA-php.cn

Maison

Une nouvelle chaîne de perception tridimensionnelle de l'intelligence incarnée, TeleAI et Shanghai AI Lab ont proposé un modèle incarné de fusion multiperspective 'SAM-E'

王林

Jun 05, 2024 pm 04:09 PM

机器学习产业 SAM-E

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Lorsque nous récupérons une montre mécanique, nous verrons le cadran et les aiguilles de face, et la couronne et le bracelet ouverts de côté. Au dos de la montre, vous verrez des engrenages et des mouvements complexes. Chaque perspective fournit des informations différentes qui sont combinées pour comprendre la vue tridimensionnelle globale de l'objet manipulé.

Si vous souhaitez qu'un robot apprenne à effectuer des tâches complexes dans la vie réelle, vous devez d'abord faire comprendre au robot les propriétés de l'objet opératoire et de l'objet opéré, ainsi que les trois correspondants -Espace opérationnel dimensionnel, y compris la position, la forme et la relation d'occlusion entre les objets, et la relation entre les objets et l'environnement, etc.

Deuxièmement, le robot doit comprendre les instructions en langage naturel, effectuer une planification à long terme et une exécution efficace des actions futures. Il est difficile d’équiper les robots de capacités allant de la perception de l’environnement à la prédiction des actions.

Récemment, le Le professeur Li Xuelong de l'Institut de recherche sur l'intelligence artificielle de China Telecom (TeleAI) s'est associé au Laboratoire d'intelligence artificielle de Shanghai, Université Tsinghua et d'autres unités pour simuler la cognition humaine de la « perception-mémoire-pensée- imagination" Dans le processus, un algorithme d'opération incarné universel piloté par la fusion multi-vues a été proposé, qui a fourni une solution réalisable permettant aux robots d'apprendre des opérations complexes. Le document a été accepté par la Conférence internationale sur l'apprentissage automatique ICML 2024, posant les bases base pour la construction d’une stratégie incarnée universelle en trois dimensions. L'introduction vidéo de SAM-E est la suivante :

Ces dernières années, la capacité des modèles de vision de base à comprendre les images s'est développée rapidement. Cependant, de nombreux défis subsistent dans la compréhension de l’espace tridimensionnel. Pouvons-nous utiliser de grands modèles visuels pour aider les agents incarnés à comprendre des scènes d’opération en trois dimensions et leur permettre d’accomplir diverses tâches d’exploitation complexes dans un espace tridimensionnel ? Inspiré par le processus cognitif de « perception-mémoire-pensée-imagination », l'article propose un nouveau modèle de base incarné SAM-Ebasé sur le modèle de segmentation visuelle Segment Anything (SAM).

Tout d'abord, SAM-E dispose d'une puissante capacité d'invite de «

perception

» Il applique la structure de segmentation unique de SAM à des tâches spécifiques d'instructions linguistiques et permet au modèle de prêter attention à la scène en analysant les instructions textuelles. .objet opérationnel.

Par la suite, un transformateur multi-vues est conçu pour fusionner et aligner les caractéristiques de profondeur, les caractéristiques d'image et les caractéristiques de commande afin d'obtenir l'objet «

mémoire

» et l'opération « penser » pour comprendre le bras robotique en trois dimensions. espace opérationnel.

Enfin, un

nouveau réseau de prédiction de séquences d'action

est proposé pour modéliser des séquences d'action à plusieurs pas de temps, "imaginer" des instructions d'action et réaliser de la perception de scènes tridimensionnelles aux actions incarnées de bout en bout. sortie .

Nom de l'article : SAM-E : Exploiter le modèle de fondation visuelle avec imitation de séquence pour la manipulation incorporée
Lien de l'article : https://sam-embodied.github.io/static/SAM-E.pdf
Adresse du projet : https://sam-embodied.github.io/

De la perception bidimensionnelle à la perception tridimensionnelle

Dans la vague de l'ère numérique , avec l'intelligence artificielle Avec le développement rapide des technologies intelligentes, nous entrons progressivement dans une nouvelle ère : celle de l'intelligence incarnée. Donner à un agent intelligent un corps et la capacité d’interagir directement avec le monde réel est devenu l’un des axes clés des recherches actuelles.

Pour atteindre cet objectif, l'agent doit avoir de fortes capacités de perception tridimensionnelle afin de pouvoir comprendre avec précision l'environnement qui l'entoure.

Les méthodes traditionnelles de perception bidimensionnelle sont inadéquates face à un espace tridimensionnel complexe. Comment permettre aux agents incarnés de maîtriser la capacité de modélisation précise de l'espace tridimensionnel grâce à l'apprentissage est devenu une question clé qui doit être résolue. instamment.

Travail existant restaure et reconstruit l'espace tridimensionnel à partir de plusieurs perspectives telles que la vue de face, la vue de dessus, la vue latérale, etc. Cependant, les ressources informatiques requises sont relativement importantes et leur capacité de généralisation est faible dans différents scénarios. . limité.

Afin de résoudre ce problème, ce travail explore une nouvelle approche :

appliquer la puissante capacité de généralisation des grands modèles visuels au domaine de la perception tridimensionnelle des agents incarnés.

SAM-E propose d'utiliser le grand modèle visuel général SAM avec une forte capacité de généralisation pour la perception visuelle. Grâce à un réglage fin efficace des scènes incarnées, il est généralisable et incitatif. Capacités d'extraction de fonctionnalités, capacités de segmentation d'instance, scène complexe. la compréhension et d’autres capacités sont efficacement transférées aux scènes incarnées.

Afin d'optimiser davantage les performances du modèle de base SAM, le concept de réseau de séquences d'actions est introduit, qui peut non seulement capturer la prédiction d'une action unique, mais également comprendre en profondeur le lien interne entre les actions consécutives et exploiter pleinement les informations de synchronisation entre les actions, améliorant ainsi encore la capacité du modèle de base à comprendre et à s'adapter aux scènes incarnées. Figure 1. Cadre global de SAM-E

Le point de vue principal de la méthode SAM-E comprend principalement deux aspects :

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

^{En utilisant la structure pilotée par invites de SAM, un puissant}modèle de base est construit, qui a d'excellentes performances de généralisation sous les instructions du langage de tâche. Grâce à la technologie de réglage fin LoRA, le modèle est adapté à des tâches spécifiques, améliorant encore ses performances.

adopte une

technologie de modélisation d'action séquentielle pour capturer les informations de synchronisation dans la séquence d'action, mieux comprendre les changements dynamiques de la tâche et ajuster la stratégie et la méthode d'exécution du robot en temps opportun pour maintenir une efficacité d'exécution élevée de la tâche. robot.

Perception et réglage précis des invites

Le cœur de SAM-E est une structure de réseau pilotée par des invites d'instructions de tâches, comprenant un puissant encodeur visuel et un décodeur léger.
les « invites » de tâche sont présentées sous forme de langage naturel
En tant qu'instructions de description de tâche, l'encodeur visuel exerce ses capacités de perception d'incitation pour extraire les caractéristiques liées à la tâche. Le réseau de politiques agit comme un décodeur et génère des actions basées sur l’intégration visuelle et les instructions linguistiques fusionnées. Dans la phase d'entraînement, SAM-E utilise
LoRA pour un réglage fin efficace

Fusion 3D multi-perspectives

SAM-E introduit un réseau Transformer multi-perspectives pour fusionner les entrées visuelles de plusieurs perspectives et comprendre en profondeur l'espace tridimensionnel. Son travail est divisé en deux étapes : View-wise Attention et Cross-view Attention.

Tout d'abord, effectuez séparément le traitement de l'attention intra-vue sur les fonctionnalités multi-vues, puis fusionnez plusieurs vues et descriptions de langage pour une attention de vue hybride afin d'obtenir une fusion d'informations multi-vues et un alignement image-langage.

Modélisation de la séquence d'action

Pendant l'exécution du bras robotique, la position et la rotation de l'effecteur final montrent généralement une tendance de changement continue et fluide. Cette fonctionnalité permet une connexion étroite et une continuité entre les actions adjacentes. Sur la base de cette observation, une nouvelle hypothèse de lissage temporel est proposée, visant à exploiter pleinement la corrélation intrinsèque entre les actions adjacentes et à réaliser un apprentissage par imitation efficace des séquences d'actions.

Plus précisément, le cadre SAM-E capture les modèles et les relations dans les séquences d'action grâce à la technologie de modélisation de séquence, fournit une connaissance préalable implicite pour la prédiction des actions et restreint la continuité des actions

, améliorant ainsi considérablement la précision et la cohérence de l'action. prédiction.

Dans les applications pratiques, SAM-E permet d'exécuter des actions ultérieures en plusieurs étapes en une seule prédiction d'action, améliorant considérablement l'efficacité de l'exécution.

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

Figure 4. Réseau de prédiction de séquences d'action

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」 Utilisation expérimentale

Une collection stimulante de tâches de bras robotique - RLBench, évalue de manière exhaustive les tâches opérationnelles 3D sous observation multi-vues Le modèle SAM-E surpasse considérablement les autres méthodes traditionnelles à bien des égards.

Dans le

scénario multi-tâches

, le modèle SAM-E améliore considérablement le taux de réussite des missions.

Lorsque

est confronté à la situation de migration d'un petit nombre d'échantillons vers de nouvelles tâches
, SAM-E peut améliorer efficacement les performances de nouvelles tâches grâce à ses fortes performances de généralisation et son efficacité d'exécution efficace. ✨

^{Figure 6. Exemple de tâche d'opération tridimensionnelle}

E, et en même temps, dans la phase d'exécution de la stratégie, par rapport à une seule action, exécution de la séquence d'actions Le nombre d'inférences de modèle est considérablement réduit et la tâche correspondante peut même être complétée par une seule inférence de modèle pendant le test.

^{Également efficace dans le vrai bras de robot Control}, utilisant deux caméras à la troisième personne pour capturer une vision multiperspective, avec des capacités de raisonnement en temps réel sur cinq tâches du monde réel.

Résumé

Ce travail a été le pionnier d'une communication méthode basée sur la fusion multi-vues À l'aide d'algorithmes d'opération incorporés, la segmentation visuelle de grands modèles et la fusion multi-vues sont utilisées pour obtenir trois. perception dimensionnelle de l'espace physique des agents incarnés.

Grâce à un réglage efficace des paramètres, le modèle visuel pré-entraîné est transféré à la scène incarnée, ce qui peut résoudre les tâches complexes de fonctionnement du bras de robot 3D des instructions en langage naturel. De plus, le modèle peut rapidement se généraliser à de nouvelles tâches en apprenant un petit nombre d'exemples d'experts, démontrant ainsi une efficacité de formation et d'exécution des actions supérieure.

Plus important encore, SAM-E utilise le lien cognitif «

Perception-Mémoire-Pensée-Imagination » pour réaliser une cartographie de bout en bout des données à l'action. Son importance réside non seulement dans son application à l’intelligence incarnée, mais également dans son inspiration pour améliorer la capacité cognitive de l’intelligence.

En simulant la perception humaine et les méthodes de prise de décision, les agents intelligents peuvent mieux comprendre et s'adapter à des environnements complexes, jouant ainsi un rôle plus important dans un plus large éventail de domaines.

Présentation du chef d'équipe :

Li Xuelong, CTO et scientifique en chef de China Telecom, président de l'Institut de recherche sur l'intelligence artificielle de China Telecom (TeleAI). Se concentrant principalement sur l'intelligence artificielle, la sécurité locale, le traitement d'images et l'intelligence incorporée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

4 Il y a quelques semaines By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1664

Tutoriel CakePHP

1421

Tutoriel Laravel

1315

Tutoriel PHP

1266

Tutoriel C#

1239

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles