Laissez le robot ressentir votre « Voici », l'équipe Tsinghua utilise des millions de scénarios pour créer un transfert universel entre l'homme et la machine.-IA-php.cn

Table des matières

Introduction à la méthode

Expérience

Présentation de l'équipe

Maison

Périphériques technologiques

Laissez le robot ressentir votre « Voici », l'équipe Tsinghua utilise des millions de scénarios pour créer un transfert universel entre l'homme et la machine.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 12, 2024 am 08:57 AM

模型训练

Des chercheurs de l'Institut d'information interdisciplinaire de l'Université Tsinghua ont proposé un cadre appelé « GenH2R », qui vise à permettre aux robots d'apprendre une stratégie universelle de transfert homme-machine basée sur la vision. Cette stratégie permet au robot d'attraper de manière plus fiable divers objets aux formes diverses et aux trajectoires de mouvement complexes, ouvrant ainsi de nouvelles possibilités d'interaction homme-machine. Cette recherche constitue une avancée importante pour le développement du domaine de l’intelligence artificielle et apporte une plus grande flexibilité et adaptabilité à l’application des robots dans des scénarios réels.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Avec l'avènement de l'ère de l'intelligence incarnée (Emboded AI), nous attendons des corps intelligents qu'ils interagissent activement avec l'environnement. Dans cette démarche, il est devenu crucial d’intégrer les robots dans le milieu de vie humain et d’interagir avec les humains (Human Robot Interaction). Nous devons réfléchir à la manière de comprendre le comportement et les intentions humaines, de répondre à leurs besoins de la manière la plus adaptée aux attentes humaines et de placer les humains au centre de l’intelligence incarnée (Human-Centered Embodied AI). L'une des compétences clés est le transfert généralisable d'homme à robot, qui permet aux robots de mieux coopérer avec les humains pour accomplir diverses tâches quotidiennes courantes, telles que la cuisine, l'organisation de la maison et l'assemblage de meubles.

Le développement explosif des grands modèles indique que des données massives de haute qualité + un apprentissage à grande échelle sont un moyen possible d'évoluer vers l'intelligence générale. Ainsi, les compétences générales en matière de transfert homme-machine peuvent-elles être obtenues grâce à des données robotiques massives et à des données à grande échelle. imitation de stratégie à grande échelle ? Cependant, il est dangereux et coûteux de permettre un apprentissage interactif à grande échelle entre robots et humains dans le monde réel, et la machine est susceptible de nuire aux humains :

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

S'entraîner dans un environnement de simulation et utiliser des simulations humaines et dynamiques saisir la planification des mouvements pour fournir automatiquement une grande quantité de données d'apprentissage de robots diverses, puis appliquer ces données à de vrais robots. Cette méthode basée sur l'apprentissage est appelée « Sim-to-Real Transfer », qui peut améliorer considérablement la relation entre les robots et le réel. robots. Capacités d’interaction collaborative entre humains avec une plus grande fiabilité.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Par conséquent, le cadre « GenH2R » a été proposé, à partir de trois perspectives : simulation, démonstration et imitation, permettant aux robots d'apprendre pour la première fois de bout en bout pour un transfert universel. n'importe quelle méthode de saisie, n'importe quelle trajectoire de transfert et n'importe quelle géométrie d'objet : 1) Fournit des millions de niveaux de divers scénarios de transfert de simulation complexes faciles à générer dans l'environnement "GenH2R-Sim", 2) Présente un ensemble de génération automatisée de démonstrations d'experts processus basé sur la collaboration vision-action, 3) utilisant la méthode Imitation Learning basée sur l'information 4D et l'aide à la prédiction (nuage de points + temps).

Par rapport à la méthode SOTA (CVPR2023 Highlight), le taux de réussite moyen de la méthode GenH2R sur divers ensembles de tests est augmenté de 14 %, le temps est raccourci de 13 % et elle fonctionne de manière plus robuste dans les expériences réelles sur machine.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Adresse papier : https://arxiv.org/abs/2401.00929
Page d'accueil papier : https://GenH2R.github.io
Vidéo papier :https: //youtu.be/BbphK5QlS1Y

Introduction à la méthode

Afin d'aider les joueurs qui n'ont pas encore terminé le niveau, découvrons les méthodes spécifiques de résolution d'énigmes de "Simulation Environment (GenH2R-Sim )".

Pour générer des ensembles de données main-objet humain à grande échelle et de haute qualité, l'environnement GenH2R-Sim modélise la scène en termes de poses de préhension et de trajectoires de mouvement.

En termes de poses de préhension, GenH2R-Sim a introduit de riches modèles d'objets 3D de ShapeNet, sélectionné 3 266 objets quotidiens adaptés au transfert et utilisé la méthode de génération de préhension adroite (DexGraspNet) pour générer un total de 100 Une scène de dizaines de des milliers de mains saisissant un objet. En termes de trajectoires de mouvement, GenH2R-Sim utilise plusieurs points de contrôle pour générer plusieurs courbes de Bézier lisses et introduit la rotation des mains humaines et des objets pour simuler diverses trajectoires de mouvement complexes d'objets livrés manuellement.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Dans le million de scènes de GenH2R-Sim, il dépasse non seulement de loin les derniers travaux en termes de trajectoires de mouvement (1 000 contre 1 million) et de nombre d'objets (20 contre 3 266), mais introduit également des méthodes proches de des situations réelles. Des informations interactives (par exemple, lorsque le bras du robot est suffisamment proche de l'objet, l'humain arrêtera le mouvement et attendra que le transfert soit terminé), plutôt qu'une simple lecture de trajectoire. Bien que les données générées par la simulation ne puissent pas être totalement réalistes, les résultats expérimentaux montrent que les données de simulation à grande échelle sont plus propices à l'apprentissage que les données réelles à petite échelle.

B. Génération à grande échelle d'exemples experts qui facilitent la distillation

Basé sur des données à grande échelle sur la trajectoire de la main humaine et du mouvement des objets, GenH2R génère automatiquement un grand nombre d'exemples experts. Les « experts » recherchés par GenH2R sont des planificateurs de mouvement améliorés (tels que OMG Planner). Ces méthodes sont sans apprentissage, basées sur le contrôle, ne reposent pas sur des nuages de points visuels et nécessitent souvent certains états de scène (tels que la position de capture de la cible). de l'objet). Afin de garantir que le réseau politique visuel ultérieur puisse distiller des informations bénéfiques à l’apprentissage, la clé est de garantir que les exemples fournis par les « experts » ont une corrélation vision-action. Si le point d'atterrissage final est connu lors de la planification, le bras robotique peut ignorer la vision et planifier directement la position finale pour « attendre et attendre ». Cela peut empêcher la caméra du robot de voir l'objet. réseau de stratégie visuelle en aval ; Si le bras du robot est fréquemment replanifié en fonction de la position de l'objet, cela peut provoquer un mouvement discontinu du bras du robot et apparaître sous des formes étranges, rendant impossible une saisie raisonnable.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Pour générer des exemples experts adaptés à la distillation, GenH2R introduit Landmark Planning. La trajectoire de mouvement de la main humaine sera divisée en plusieurs segments en fonction de la douceur et de la distance de la trajectoire, avec Landmark comme marque de segmentation. Dans chaque segment, la trajectoire de la main humaine est fluide et la méthode experte planifie vers les points Landmark. Cette approche garantit à la fois la corrélation visuel-action et la continuité de l’action.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

C. Réseau d'apprentissage par imitation 4D assisté par prédiction

Basé sur des exemples d'experts à grande échelle, GenH2R utilise la méthode d'apprentissage par imitation pour construire un réseau de politiques 4D afin d'observer les informations du nuage de points de séries chronologiques. Effectuer des décompositions géométriques et cinématiques. Pour chaque nuage de points d'image, la transformation de pose entre le nuage de points de l'image précédente et l'algorithme itératif du point le plus proche est calculée pour estimer les informations de flux de chaque point, de sorte que le nuage de points de chaque image ait tous des caractéristiques de mouvement. Ensuite, PointNet++ est utilisé pour coder chaque image du nuage de points et finalement non seulement décode l'action égocentrique 6D finale requise, mais génère également une prédiction de la pose future de l'objet, améliorant ainsi la capacité du réseau politique à prédire les futurs mouvements des mains et des objets. .

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Différent des backbones 4D plus complexes (tels que ceux basés sur Transformer), cette architecture réseau a une vitesse d'inférence très rapide et est plus adaptée aux scénarios d'interaction homme-machine tels que la remise d'objets qui nécessitent une faible latence. en même temps, il peut également utiliser efficacement les informations de synchronisation, atteignant un équilibre entre simplicité et efficacité.

Expérience

A. Expérience d'environnement de simulation

Les méthodes GenH2R et SOTA ont été comparées dans divers paramètres. Par rapport à la méthode utilisant la formation de données réelles à petite échelle, GenH2R-Sim La méthode d'utilisation à grande échelle. Les données de simulation à grande échelle pour la formation peuvent présenter des avantages significatifs (le taux de réussite sur divers ensembles de tests est augmenté en moyenne de 14 % et la durée est raccourcie de 13 %).

Dans l'ensemble de test de données réelles s0, la méthode GenH2R peut remettre avec succès des objets plus complexes et ajuster la posture à l'avance pour éviter des ajustements de posture fréquents lorsque la pince est proche de l'objet :

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Dans l'ensemble de test de données de simulation t0 (introduit par GenH2R-sim), la méthode de GenH2R peut prédire la posture future de l'objet pour obtenir une trajectoire d'approche plus raisonnable :

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Dans l'ensemble de test de données réelles t1 ( GenH2R -sim a été introduit à partir de HOI4D (environ 7 fois plus grand que l'ensemble de tests s0 des travaux précédents), la méthode GenH2R peut être généralisée à des objets invisibles du monde réel avec différentes géométries.

B. Expérience sur machine réelle

GenH2R déploie également les stratégies apprises sur le bras robotique dans le monde réel pour compléter le saut « sim-to-real ».

Pour des trajectoires de mouvement plus complexes (telles que la rotation), la stratégie de GenH2R montre une plus grande adaptabilité ; pour des géométries plus complexes, la méthode de GenH2R peut montrer une généralisation plus forte :

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

GenH2R a réalisé des tests sur des machines réelles et des recherches d'utilisateurs sur divers objets de remise, démontrant une forte robustesse.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Pour plus d'expériences et de méthodes, veuillez vous référer à la page d'accueil du papier.

Présentation de l'équipe

Cet article provient du laboratoire 3DVICI de l'université de Tsinghua, du laboratoire d'intelligence artificielle de Shanghai et de l'institut de recherche Qizhi de Shanghai. Les auteurs de l'article sont Wang Zifan (co-auteur), étudiants de l'université de Tsinghua, Chen Junyu (co-auteur). -auteur), Chen Ziqing et Xie Pengwei, les instructeurs sont Yi Li et Chen Rui.

Le laboratoire de calcul de vision 3D et d'intelligence artificielle de l'université Tsinghua (appelé 3DVICI Lab) est un laboratoire d'intelligence artificielle relevant de l'Institut d'information interdisciplinaire de l'université Tsinghua. Il a été créé et dirigé par le professeur Yi Li. 3DVICI Lab s'intéresse aux problématiques les plus pointues de la vision tridimensionnelle générale et de l'interaction robotique intelligente en intelligence artificielle. Ses axes de recherche couvrent la perception incarnée, la planification et la génération d'interactions, la collaboration homme-machine, etc., et sont étroitement liés à l'application. des domaines tels que la robotique, la réalité virtuelle et la conduite autonome. L'objectif de recherche de l'équipe est de permettre aux agents intelligents de comprendre et d'interagir avec le monde tridimensionnel. Les résultats ont été publiés dans les principales conférences et revues informatiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Apr 03, 2024 pm 12:04 PM

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes Jun 11, 2024 am 09:51 AM

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. Apr 29, 2024 pm 06:55 PM

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. May 07, 2024 pm 05:00 PM

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,

See all articles