


Des chercheurs développent un robot capable de comprendre les commandes en anglais et d'effectuer des tâches ménagères
Une équipe de chercheurs de l'Université de Princeton, de l'Université de Stanford et de Google a utilisé le modèle GPT-3 Davinci d'OpenAI pour développer un robot nommé TidyBot capable de comprendre les instructions en anglais et d'effectuer les tâches ménagères. Ce robot peut effectuer automatiquement des tâches telles que trier le linge, ramasser les déchets sur le sol et ramasser les jouets en fonction des préférences de l'utilisateur.
Le modèle GPT-3 Davinci est un modèle d'apprentissage en profondeur, faisant partie de la famille de modèles GPT, capable de comprendre et de générer du langage naturel. Le modèle dispose de puissantes capacités de synthèse et peut apprendre des attributs et des relations d'objets complexes à partir de grandes quantités de données textuelles. Les chercheurs ont utilisé cette capacité pour que le robot place des objets en fonction de plusieurs exemples d'objets fournis par l'utilisateur, tels que "une chemise jaune dans le tiroir, une chemise violet foncé dans le placard, des chaussettes blanches dans le tiroir", puis ont laissé le modèle conclure. Les règles de préférences générales de l'utilisateur et les appliquer aux interactions futures.
Les chercheurs ont écrit dans l'article : « Notre idée fondamentale est que les capacités de synthèse des LLM (Large Language Models) correspondent bien aux besoins de généralisation des robots personnalisés. propriétés des objets et relations apprises à partir d'ensembles de données textuels massifs »
Ils écrivent également : « Contrairement aux méthodes traditionnelles qui nécessitent une collecte de données coûteuse et une formation de modèles, nous montrons que le LLM peut être implémenté directement dans le domaine de la robotique, en tirant parti de la robotique. de puissantes capacités de synthèse qu'ils apprennent à partir d'énormes quantités de données textuelles. » Sur le site Web du journal, les chercheurs ont présenté un robot capable de classer le linge en couleurs claires et foncées, de recycler les canettes de boissons et de jeter les poubelles, d'emballer les sacs et la vaisselle, de les mettre en vrac. les objets à leur place et rangez les jouets dans les tiroirs.
Les chercheurs ont d'abord testé un ensemble de données de référence textuelles dans lequel les préférences de l'utilisateur étaient saisies et il a été demandé au modèle de créer des règles de personnalisation pour déterminer l'attribution des articles. Le modèle résume les exemples en règles générales et utilise le résumé pour déterminer où placer les nouveaux éléments. Les scènes de base sont définies dans quatre salles avec 24 scènes dans chaque salle. Chaque scène contient entre deux et cinq emplacements pour placer des éléments, et il y a un nombre égal d'éléments visibles et invisibles que le modèle doit classer. Le test a atteint une précision de 91,2 % sur des éléments invisibles, ont-ils écrit.
Lorsqu'ils ont appliqué cette approche à un robot du monde réel, TidyBot, ils ont constaté qu'il était capable de ramasser avec succès 85 % des objets. TidyBot a été testé dans huit scénarios réels, chacun avec un ensemble de dix objets, et le robot a été exécuté trois fois dans chaque scénario. Selon IT House, en plus de LLM, TidyBot utilise également un classificateur d'images appelé CLIP et un détecteur d'objets appelé OWL-ViT.
Danfei Xu, professeur adjoint à la School of Interactive Computing du Georgia Institute of Technology, a déclaré en parlant du modèle PaLM-E de Google que le LLM donne aux robots plus de capacités de résolution de problèmes. "La plupart des systèmes de planification de mission précédents reposaient sur une certaine forme d'algorithmes de recherche ou d'optimisation, qui étaient moins flexibles et difficiles à construire. Le LLM et le LLM multimodal permettent à ces systèmes de bénéficier de données à l'échelle Internet et de les utiliser facilement pour résoudre de nouveaux problèmes", a-t-il déclaré. .
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Le robot humanoïde Ameca est passé à la deuxième génération ! Récemment, lors de la Conférence mondiale sur les communications mobiles MWC2024, le robot le plus avancé au monde, Ameca, est à nouveau apparu. Autour du site, Ameca a attiré un grand nombre de spectateurs. Avec la bénédiction de GPT-4, Ameca peut répondre à divers problèmes en temps réel. "Allons danser." Lorsqu'on lui a demandé si elle avait des émotions, Ameca a répondu avec une série d'expressions faciales très réalistes. Il y a quelques jours à peine, EngineeredArts, la société britannique de robotique derrière Ameca, vient de présenter les derniers résultats de développement de l'équipe. Dans la vidéo, le robot Ameca a des capacités visuelles et peut voir et décrire toute la pièce et des objets spécifiques. Le plus étonnant, c'est qu'elle peut aussi

Cette semaine, FigureAI, une entreprise de robotique investie par OpenAI, Microsoft, Bezos et Nvidia, a annoncé avoir reçu près de 700 millions de dollars de financement et prévoit de développer un robot humanoïde capable de marcher de manière autonome au cours de la prochaine année. Et l’Optimus Prime de Tesla a reçu à plusieurs reprises de bonnes nouvelles. Personne ne doute que cette année sera celle de l’explosion des robots humanoïdes. SanctuaryAI, une entreprise canadienne de robotique, a récemment lancé un nouveau robot humanoïde, Phoenix. Les responsables affirment qu’il peut accomplir de nombreuses tâches de manière autonome, à la même vitesse que les humains. Pheonix, le premier robot au monde capable d'accomplir des tâches de manière autonome à la vitesse d'un humain, peut saisir, déplacer et placer avec élégance chaque objet sur ses côtés gauche et droit. Il peut identifier des objets de manière autonome

Dans le domaine de la technologie de l’automatisation industrielle, il existe deux points chauds récents qu’il est difficile d’ignorer : l’intelligence artificielle (IA) et Nvidia. Ne changez pas le sens du contenu original, affinez le contenu, réécrivez le contenu, ne continuez pas : « Non seulement cela, les deux sont étroitement liés, car Nvidia ne se limite pas à son unité de traitement graphique d'origine (GPU ), il étend son GPU. La technologie s'étend au domaine des jumeaux numériques et est étroitement liée aux technologies émergentes d'IA "Récemment, NVIDIA a conclu une coopération avec de nombreuses entreprises industrielles, notamment des sociétés d'automatisation industrielle de premier plan telles qu'Aveva, Rockwell Automation, Siemens. et Schneider Electric, ainsi que Teradyne Robotics et ses sociétés MiR et Universal Robots. Récemment, Nvidiahascoll

Rédacteur en chef du Machine Power Report : Wu Xin La version domestique de l'équipe robot humanoïde + grand modèle a accompli pour la première fois la tâche d'exploitation de matériaux flexibles complexes tels que le pliage de vêtements. Avec le dévoilement de Figure01, qui intègre le grand modèle multimodal d'OpenAI, les progrès connexes des pairs nationaux ont attiré l'attention. Hier encore, UBTECH, le « stock numéro un de robots humanoïdes » en Chine, a publié la première démo du robot humanoïde WalkerS, profondément intégré au grand modèle de Baidu Wenxin, présentant de nouvelles fonctionnalités intéressantes. Maintenant, WalkerS, bénéficiant des capacités de grands modèles de Baidu Wenxin, ressemble à ceci. Comme la figure 01, WalkerS ne se déplace pas, mais se tient derrière un bureau pour accomplir une série de tâches. Il peut suivre les commandes humaines et plier les vêtements

Dans la vague actuelle de changements technologiques rapides, l'intelligence artificielle (IA), l'apprentissage automatique (ML) et l'apprentissage profond (DL) sont comme des étoiles brillantes, à la tête de la nouvelle vague des technologies de l'information. Ces trois mots apparaissent fréquemment dans diverses discussions de pointe et applications pratiques, mais pour de nombreux explorateurs novices dans ce domaine, leurs significations spécifiques et leurs connexions internes peuvent encore être entourées de mystère. Alors regardons d'abord cette photo. On constate qu’il existe une corrélation étroite et une relation progressive entre l’apprentissage profond, l’apprentissage automatique et l’intelligence artificielle. Le deep learning est un domaine spécifique du machine learning, et le machine learning

Près de 20 ans se sont écoulés depuis que le concept d'apprentissage profond a été proposé en 2006. L'apprentissage profond, en tant que révolution dans le domaine de l'intelligence artificielle, a donné naissance à de nombreux algorithmes influents. Alors, selon vous, quels sont les 10 meilleurs algorithmes pour l’apprentissage profond ? Voici les meilleurs algorithmes d’apprentissage profond, à mon avis. Ils occupent tous une position importante en termes d’innovation, de valeur d’application et d’influence. 1. Contexte du réseau neuronal profond (DNN) : Le réseau neuronal profond (DNN), également appelé perceptron multicouche, est l'algorithme d'apprentissage profond le plus courant lorsqu'il a été inventé pour la première fois, jusqu'à récemment en raison du goulot d'étranglement de la puissance de calcul. années, puissance de calcul, La percée est venue avec l'explosion des données. DNN est un modèle de réseau neuronal qui contient plusieurs couches cachées. Dans ce modèle, chaque couche transmet l'entrée à la couche suivante et

Convolutional Neural Network (CNN) et Transformer sont deux modèles d'apprentissage en profondeur différents qui ont montré d'excellentes performances sur différentes tâches. CNN est principalement utilisé pour les tâches de vision par ordinateur telles que la classification d'images, la détection de cibles et la segmentation d'images. Il extrait les caractéristiques locales de l'image via des opérations de convolution et effectue une réduction de dimensionnalité des caractéristiques et une invariance spatiale via des opérations de pooling. En revanche, Transformer est principalement utilisé pour les tâches de traitement du langage naturel (NLP) telles que la traduction automatique, la classification de texte et la reconnaissance vocale. Il utilise un mécanisme d'auto-attention pour modéliser les dépendances dans des séquences, évitant ainsi le calcul séquentiel dans les réseaux neuronaux récurrents traditionnels. Bien que ces deux modèles soient utilisés pour des tâches différentes, ils présentent des similitudes dans la modélisation des séquences.
