Maison Périphériques technologiques IA Gemini 1.5 Pro est installé dans le robot et peut fournir un concierge et des conseils après la visite de l'entreprise.

Gemini 1.5 Pro est installé dans le robot et peut fournir un concierge et des conseils après la visite de l'entreprise.

Jul 17, 2024 am 05:58 AM
产业

Les grands modèles à contexte long aident les robots à comprendre le monde.

Récemment, Google DeepMind a soudainement commencé à montrer ses robots.

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

Ce robot peut facilement suivre les instructions humaines, effectuer une navigation visuelle et utiliser le bon sens pour trouver des chemins dans un espace tridimensionnel.

Il utilise le Gemini 1.5 Pro, un grand modèle récemment sorti par Google. Lorsqu'ils utilisent des modèles d'IA traditionnels, les robots ont souvent des difficultés à se souvenir des détails environnementaux en raison des limitations de longueur du contexte, mais la longueur de contexte de jeton de plusieurs millions de niveaux de Gemini 1.5 Pro offre aux robots de puissantes capacités de mémoire environnementale.

Dans un scénario de bureau réel, les ingénieurs guident le robot à travers des zones spécifiques et marquent les emplacements clés qui doivent être rappelés, tels que « le bureau de Lewis » ou la « zone de bureau temporaire ». Après avoir bouclé un cercle, si quelqu'un le demande, le robot peut l'emmener à ces endroits en fonction de ces souvenirs. Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路Même si vous ne pouvez pas indiquer l'endroit précis où vous souhaitez aller, mais simplement exprimer votre objectif, le robot peut vous emmener à l'endroit correspondant. C’est la manifestation spécifique de la capacité de raisonnement des grands modèles chez les robots. Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
Tout cela est indissociable d'une stratégie de navigation appelée Mobility VLA.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
  • Titre de l'article : Mobility VLA : Navigation d'instructions multimodales avec des VLM à contexte long et des graphiques topologiques
  • Lien de l'article : https://arxiv.org/pdf/2407.07775v1

DeepMind affirme que ce travail représente la prochaine étape dans l’interaction homme-machine. À l’avenir, les utilisateurs pourront simplement filmer leurs visites environnementales avec leur smartphone. Après avoir regardé la vidéo, leur assistant robotique personnel a pu comprendre et naviguer dans l’environnement.

Mobility VLA : navigation d'instructions multimodales utilisant un VLM à contexte long et une carte topologique

Avec le développement continu de la technologie de l'IA, la navigation des robots a fait de grands progrès. Les premiers travaux reposaient sur la spécification par les utilisateurs de coordonnées physiques dans un environnement pré-dessiné. La navigation par objectif d'objet (ObjNav) et la navigation par langage visuel (VLN) constituent un grand pas en avant dans la convivialité des robots, car elles permettent aux utilisateurs d'utiliser un langage de vocabulaire ouvert pour définir des objectifs de navigation, tels que « Aller sur le canapé ».

Afin de rendre les robots vraiment utiles et omniprésents dans notre vie quotidienne, des chercheurs de Google DeepMind ont proposé de mettre à niveau l'espace de langage naturel d'ObjNav et de VLN vers un espace multimodal, ce qui signifie que les robots peuvent accepter le langage naturel à en même temps des commandes verbales et/ou visuelles pour réaliser un nouveau bond en avant. Par exemple, une personne peu familière avec un bâtiment pourrait tenir une boîte en plastique et demander : « Où dois-je la remettre ? » et le robot guiderait l'utilisateur pour remettre la boîte sur une étagère en fonction du contexte verbal et visuel. Ils appellent ce type de tâche de navigation navigation indiquée multimodale (MIN).
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
MIN est une vaste mission qui comprend l'exploration environnementale et la navigation guidée par commande. Dans de nombreux cas, cependant, on peut explorer en profitant des vidéos de démonstration. Les visites de démonstration présentent plusieurs avantages :

  1. Facile à collecter : les utilisateurs peuvent contrôler le robot à distance ou enregistrer une vidéo avec leur smartphone tout en se promenant dans l'environnement. De plus, il existe des algorithmes d'exploration qui peuvent être utilisés pour créer des visites.
  2. Cela est conforme aux habitudes des utilisateurs : lorsque les utilisateurs acquièrent un nouveau robot domestique, ils emmèneront naturellement le robot dans leur maison, et ils pourront présenter verbalement les lieux d'intérêt lors de la visite.
  3. Dans certains cas, il est souhaitable de limiter les activités du robot à des zones prédéfinies pour des raisons de sécurité et de confidentialité. À cette fin, l'auteur présente et étudie ce type de tâche dans cet article, à savoir « Multimodal Instruction Tour Navigation (MINT) », qui utilise des visites de démonstration et se concentre sur la satisfaction des instructions multimodales de l'utilisateur.

Récemment, les modèles de langage visuel (VLM) à grande échelle ont montré un grand potentiel pour résoudre le problème MINT, grâce à leurs capacités impressionnantes en matière de compréhension du langage et des images ainsi que de raisonnement de bon sens, qui sont des éléments clés pour la mise en œuvre MENTHE.Cependant, le VLM seul est difficile à résoudre le problème MINT pour les raisons suivantes :

  1. En raison de contraintes de longueur de contexte, de nombreux VLM ont un nombre très limité d'images d'entrée, ce qui limite considérablement la fidélité de la compréhension de l'environnement au sens large. environnements.
  2. Résoudre le problème MINT nécessite de calculer les actions du robot. Les requêtes demandant de telles actions au robot sont souvent incompatibles avec ce sur quoi le VLM a été (pré)entraîné. Par conséquent, les performances des robots sans échantillon sont souvent insatisfaisantes.

Pour résoudre le problème MINT, DeepMind a proposé Mobility VLA, une stratégie de navigation Vision-Langage-Action (VLA) en couches. Il combine la compréhension environnementale et les capacités de raisonnement de bon sens du VLM à contexte long avec une stratégie de navigation robuste de bas niveau basée sur des graphiques topologiques.

Plus précisément, VLM de haut niveau utilise une vidéo de visite de démonstration et des instructions utilisateur multimodales pour trouver l'image cible dans la vidéo de visite. Ensuite, une stratégie classique de bas niveau utilise des cadres cibles et des cartes topologiques (construites hors ligne à partir de cadres de visite) pour générer des actions de robot (waypoints) à chaque pas de temps. L'utilisation de VLM à contexte long résout le problème de fidélité de la compréhension de l'environnement, et la carte topologique comble le fossé entre la distribution de formation du VLM et les actions du robot requises pour résoudre MINT.

Les auteurs ont évalué le VLA mobile dans des environnements de bureau et domestiques réels (836 m2). Mobility VLA a obtenu 86 % et 90 % sur des tâches MINT auparavant irréalisables impliquant un raisonnement complexe (tel que "Je veux stocker quelque chose hors de la vue du public, où dois-je aller ?") et des taux de réussite multimodaux (26 % et 60 %). plus élevé que les méthodes de référence, respectivement).

L'auteur a également démontré une énorme amélioration dans la commodité de l'interaction de l'utilisateur avec le robot. Les utilisateurs peuvent utiliser leur smartphone pour effectuer des visites vidéo commentées dans un environnement domestique, puis demander "Où est mon coaster ?"

.
Détails techniques

Mobilit VLA est une stratégie de navigation à plusieurs niveaux (illustré dans la figure 1), comprenant des parties en ligne et hors ligne.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
Dans la phase hors ligne, la carte topologique G est générée sur la base de la visite de démonstration (N, F). Dans la phase en ligne, la stratégie de haut niveau trouve l'indice de trame cible de navigation g à travers des visites de démonstration et des instructions utilisateur multimodales (d, I), qui est un nombre entier correspondant à une trame spécifique de la visite. Dans l'étape suivante, la stratégie de bas niveau utilise la carte topologique, les données d'observation actuelles de la caméra (O) et g pour générer une action de point de cheminement (a) à chaque pas de temps que le robot doit exécuter.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
où h et l représentent respectivement des stratégies de haut niveau et de bas niveau.

Visites de démonstration et génération de cartes topologiques hors ligne

Mobility VLA utilise des visites de démonstration environnementales pour résoudre les problèmes MINT. De telles visites peuvent être effectuées à distance par un utilisateur humain, ou une vidéo peut être enregistrée avec un smartphone tout en se promenant dans l'environnement.

Ensuite, Mobility VLA hors ligne construit un graphe topologique G = (V, E), où chaque sommet v_i∈V correspond à l'image f_i dans la vidéo de visite de démonstration (F, N). Les auteurs ont utilisé COLMAP, un pipeline de structure à partir du mouvement disponible dans le commerce, pour déterminer la pose approximative de la caméra à 6 degrés de liberté pour chaque image et la stocker dans les sommets. Ensuite, si le sommet cible est « devant » le sommet source (à moins de 90 degrés de différence d’attitude par rapport au sommet source) et à moins de 2 mètres, une arête dirigée est ajoutée à G.

Par rapport au pipeline de navigation traditionnel (comme la cartographie de l'environnement, l'identification des zones traversables, puis la construction d'un PRM), l'approche de la carte topologique est beaucoup plus simple car elle capture la connectivité générale de l'environnement en fonction de la trajectoire de la visite. .

Recherche de cibles de haut niveau basée sur un VLM multimodal à contexte long

Pendant l'exécution en ligne, la stratégie de haut niveau utilise la capacité de raisonnement de bon sens du VLM pour déterminer une cible de navigation à partir du visite de démonstration, pour satisfaire une variété d'instructions utilisateur multimodales, familières et souvent ambiguës. À cette fin, le chercheur a préparé une invite P (F, N, d, I) composée de texte et d'images entrelacés. Ce qui suit est un exemple spécifique de commande utilisateur multimodale, correspondant à une question du tableau 1 : « Où dois-je renvoyer ceci ? »
You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?
Copier après la connexion
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
VLM Renvoie un index de trame cible entier g.

Utiliser la carte topologique pour atteindre l'objectif de bas niveau

Une fois que la stratégie de haut niveau détermine l'indice de trame cible g, la stratégie de bas niveau (algorithme 1) prend le relais et exécute le tâche à chaque pas de temps Génère une action waypoint (Formule 1).
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
A chaque pas de temps, les auteurs utilisent un système de localisation visuelle hiérarchique en temps réel pour estimer la pose du robot T et le sommet de départ le plus proche v_s∈G en utilisant l'observation actuelle de la caméra O (ligne 5). Le système de localisation trouve les k trames candidates les plus proches dans G via des descripteurs globaux puis calcule T via PnP. Ensuite, le chemin le plus court S sur le graphe topologique entre v_s et le sommet cible v_g (le sommet correspondant à g) est déterminé par l'algorithme de Dijkstra (ligne 9). Enfin, la politique de bas niveau renvoie une action de point de cheminement, qui est le Δx, Δy, Δθ du prochain sommet v_1 dans S par rapport à T (ligne 10).

Résultats expérimentaux

Pour démontrer les performances de Mobility VLA et mieux comprendre la conception clé, les auteurs ont conçu des expériences pour répondre aux questions de recherche suivantes :

  • Question 1 : Dans dans le monde réel, Mobility VLA fonctionne-t-il bien dans MINT ?
  • Question 2 : Mobility VLA surpassera-t-il les alternatives en raison de l'utilisation de VLM à contexte long ?
  • Question 3 : Une carte topologique est-elle nécessaire ? Le VLM peut-il générer directement de l’action ?

Mobility VLA offre des performances de bout en bout robustes dans des environnements réels

1. Taux de réussite de bout en bout élevé. Le tableau 2 montre que Mobility VLA atteint des taux de réussite de navigation de bout en bout élevés dans la plupart des catégories d'instructions utilisateur, y compris les « exigences de raisonnement » et les instructions « multimodales » qui étaient auparavant irréalisables.

2. Objectif de bas niveau robuste atteint. Le tableau 2 montre également la robustesse dans le monde réel (taux de réussite de 100 %) de la stratégie d’atteinte des objectifs de bas niveau de Mobility VLA. La visite de démonstration incluse a été enregistrée plusieurs mois avant l'expérience, alors que de nombreux objets, meubles et conditions d'éclairage étaient différents.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
Le VLM à contexte long surpasse les alternatives en matière de recherche avancée de cibles

1. Mobility VLA surpasse les alternatives. Le tableau 3 montre que le taux de réussite de la recherche d'objectifs de haut niveau de Mobility VLA est nettement supérieur à celui des méthodes de comparaison. Étant donné que le taux de réussite de bas niveau est de 100 %, ce taux de réussite de recherche de cible de haut niveau représente le taux de réussite de bout en bout.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
2. L'utilisation d'un VLM à contexte long pour traiter des vidéos de tournée à fréquence d'images élevée est la clé du succès. La saisie d'une visite de démonstration complète d'un vaste environnement dans un VLM à contexte non long est un défi car chaque image nécessite un budget de centaines de jetons. Une solution pour réduire le nombre de jetons d’entrée consiste à réduire la fréquence d’images de la vidéo de visite, au prix de la perte d’images intermédiaires. Le tableau 4 montre qu'à mesure que la fréquence d'images du tour diminue, le taux de réussite de la recherche de cible de haut niveau diminue également. Cela n'est pas surprenant, car les vidéos de tournée avec des fréquences d'images inférieures perdent parfois les images cibles de navigation. De plus, si l'on compare les VLM de pointe, seul Gemini 1.5 Pro a un taux de réussite satisfaisant, grâce à sa longueur de contexte pouvant atteindre 1 million de jetons.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
La carte topologique est la clé du succès

Le tableau 5 montre les performances de bout en bout du Mobility VLA dans les simulations par rapport au fonctionnement rapide du point de cheminement à sortie directe du VLM. Le taux de réussite de bout en bout de 0 % montre que Gemini 1.5 Pro est incapable de réaliser une navigation zéro tir du robot sans carte topologique. Sur la base d'expériences, l'auteur a découvert que Gemini génère presque toujours une action de point de cheminement « avancer », quelle que soit l'observation actuelle de la caméra. De plus, l'API Gemini 1.5 actuelle nécessite le téléchargement des 948 images de visite à chaque appel d'inférence, ce qui entraîne un coût prohibitif de 26 secondes d'exécution pour chaque mètre parcouru par le robot. D'un autre côté, le VLM de haut niveau de Mobility VLA prendra 10 à 30 secondes pour trouver l'index cible, puis le robot utilisera la carte topologique de bas niveau pour naviguer vers la cible, ce qui donnera lieu à un système très robuste et efficace (0,19 secondes par étape) système pour résoudre le problème MINT.
Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
Veuillez vous référer au document original pour plus de détails.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1666
14
Tutoriel PHP
1273
29
Tutoriel C#
1253
24
Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles