Maison Périphériques technologiques IA Après «l'intelligence spatiale» de Li Feifei, l'Université Jiao Tong de Shanghai, l'Université Zhiyuan, l'Université de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

Après «l'intelligence spatiale» de Li Feifei, l'Université Jiao Tong de Shanghai, l'Université Zhiyuan, l'Université de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

Aug 07, 2024 pm 05:06 PM
产业

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Le premier auteur de cet article est Cai Wenxiao, un étudiant diplômé de l'Université de Stanford. Auparavant, il a obtenu un baccalauréat de l'Université du Sud-Est. le score de première année. Ses intérêts de recherche portent sur les grands modèles multimodaux et l’intelligence incorporée. Ce travail a été réalisé lors de sa visite à l'Université Jiao Tong de Shanghai et de son stage à l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin. Son superviseur était le professeur Zhao Bo, l'auteur correspondant de cet article.

Auparavant, le professeur Li Feifei a proposé le concept d'intelligence spatiale. En réponse, des chercheurs de l'Université Jiao Tong de Shanghai, de l'Université de Stanford, de l'Université de Zhiyuan, de l'Université de Pékin, de l'Université d'Oxford et de l'Université de Dongda ont proposé le grand modèle spatial SpatialBot. Il a également proposé les données de formation SpatialQA et la liste de tests SpatialBench, essayant de permettre aux grands modèles multimodaux de comprendre la profondeur et l'espace dans des scénarios généraux et des scénarios incorporés.

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

  • Titre de l'article : SpatialBot : Compréhension précise de la profondeur avec des modèles de langage de vision
  • Lien de l'article : https://arxiv.org/abs/2406.13642
  • Page d'accueil du projet : https://github. com/BAAI-DCAI/SpatialBot

Dans la tâche de sélection et de placement de l'intelligence incarnée, il est nécessaire de déterminer si la griffe mécanique a touché l'objet cible. Si vous le rencontrez, vous pouvez fermer vos griffes et l'attraper. Cependant, dans cette scène de l'ensemble de données de démonstration Berkerly UR5, même GPT-4o ou les humains ne peuvent pas déterminer si la griffe mécanique a touché l'objet cible à partir d'une seule image RVB. Par exemple, à l'aide des informations de profondeur, la carte de profondeur peut être directement obtenue. montré à GPT-4o. Si tel est le cas, il ne peut pas être jugé car il ne peut pas comprendre la carte de profondeur.

SpatialBot peut obtenir avec précision les valeurs de profondeur de la griffe mécanique et de l'objet cible grâce à sa compréhension de la profondeur RVB, générant ainsi une compréhension des concepts spatiaux.

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

SpatialBot Démo de la scène incarnée :

1. Du point de vue humain (caméra), prenez la tasse de thé à droite Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.2. Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot. Voie nécessaire vers l’intelligence incarnée, comment faire comprendre l’espace aux grands modèles ?
Le nuage de points est relativement cher et les caméras binoculaires doivent être étalonnées fréquemment pendant leur utilisation. En revanche, les caméras de profondeur sont abordables et largement utilisées. Dans des scénarios généraux, même sans un tel équipement matériel, les modèles d'estimation de la profondeur de formation non supervisée à grande échelle peuvent déjà fournir des informations de profondeur relativement précises. Par conséquent, les auteurs proposent d’utiliser RGBD comme entrée dans des modèles spatialement vastes.

Quels sont les problèmes du parcours technique actuel ?

Les modèles existants ne peuvent pas comprendre directement l'entrée de la carte de profondeur. Par exemple, l'encodeur d'image CLIP/SigLIP est entraîné sur des images RVB sans jamais voir de cartes de profondeur.
  1. La plupart des grands ensembles de données de modèles existants peuvent être analysés et traités en utilisant uniquement le RVB. Par conséquent, si les données existantes sont simplement modifiées en entrée RGBD, le modèle n’indexera pas activement les connaissances dans la carte de profondeur. Des tâches et une assurance qualité spécialement conçues sont nécessaires pour guider le modèle afin de comprendre la carte de profondeur et d'utiliser les informations de profondeur.
  2. S Trois niveaux de SpatialQA, guident progressivement le modèle pour comprendre la carte de profondeur, l'utilisation des informations de profondeur
    Comment guider le modèle pour comprendre et utiliser les informations de profondeur, et comprendre l'espace ?
    L'auteur propose un jeu de données SpatialQA à trois niveaux.

    Au niveau bas, guidez le modèle pour comprendre la carte de profondeur et guidez les informations directement à partir de la carte de profondeur
    1. Au niveau intermédiaire, laissez le modèle aligner la profondeur avec RVB ;
    2. Concevoir plusieurs profondeurs de haut niveau Pour les tâches connexes, 50 000 données sont annotées, permettant au modèle d'utiliser les informations de profondeur pour terminer la tâche en fonction de la compréhension de la carte de profondeur. Les tâches incluent : la relation de position spatiale, la taille de l'objet, si les objets sont en contact, la compréhension de la scène du robot, etc.
    3. Exemple de dialogue sur Que contient Spatialbot ?

    Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

    1. En s'appuyant sur les idées de l'agent, SpatialBot peut obtenir des informations de profondeur précises via l'API en cas de besoin. Il peut atteindre une précision de plus de 99 % sur des tâches telles que l'acquisition d'informations de profondeur et la comparaison de distance. 2. Pour les tâches de compréhension spatiale, l'auteur a annoncé la liste SpatialBench. Testez les capacités de compréhension approfondie du modèle grâce à un contrôle qualité soigneusement conçu et annoté. SpatialBot affiche des capacités proches de GPT-4o sur la liste.

    Comment le modèle comprend-il la carte de profondeur ?

    1. Saisissez la carte de profondeur du modèle : Afin de prendre en compte les tâches intérieures et extérieures, une méthode d'encodage de carte de profondeur unifiée est nécessaire. Les tâches de saisie et de navigation en intérieur peuvent nécessiter une précision millimétrique. Les scènes extérieures n'ont pas besoin d'être aussi précises, mais peuvent nécessiter une plage de valeurs de profondeur supérieure à 100 mètres. L'encodage ordinal est utilisé pour l'encodage dans les tâches de vision traditionnelles, mais la valeur de l'ordinal ne peut pas être ajoutée ou soustraite. Afin de conserver autant que possible toutes les informations de profondeur, SpatialBot utilise directement la profondeur métrique en millimètres, allant de 1 mm à 131 m, en utilisant uint24 ou uint8 à trois canaux pour préserver ces valeurs.
    2. Afin d'obtenir avec précision des informations de profondeur, SpatialBot appellera DepthAPI sous forme de points pour obtenir des valeurs de profondeur précises lorsqu'il le jugera nécessaire. Si vous souhaitez obtenir la profondeur d'un objet, SpatialBot réfléchira d'abord au cadre de délimitation de l'objet, puis appellera l'API en utilisant le point central du cadre de délimitation.
    3. SpatialBot utilise le point central de l'objet, la profondeur moyenne, quatre valeurs maximale et minimale pour décrire la profondeur. #                                                                                                                                       dans po, po,
    po.
    1. SpatialBot est basé sur plusieurs LLM de base du 3B au 8B. En apprenant des connaissances spatiales dans SpatialQA, SpatialBot démontre également des améliorations significatives des performances sur les ensembles de données MLLM couramment utilisés (MME, MMBench, etc.).

    2. SpatialBot a également démontré des résultats étonnants sur des tâches spécifiques telles que Open X-Embodiment et les données d'exploration du robot collectées par l'auteur.
    B Comment marquer les données des scénarios généraux Spatialbot

    Comment marquer les données ?
    Questions soigneusement conçues sur la compréhension spatiale, telles que la profondeur, la relation de distance, le haut et le bas, les relations de position avant et arrière gauche et droite, les relations de taille, et incluent des questions importantes dans l'incarnation, telles que si deux objets sont dans contact.
    Dans l'ensemble de test SpatialBench, les questions, les options et les réponses sont d'abord réfléchies manuellement. Afin d'augmenter la taille de l'ensemble de test, GPT est également utilisé pour l'annotation avec le même processus.
    L'ensemble de formation SpatialQA comprend trois aspects :

    Comprendre directement la carte de profondeur, laisser le modèle regarder la carte de profondeur, analyser la distribution de la profondeur et deviner les objets qui peuvent être inclus ;
    1. Compréhension des relations spatiales et raisonnement ;
    2. Compréhension des scènes de robot : décrire les scènes, les objets inclus et les tâches possibles dans Open X-Embodiment et les données du robot collectées dans cet article, et étiqueter manuellement les objets et les cadres de délimitation du robot.

    Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

                                                                                                                                                                    Ouvrir Lorsque vous utilisez GPT pour annoter cette partie des données, GPT verra d'abord la carte de profondeur, décrira la carte de profondeur et raisonnera sur les scènes et les objets qu'elle peut contenir. Ensuite, il verra la carte RVB et filtrera la description et le raisonnement corrects. .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1675
14
Tutoriel PHP
1278
29
Tutoriel C#
1257
24
Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

See all articles