Table des matières
Raisonnement spatial
Navigation en langage naturel
Navigation visuelle
Visual Laying
Maison Périphériques technologiques IA Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Apr 11, 2024 pm 03:10 PM
大语言模型 llms 机器人技术

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Les grands modèles linguistiques (LLM) démontrent des performances impressionnantes dans la compréhension du langage et diverses tâches de raisonnement. Cependant, ils restent sous-étudiés sur un aspect clé de la cognition humaine : le raisonnement spatial. Les humains ont la capacité de créer des images mentales d'objets et d'actions invisibles grâce à un processus connu sous le nom de Mind's Eye, permettant d'imaginer le monde invisible. Inspirés par cette capacité cognitive, les chercheurs ont proposé la Visualisation de la pensée (VoT). VoT vise à guider le raisonnement spatial des LLM en visualisant leurs signes de raisonnement, guidant ainsi les étapes de raisonnement ultérieures. Les chercheurs ont appliqué la VoT à des tâches de raisonnement spatial à plusieurs sauts, notamment la navigation en langage naturel, la navigation visuelle et le pavage visuel dans un monde en grille bidimensionnel. Les résultats expérimentaux montrent que la VoT améliore considérablement les capacités de raisonnement spatial des LLM. Notamment, VoT surpasse les modèles multimodaux de grand langage (MLLM) existants sur ces tâches.

Introduction

Ces dernières années, les grands modèles de langage (LLM) ont atteint des performances remarquables sur diverses tâches liées au langage. Malgré leur succès dans le raisonnement mathématique, le raisonnement de bon sens et d’autres tâches de raisonnement telles que le raisonnement symbolique ou logique, leurs capacités en raisonnement spatial restent sous-explorées.

Le raisonnement spatial est une fonction fondamentale de la cognition humaine, nous permettant d'interagir avec notre environnement. Il facilite les tâches qui nécessitent une compréhension et un raisonnement sur les relations spatiales entre les objets et leur mouvement. Le raisonnement spatial des modèles linguistiques s'appuie fortement sur le langage pour raisonner sur les informations spatiales, et les capacités cognitives humaines dépassent de loin le raisonnement linguistique. Les humains peuvent non seulement créer des représentations abstraites pertinentes pour une tâche à partir de la perception visuelle, mais également imaginer des scènes invisibles à travers l'œil de l'esprit. Il s'agit d'un sujet de recherche connu sous le nom d'imagerie mentale dans les domaines des neurosciences, de la philosophie de l'esprit et des sciences cognitives. En s’appuyant sur cette fonction cognitive, les humains facilitent le raisonnement spatial grâce à la manipulation d’images mentales, telles que la navigation, la rotation mentale, le pliage mental du papier et la simulation mentale. La figure 1 illustre les processus humains impliqués dans les tâches de navigation. Les humains améliorent leur conscience spatiale et guident leur prise de décision en créant des images mentales de chemins, en utilisant diverses entrées sensorielles telles que des instructions de navigation ou des images cartographiques. Ils ont ensuite simulé la planification d'un chemin à travers l'œil de l'esprit.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 1 : Les humains peuvent améliorer leur conscience spatiale et guider la prise de décision en créant des images mentales lors du raisonnement spatial. De même, les grands modèles de langage (LLM) peuvent créer des images mentales internes. Les chercheurs ont proposé que VoT déclenche « l’œil mental » des LLM en visualisant leur réflexion à chaque étape intermédiaire, favorisant ainsi le raisonnement spatial.

Inspirés par ce mécanisme cognitif, les chercheurs spéculent que les LLM ont la capacité de créer et de manipuler des images mentales dans l'œil de l'esprit pour un raisonnement spatial. Comme le montre la figure 1, les LLM peuvent potentiellement traiter et comprendre des informations spatiales dans divers formats. Ils peuvent être capables de visualiser des états internes et de manipuler ces images mentales à travers l'œil de l'esprit pour guider les étapes de raisonnement ultérieures afin d'améliorer le raisonnement spatial. Par conséquent, les chercheurs ont proposé des invites de

Visualisation de la pensée (VoT) pour susciter cette capacité. Cette méthode ajoute un carnet de croquis visuo-spatial aux LLM pour visualiser leurs étapes de raisonnement et guider les étapes suivantes. VoT n'utilise aucune invite de démonstration, plutôt que de s'appuyer sur quelques démonstrations ou d'utiliser CLIP pour la visualisation texte-image. Ce choix découle de la capacité des LLM à obtenir une variété d’images mentales à partir d’art visuel basé sur du texte.

Pour évaluer l'efficacité de la VoT dans le raisonnement spatial, les chercheurs ont sélectionné trois tâches qui nécessitent une conscience spatiale des LLM, notamment la

la navigation en langage naturel, la navigation visuelle et le pavage visuel. Ces tâches nécessitent de comprendre le raisonnement spatial, directionnel et géométrique. Pour simuler une perception multisensorielle de type humain, les chercheurs ont conçu un monde en grille 2D utilisant des caractères spéciaux comme format d'entrée riche dans les tâches de navigation visuelle et de pose visuelle des LLM. Différents modèles (GPT-4, GPT-4V) et techniques d'incitation ont été comparés sur ces trois tâches. Les résultats de la recherche montrent que les VoT invitent systématiquement les LLM à visualiser leurs étapes de raisonnement et à guider les étapes suivantes. Par conséquent, cette méthode permet d’obtenir des améliorations significatives des performances sur les tâches correspondantes.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 2 : Exemples de cartes de navigation dans différents contextes, avec un emoji maison représentant le point de départ et un emoji bureau représentant la destination.

Raisonnement spatial

Le raisonnement spatial fait référence à la capacité de comprendre et de raisonner sur les relations spatiales entre les objets, leurs mouvements et leurs interactions. Cette compétence est importante pour un large éventail d'applications du monde réel, telles que la navigation, la robotique et la conduite autonome. Ces domaines nécessitent une planification d’action basée sur la perception visuelle et une compréhension détaillée des dimensions spatiales. Bien que plusieurs tâches et ensembles de données aient été développés pour explorer la sémantique spatiale intégrée dans le texte, les efforts de recherche se sont généralement concentrés sur la manière dont les termes spatiaux sont structurés linguistiquement. Récemment, des réalisations significatives et des résultats impressionnants ont été obtenus sur ces critères en convertissant les termes spatiaux en formes logiques et en employant une programmation logique. Cela signifie que de bons résultats dans ces tâches ne signifient pas nécessairement que les grands modèles de langage (LLM) comprennent réellement les informations spatiales, ni ne fournissent une mesure précise de leur conscience spatiale. La conscience spatiale implique la compréhension des relations spatiales, des directions, des distances et de la géométrie, qui sont essentielles à la planification des actions dans le monde physique. Pour évaluer la conscience spatiale et les capacités de raisonnement spatial des LLM, les chercheurs ont sélectionné un certain nombre de tâches qui testent les compétences de navigation et de raisonnement géométrique, notamment la navigation en langage naturel, la navigation visuelle et le pavage visuel.

Navigation en langage naturel

La navigation en langage naturel consiste à parcourir la structure spatiale sous-jacente à travers une marche aléatoire, dans le but d'identifier les emplacements précédemment visités. Le concept s’inspire de recherches antérieures sur la cognition humaine, utilisant une approche similaire à une marche aléatoire le long d’une structure graphique. Ce processus nécessite une compréhension de la fermeture de boucle, essentielle à la navigation spatiale.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Navigation visuelle

La tâche de navigation visuelle présente aux LLM un monde de grille synthétique en 2D et les met au défi de naviguer à l'aide d'indices visuels. Le modèle doit générer des instructions de navigation pour se déplacer dans quatre directions (gauche, droite, haut et bas) d'un point de départ à une destination tout en évitant les obstacles. Cela implique deux sous-tâches : la planification d’itinéraire et la prédiction de l’étape suivante, qui nécessitent un raisonnement spatial multi-sauts, le premier étant plus complexe.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Visual Laying

Visual Laying est un défi classique de raisonnement spatial. L'extension de ce concept pour tester la capacité des LLM à comprendre, organiser et raisonner sur des formes dans une zone limitée améliore l'évaluation des compétences de raisonnement spatial. La tâche implique un rectangle avec des cellules vides et divers blocs de dominos, tels que le bloc I-domino composé de quatre carrés alignés. Le modèle doit choisir la variante appropriée du bloc domino, comme le choix de la direction du bloc I-domino, pour résoudre le puzzle de questions et réponses.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 3 : Exemple de pose visuelle avec des blocs dominos masqués. L'image ne montre pas les variations en rotation et en miroir des blocs de dominos.

PenserIndices visuels

Étant donné la façon dont les humains traitent les informations spatiales dans des tâches telles que la navigation, des images mentales, telles que des cartes, sont souvent créées pour améliorer la conscience spatiale ou simuler un mouvement pour guider la prise de décision. L'objectif de la recherche est d'évoquer la conscience spatiale des LLM et de permettre un raisonnement basé sur des situations réelles en visualisant leurs étapes de raisonnement intermédiaires.

Les chercheurs introduisent l'invite de visualisation de la pensée (VoT) : « Visualisez l'état après chaque étape de raisonnement. » Ce nouveau paradigme de raisonnement spatial vise à générer des signes de raisonnement et des résultats de visualisation de manière entrelacée.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Figure 4 : Exemples d'invites VoT dans trois tâches, où LLM génère des signes d'inférence et des visualisations de manière entrelacée pour suivre les changements d'état au fil du temps.

Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie

Papier : https://arxiv.org/pdf/2404.03622.pdf

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Guide étape par étape pour utiliser Groq Llama 3 70B localement Guide étape par étape pour utiliser Groq Llama 3 70B localement Jun 10, 2024 am 09:16 AM

Traducteur | Bugatti Review | Chonglou Cet article décrit comment utiliser le moteur d'inférence GroqLPU pour générer des réponses ultra-rapides dans JanAI et VSCode. Tout le monde travaille à la création de meilleurs grands modèles de langage (LLM), tels que Groq, qui se concentre sur le côté infrastructure de l'IA. Une réponse rapide de ces grands modèles est essentielle pour garantir que ces grands modèles réagissent plus rapidement. Ce didacticiel présentera le moteur d'analyse GroqLPU et comment y accéder localement sur votre ordinateur portable à l'aide de l'API et de JanAI. Cet article l'intégrera également dans VSCode pour nous aider à générer du code, à refactoriser le code, à saisir la documentation et à générer des unités de test. Cet article créera gratuitement notre propre assistant de programmation d’intelligence artificielle. Introduction au moteur d'inférence GroqLPU Groq

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les grands modèles sont également très puissants pour la prédiction de séries chronologiques ! L'équipe chinoise active les nouvelles capacités de LLM et surpasse les modèles traditionnels pour atteindre SOTA Les grands modèles sont également très puissants pour la prédiction de séries chronologiques ! L'équipe chinoise active les nouvelles capacités de LLM et surpasse les modèles traditionnels pour atteindre SOTA Apr 11, 2024 am 09:43 AM

Le potentiel des grands modèles de langage est stimulé : une prédiction de séries chronologiques de haute précision peut être obtenue sans formation de grands modèles de langage, surpassant ainsi tous les modèles de séries chronologiques traditionnels. L'Université Monash, Ant et IBM Research ont développé conjointement un cadre général qui a permis de promouvoir avec succès la capacité des grands modèles de langage à traiter les données de séquence selon différentes modalités. Le cadre est devenu une innovation technologique importante. La prédiction de séries chronologiques est bénéfique à la prise de décision dans des systèmes complexes typiques tels que les villes, l'énergie, les transports et la télédétection. Depuis lors, les grands modèles devraient révolutionner l’exploration de séries chronologiques et de données spatiotemporelles. L’équipe de recherche sur le cadre général de reprogrammation de grands modèles de langage a proposé un cadre général permettant d’utiliser facilement de grands modèles de langage pour la prédiction générale de séries chronologiques sans aucune formation. Deux technologies clés sont principalement proposées : la reprogrammation des entrées de synchronisation ; Temps-

L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains Apr 29, 2024 pm 03:25 PM

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Sept questions d'entretien technique Cool GenAI et LLM Sept questions d'entretien technique Cool GenAI et LLM Jun 07, 2024 am 10:06 AM

Pour en savoir plus sur l'AIGC, veuillez visiter : 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou est différent de la banque de questions traditionnelle que l'on peut voir partout sur Internet. nécessite de sortir des sentiers battus. Les grands modèles linguistiques (LLM) sont de plus en plus importants dans les domaines de la science des données, de l'intelligence artificielle générative (GenAI) et de l'intelligence artificielle. Ces algorithmes complexes améliorent les compétences humaines et stimulent l’efficacité et l’innovation dans de nombreux secteurs, devenant ainsi la clé permettant aux entreprises de rester compétitives. LLM a un large éventail d'applications. Il peut être utilisé dans des domaines tels que le traitement du langage naturel, la génération de texte, la reconnaissance vocale et les systèmes de recommandation. En apprenant de grandes quantités de données, LLM est capable de générer du texte

Déployer de grands modèles de langage localement dans OpenHarmony Déployer de grands modèles de langage localement dans OpenHarmony Jun 07, 2024 am 10:02 AM

Cet article ouvrira en source les résultats du « Déploiement local de grands modèles de langage dans OpenHarmony » démontrés lors de la 2e conférence technologique OpenHarmony. Adresse : https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty/. InferLLM/docs/hap_integrate.md. Les idées et les étapes de mise en œuvre consistent à transplanter le cadre d'inférence de modèle LLM léger InferLLM vers le système standard OpenHarmony et à compiler un produit binaire pouvant s'exécuter sur OpenHarmony. InferLLM est un L simple et efficace

Trois secrets pour déployer de grands modèles dans le cloud Trois secrets pour déployer de grands modèles dans le cloud Apr 24, 2024 pm 03:00 PM

Compilation|Produit par Xingxuan|51CTO Technology Stack (ID WeChat : blog51cto) Au cours des deux dernières années, j'ai été davantage impliqué dans des projets d'IA générative utilisant de grands modèles de langage (LLM) plutôt que des systèmes traditionnels. Le cloud computing sans serveur commence à me manquer. Leurs applications vont de l’amélioration de l’IA conversationnelle à la fourniture de solutions d’analyse complexes pour diverses industries, ainsi que de nombreuses autres fonctionnalités. De nombreuses entreprises déploient ces modèles sur des plates-formes cloud, car les fournisseurs de cloud public fournissent déjà un écosystème prêt à l'emploi et constituent la voie de moindre résistance. Cependant, cela n’est pas bon marché. Le cloud offre également d'autres avantages tels que l'évolutivité, l'efficacité et des capacités informatiques avancées (GPU disponibles sur demande). Il existe certains aspects peu connus du déploiement de LLM sur les plateformes de cloud public

Mar 22, 2024 pm 08:51 PM

Les 10 robots humanoïdes suivants façonnent notre avenir : 1. ASIMO : Développé par Honda, ASIMO est l'un des robots humanoïdes les plus connus. Mesurant 4 pieds de haut et pesant 119 livres, ASIMO est équipé de capteurs avancés et de capacités d'intelligence artificielle qui lui permettent de naviguer dans des environnements complexes et d'interagir avec les humains. La polyvalence d'ASIMO le rend adapté à une variété de tâches, allant de l'assistance aux personnes handicapées à la réalisation de présentations lors d'événements. 2. Pepper : Créé par Softbank Robotics, Pepper vise à être un compagnon social pour les humains. Avec son visage expressif et sa capacité à reconnaître les émotions, Pepper peut participer à des conversations, aider dans les commerces de détail et même fournir un soutien pédagogique. Poivrons

See all articles