


Stimuler la capacité de raisonnement spatial des grands modèles de langage : conseils de visualisation réfléchie
IntroductionCes dernières années, les grands modèles de langage (LLM) ont atteint des performances remarquables sur diverses tâches liées au langage. Malgré leur succès dans le raisonnement mathématique, le raisonnement de bon sens et d’autres tâches de raisonnement telles que le raisonnement symbolique ou logique, leurs capacités en raisonnement spatial restent sous-explorées.Les grands modèles linguistiques (LLM) démontrent des performances impressionnantes dans la compréhension du langage et diverses tâches de raisonnement. Cependant, ils restent sous-étudiés sur un aspect clé de la cognition humaine : le raisonnement spatial. Les humains ont la capacité de créer des images mentales d'objets et d'actions invisibles grâce à un processus connu sous le nom de Mind's Eye, permettant d'imaginer le monde invisible. Inspirés par cette capacité cognitive, les chercheurs ont proposé la Visualisation de la pensée (VoT). VoT vise à guider le raisonnement spatial des LLM en visualisant leurs signes de raisonnement, guidant ainsi les étapes de raisonnement ultérieures. Les chercheurs ont appliqué la VoT à des tâches de raisonnement spatial à plusieurs sauts, notamment la navigation en langage naturel, la navigation visuelle et le pavage visuel dans un monde en grille bidimensionnel. Les résultats expérimentaux montrent que la VoT améliore considérablement les capacités de raisonnement spatial des LLM. Notamment, VoT surpasse les modèles multimodaux de grand langage (MLLM) existants sur ces tâches.
Le raisonnement spatial est une fonction fondamentale de la cognition humaine, nous permettant d'interagir avec notre environnement. Il facilite les tâches qui nécessitent une compréhension et un raisonnement sur les relations spatiales entre les objets et leur mouvement. Le raisonnement spatial des modèles linguistiques s'appuie fortement sur le langage pour raisonner sur les informations spatiales, et les capacités cognitives humaines dépassent de loin le raisonnement linguistique. Les humains peuvent non seulement créer des représentations abstraites pertinentes pour une tâche à partir de la perception visuelle, mais également imaginer des scènes invisibles à travers l'œil de l'esprit. Il s'agit d'un sujet de recherche connu sous le nom d'imagerie mentale dans les domaines des neurosciences, de la philosophie de l'esprit et des sciences cognitives. En s’appuyant sur cette fonction cognitive, les humains facilitent le raisonnement spatial grâce à la manipulation d’images mentales, telles que la navigation, la rotation mentale, le pliage mental du papier et la simulation mentale. La figure 1 illustre les processus humains impliqués dans les tâches de navigation. Les humains améliorent leur conscience spatiale et guident leur prise de décision en créant des images mentales de chemins, en utilisant diverses entrées sensorielles telles que des instructions de navigation ou des images cartographiques. Ils ont ensuite simulé la planification d'un chemin à travers l'œil de l'esprit.
Visualisation de la pensée (VoT) pour susciter cette capacité. Cette méthode ajoute un carnet de croquis visuo-spatial aux LLM pour visualiser leurs étapes de raisonnement et guider les étapes suivantes. VoT n'utilise aucune invite de démonstration, plutôt que de s'appuyer sur quelques démonstrations ou d'utiliser CLIP pour la visualisation texte-image. Ce choix découle de la capacité des LLM à obtenir une variété d’images mentales à partir d’art visuel basé sur du texte.
Pour évaluer l'efficacité de la VoT dans le raisonnement spatial, les chercheurs ont sélectionné trois tâches qui nécessitent une conscience spatiale des LLM, notamment lala navigation en langage naturel, la navigation visuelle et le pavage visuel. Ces tâches nécessitent de comprendre le raisonnement spatial, directionnel et géométrique. Pour simuler une perception multisensorielle de type humain, les chercheurs ont conçu un monde en grille 2D utilisant des caractères spéciaux comme format d'entrée riche dans les tâches de navigation visuelle et de pose visuelle des LLM. Différents modèles (GPT-4, GPT-4V) et techniques d'incitation ont été comparés sur ces trois tâches. Les résultats de la recherche montrent que les VoT invitent systématiquement les LLM à visualiser leurs étapes de raisonnement et à guider les étapes suivantes. Par conséquent, cette méthode permet d’obtenir des améliorations significatives des performances sur les tâches correspondantes.
Raisonnement spatial
Le raisonnement spatial fait référence à la capacité de comprendre et de raisonner sur les relations spatiales entre les objets, leurs mouvements et leurs interactions. Cette compétence est importante pour un large éventail d'applications du monde réel, telles que la navigation, la robotique et la conduite autonome. Ces domaines nécessitent une planification d’action basée sur la perception visuelle et une compréhension détaillée des dimensions spatiales. Bien que plusieurs tâches et ensembles de données aient été développés pour explorer la sémantique spatiale intégrée dans le texte, les efforts de recherche se sont généralement concentrés sur la manière dont les termes spatiaux sont structurés linguistiquement. Récemment, des réalisations significatives et des résultats impressionnants ont été obtenus sur ces critères en convertissant les termes spatiaux en formes logiques et en employant une programmation logique. Cela signifie que de bons résultats dans ces tâches ne signifient pas nécessairement que les grands modèles de langage (LLM) comprennent réellement les informations spatiales, ni ne fournissent une mesure précise de leur conscience spatiale. La conscience spatiale implique la compréhension des relations spatiales, des directions, des distances et de la géométrie, qui sont essentielles à la planification des actions dans le monde physique. Pour évaluer la conscience spatiale et les capacités de raisonnement spatial des LLM, les chercheurs ont sélectionné un certain nombre de tâches qui testent les compétences de navigation et de raisonnement géométrique, notamment la navigation en langage naturel, la navigation visuelle et le pavage visuel.
Navigation en langage naturel
La navigation en langage naturel consiste à parcourir la structure spatiale sous-jacente à travers une marche aléatoire, dans le but d'identifier les emplacements précédemment visités. Le concept s’inspire de recherches antérieures sur la cognition humaine, utilisant une approche similaire à une marche aléatoire le long d’une structure graphique. Ce processus nécessite une compréhension de la fermeture de boucle, essentielle à la navigation spatiale.
Navigation visuelle
La tâche de navigation visuelle présente aux LLM un monde de grille synthétique en 2D et les met au défi de naviguer à l'aide d'indices visuels. Le modèle doit générer des instructions de navigation pour se déplacer dans quatre directions (gauche, droite, haut et bas) d'un point de départ à une destination tout en évitant les obstacles. Cela implique deux sous-tâches : la planification d’itinéraire et la prédiction de l’étape suivante, qui nécessitent un raisonnement spatial multi-sauts, le premier étant plus complexe.
Visual Laying
Visual Laying est un défi classique de raisonnement spatial. L'extension de ce concept pour tester la capacité des LLM à comprendre, organiser et raisonner sur des formes dans une zone limitée améliore l'évaluation des compétences de raisonnement spatial. La tâche implique un rectangle avec des cellules vides et divers blocs de dominos, tels que le bloc I-domino composé de quatre carrés alignés. Le modèle doit choisir la variante appropriée du bloc domino, comme le choix de la direction du bloc I-domino, pour résoudre le puzzle de questions et réponses.
Figure 3 : Exemple de pose visuelle avec des blocs dominos masqués. L'image ne montre pas les variations en rotation et en miroir des blocs de dominos.
PenserIndices visuels
Étant donné la façon dont les humains traitent les informations spatiales dans des tâches telles que la navigation, des images mentales, telles que des cartes, sont souvent créées pour améliorer la conscience spatiale ou simuler un mouvement pour guider la prise de décision. L'objectif de la recherche est d'évoquer la conscience spatiale des LLM et de permettre un raisonnement basé sur des situations réelles en visualisant leurs étapes de raisonnement intermédiaires.
Les chercheurs introduisent l'invite de visualisation de la pensée (VoT) : « Visualisez l'état après chaque étape de raisonnement. » Ce nouveau paradigme de raisonnement spatial vise à générer des signes de raisonnement et des résultats de visualisation de manière entrelacée.
Figure 4 : Exemples d'invites VoT dans trois tâches, où LLM génère des signes d'inférence et des visualisations de manière entrelacée pour suivre les changements d'état au fil du temps.
Papier : https://arxiv.org/pdf/2404.03622.pdf
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Traducteur | Bugatti Review | Chonglou Cet article décrit comment utiliser le moteur d'inférence GroqLPU pour générer des réponses ultra-rapides dans JanAI et VSCode. Tout le monde travaille à la création de meilleurs grands modèles de langage (LLM), tels que Groq, qui se concentre sur le côté infrastructure de l'IA. Une réponse rapide de ces grands modèles est essentielle pour garantir que ces grands modèles réagissent plus rapidement. Ce didacticiel présentera le moteur d'analyse GroqLPU et comment y accéder localement sur votre ordinateur portable à l'aide de l'API et de JanAI. Cet article l'intégrera également dans VSCode pour nous aider à générer du code, à refactoriser le code, à saisir la documentation et à générer des unités de test. Cet article créera gratuitement notre propre assistant de programmation d’intelligence artificielle. Introduction au moteur d'inférence GroqLPU Groq

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Le potentiel des grands modèles de langage est stimulé : une prédiction de séries chronologiques de haute précision peut être obtenue sans formation de grands modèles de langage, surpassant ainsi tous les modèles de séries chronologiques traditionnels. L'Université Monash, Ant et IBM Research ont développé conjointement un cadre général qui a permis de promouvoir avec succès la capacité des grands modèles de langage à traiter les données de séquence selon différentes modalités. Le cadre est devenu une innovation technologique importante. La prédiction de séries chronologiques est bénéfique à la prise de décision dans des systèmes complexes typiques tels que les villes, l'énergie, les transports et la télédétection. Depuis lors, les grands modèles devraient révolutionner l’exploration de séries chronologiques et de données spatiotemporelles. L’équipe de recherche sur le cadre général de reprogrammation de grands modèles de langage a proposé un cadre général permettant d’utiliser facilement de grands modèles de langage pour la prédiction générale de séries chronologiques sans aucune formation. Deux technologies clés sont principalement proposées : la reprogrammation des entrées de synchronisation ; Temps-

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Pour en savoir plus sur l'AIGC, veuillez visiter : 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou est différent de la banque de questions traditionnelle que l'on peut voir partout sur Internet. nécessite de sortir des sentiers battus. Les grands modèles linguistiques (LLM) sont de plus en plus importants dans les domaines de la science des données, de l'intelligence artificielle générative (GenAI) et de l'intelligence artificielle. Ces algorithmes complexes améliorent les compétences humaines et stimulent l’efficacité et l’innovation dans de nombreux secteurs, devenant ainsi la clé permettant aux entreprises de rester compétitives. LLM a un large éventail d'applications. Il peut être utilisé dans des domaines tels que le traitement du langage naturel, la génération de texte, la reconnaissance vocale et les systèmes de recommandation. En apprenant de grandes quantités de données, LLM est capable de générer du texte

Cet article ouvrira en source les résultats du « Déploiement local de grands modèles de langage dans OpenHarmony » démontrés lors de la 2e conférence technologique OpenHarmony. Adresse : https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty/. InferLLM/docs/hap_integrate.md. Les idées et les étapes de mise en œuvre consistent à transplanter le cadre d'inférence de modèle LLM léger InferLLM vers le système standard OpenHarmony et à compiler un produit binaire pouvant s'exécuter sur OpenHarmony. InferLLM est un L simple et efficace

Compilation|Produit par Xingxuan|51CTO Technology Stack (ID WeChat : blog51cto) Au cours des deux dernières années, j'ai été davantage impliqué dans des projets d'IA générative utilisant de grands modèles de langage (LLM) plutôt que des systèmes traditionnels. Le cloud computing sans serveur commence à me manquer. Leurs applications vont de l’amélioration de l’IA conversationnelle à la fourniture de solutions d’analyse complexes pour diverses industries, ainsi que de nombreuses autres fonctionnalités. De nombreuses entreprises déploient ces modèles sur des plates-formes cloud, car les fournisseurs de cloud public fournissent déjà un écosystème prêt à l'emploi et constituent la voie de moindre résistance. Cependant, cela n’est pas bon marché. Le cloud offre également d'autres avantages tels que l'évolutivité, l'efficacité et des capacités informatiques avancées (GPU disponibles sur demande). Il existe certains aspects peu connus du déploiement de LLM sur les plateformes de cloud public

Les 10 robots humanoïdes suivants façonnent notre avenir : 1. ASIMO : Développé par Honda, ASIMO est l'un des robots humanoïdes les plus connus. Mesurant 4 pieds de haut et pesant 119 livres, ASIMO est équipé de capteurs avancés et de capacités d'intelligence artificielle qui lui permettent de naviguer dans des environnements complexes et d'interagir avec les humains. La polyvalence d'ASIMO le rend adapté à une variété de tâches, allant de l'assistance aux personnes handicapées à la réalisation de présentations lors d'événements. 2. Pepper : Créé par Softbank Robotics, Pepper vise à être un compagnon social pour les humains. Avec son visage expressif et sa capacité à reconnaître les émotions, Pepper peut participer à des conversations, aider dans les commerces de détail et même fournir un soutien pédagogique. Poivrons
