激發大語言模型空間推理能力：思考視覺化提示-人工智慧-PHP中文網

激發大語言模型空間推理能力：思考視覺化提示

大语言模型（LLMs）在语言理解和各种推理任务中展现出令人印象深刻的性能。然而，它们在人类认知的关键一面——空间推理上，仍然未被充分研究。人类具有通过一种被称为 心灵之眼 的过程创造看不见的物体和行为的心智图像的能力，从而使得对未见世界的想象成为可能。受到这种认知能力的启发，研究人员提出了 “思维可视化”（Visualization of Thought，VoT）。VoT旨在通过可视化其推理迹象来引导LLMs的空间推理，从而引导后续的推理步骤。研究人员将VoT应用于多跳空间推理任务，包括自然语言导航、视觉导航以及二维网格世界中的视觉铺设。实验结果表明，VoT显著增强了LLMs的空间推理能力。值得注意的是，VoT在这些任务中表现优于现有的多模态大型语言模型（MLLMs）。

引言

近年来，大语言模型（LLMs）在各种与语言相关的任务上取得了显著的表现。尽管它们在数学推理、常识推理以及其他推理任务，如符号推理或逻辑推理等方面取得了成功，但它们在空间推理方面的能力仍未被充分探索。

空间推理是人类认知的基本功能，使我们能够与环境互动。它促进了需要理解和推理物体及其运动之间空间关系的任务。语言模型的空间推理在很大程度上依赖于语言来推理空间信息，而人类的认知能力远远超出了语言推理。人类不仅可以从视觉感知中创建与任务相关的抽象表示，还可以通过心灵之眼想象看不见的场景。这在神经科学、心灵哲学和认知科学领域被称为心智图像的研究课题。建立在这一认知功能之上，人类通过心智图像的操作来促进空间推理，比如导航、心理旋转、心理纸张折叠和心理模拟。图1说明了在导航任务中涉及的人类过程。人类通过创建路径的心智图像来增强其空间意识并指导其决策，利用各种感官输入，如导航指令或地图图像。随后，他们通过心灵之眼模拟路径规划。

激發大語言模型空間推理能力：思考視覺化提示

图1：人类可以通过在空间推理过程中创建心智图像来增强他们的空间意识识别并指导决策。同样地，大语言模型（LLMs）可以建立内部心智图像。研究人员提出了VoT，通过可视化他们在每个中间步骤的思维，来引发LLMs的“心灵之眼”，从而促进空间推理。

受到这一认知机制的启发，研究人员推测LLMs具有在心灵之眼中创建和操作心智图像的能力来进行空间推理。正如图1所示，LLMs可能潜在地处理和理解各种格式的空间信息。它们可能能够可视化内部状态，并通过心灵之眼操作这些心智图像，从而引导后续推理步骤以增强空间推理。因此，研究人员提出了 “思维可视化”（VoT） 提示来引发这种能力。该方法通过为LLMs增加一个视觉空间素描板来可视化其推理步骤并指导后续步骤。VoT采用零示范提示，而不是依赖于少量示范或使用CLIP进行文本到图像的可视化。这个选择源自LLMs从基于文本的视觉艺术中获得各种心智图像的能力。

为了评估VoT在空间推理中的有效性，研究人员选择了三个需要LLMs空间意识的任务，包括自然语言导航、视觉导航和视觉铺设。这些任务需要理解空间、方向和几何形状推理。为了模拟人类般的多感官感知，研究人员设计了使用特殊字符作为LLMs视觉导航和视觉铺设任务中丰富输入格式的2D网格世界。在这三个任务中比较了不同的模型（GPT-4、GPT-4V）和提示技术。研究结果显示，VoT提示始终促使LLMs可视化其推理步骤并指导后续步骤。因此，这种方法在相应任务上取得了显著的性能提升。

激發大語言模型空間推理能力：思考視覺化提示

图2：不同设置下的导航地图示例，房子的表情符号表示起点，办公室的表情符号表示目的地。

空间推理

空间推理指的是理解和推理物体之间的空间关系、它们的移动和互动的能力。这种技能对于广泛的现实世界应用非常重要，如导航、机器人技术和自动驾驶。这些领域需要基于视觉感知和对空间维度的具体理解进行行动规划。尽管已经开发了几项任务和数据集来探究嵌入在文本中的空间语义，研究工作通常集中在空间术语如何在语言上结构化上。最近，通过将空间术语转换为逻辑形式并采用逻辑编程，在这些基准测试中取得了显著的成就和令人印象深刻的结果。这意味着在这些任务中取得优异成绩并不一定意味着大型语言模型(LLMs)真正理解了空间信息，也不提供它们空间意识的准确衡量标准。空间意识涉及理解空间关系、方向、距离和几何形状，这些都对于在物理世界中进行行动规划至关重要。为了评估LLMs的空间意识和空间推理能力，研究人员选择了一些测试导航和几何推理技能的任务，包括自然语言导航、视觉导航和视觉铺设。