纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画-人工智能-PHP中文网

只会「看书」的大语言模型，有现实世界的视觉感知力吗？通过对字符串之间的关系进行建模，关于视觉世界，语言模型到底能学会什么？

最近，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）的研究人员对语言模型进行了评估，重点是其视觉能力。他们通过要求模型生成和识别出越来越复杂的视觉概念，从简单形状和物体到复杂场景，来测试模型的能力。研究人员还展示了如何使用纯文本模型训练一个初步的视觉表征学习系统。通过这项研究，他们为进一步发展和改进视觉表征学习系统奠定了基础。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

论文链接：https://arxiv.org/abs/2401.01862

由于语言模型无法处理视觉信息，研究中使用代码渲染图像。

尽管LLM生成的图像可能不像自然图像那样逼真，但从生成结果和模型的自我纠正来看，它能够准确地建模字符串/文本，这使得语言模型能够学习关于视觉世界中的许多概念。

研究人员还研究了利用文本模型生成的图像进行自监督视觉表征学习的方法。结果显示，这种方法有潜力用于训练视觉模型，并且仅使用LLM就可以对自然图像进行语义评估。

语言模型的视觉概念

先问一个问题：对于人来说，理解「青蛙」的视觉概念意味着什么？

知道它皮肤的颜色、有多少只脚、眼睛的位置、跳跃时的样子等细节就足够了吗？

人们通常认为要理解青蛙的概念，需要观察青蛙的图像，并从多个角度和真实场景中观察。

如果只观察文本的话，可以多大程度上理解不同概念的视觉意义？

换到模型训练角度来看，大型语言模型（LLM）的训练输入就只有文本数据，但模型已经被证明可以理解有关形状、颜色等概念的信息，甚至还能通过线性转换到视觉模型的表征中。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

也就是说，视觉模型和语言模型在世界表征方面是很相似的。

但现有的关于模型表征方法大多基于一组预先选择的属性集合来探索模型编码哪些信息，这种方法无法动态扩展属性，而且还需要访问模型的内部参数。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

所以研究人员提出了两个问题：

1、关于视觉世界，语言模型到底了解多少？

2、能否「只用文本模型」训练出一个可用于自然图像的视觉系统？

为了找到答案，研究人员通过测试不同语言模型在渲染（render, 即draw）和识别（recognize, 即see）真实世界的视觉概念，来评估哪些信息包含在模型中，从而实现了测量任意属性的能力，而无需针对每个属性单独训练特征分类器。

虽然语言模型无法生成图像，但像GPT-4等大模型可以生成出渲染物体的代码，文中通过textual prompt -> code -> image的过程，逐步增加渲染物体的难度来测量模型的能力。

研究人员发现LLM在生成由多个物体组成的复杂视觉场景方面出奇的好，可以高效地对空间关系进行建模，但无法很好地捕捉视觉世界，包括物体的属性，如纹理、精确的形状，以及与图像中其他物体的表面接触等。

文中还评估LLM识别感知概念的能力，输入以代码表示的绘画，代码中包括形状的序列、位置和颜色，然后要求语言模型回答代码中描述的视觉内容。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

实验结果发现，LLM与人类正好相反：对于人来说，写代码的过程很难，但验证图像内容很容易；而模型则是很难解释/识别出代码的内容，但却可以生成复杂场景。

此外，研究结果还证明了语言模型的视觉生成能力可以通过文本纠错（text-based corrections）来进一步改善。

研究人员首先使用语言模型来生成说明概念的代码，然后不断输入提示「improve its generated code」（改善生成的代码）作为条件来修改代码，最终模型可以通过这种迭代的方式来改善视觉效果。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

视觉能力数据集：指向场景

研究人员构建了三个文本描述数据集来测量模型在创建、识别和修改图像渲染代码的能力，其复杂度从低到高分别为简单的形状及组合、物体和复杂的场景。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

1. 图形及其组成（Shapes and their compositions）

包含来自不同类别的形状组成，如点、线、2D形状和3D形状，具有32种不同的属性，如颜色、纹理、位置和空间排列。

完整的数据集包含超过40万个示例，使用其中1500个样本进行实验测试。

2. 物体（Objects）

包含ADE 20K数据集的1000个最常见的物体，生成和识别的难度更高，因为包含更多形状的复杂的组合。

3. 场景（Scenes）

由复杂的场景描述组成，包括多个物体以及不同位置，从MS-COCO数据集中随机均匀抽样1000个场景描述得到。

数据集中的视觉概念都是用语言进行描述的，例如场景描述为「一个阳光明媚的夏日，在海滩上，有着蔚蓝的天空和平静的海洋」（a sunny summer day on a beach, with a blue sky and calm ocean）。

在测试过程中，要求LLM根据描绘的场景来生成代码并编译渲染图像。

实验结果

评估模型的任务主要由三个：

1. 生成/绘制文本：评估LLM在生成对应于特定概念的图像渲染代码方面的能力。

2. 识别/查看文本：测试LLM在识别以代码表示的视觉概念和场景方面的性能。我们测试每个模型上的人类绘画的代码表示。

3. 使用文本反馈纠正绘图：评估LLM使用自身生成的自然语言反馈迭代修改其生成代码的能力。

测试中对模型输入的提示为：write code in the programming language [programming language name] that draws a [concept]

然后根据模型的输出代码进行编译并渲染，对生成图像的视觉质量和多样性进行评估：

1. 忠实度（Fidelity）

通过检索图像的最佳描述来计算生成的图像与真实描述之间的忠实度。首先使用CLIP得分计算每个图像与同一类别（形状/物体/场景）中所有潜在描述之间的一致性，然后以百分比报告真实描述的排序（例如，得分100%意味着真实概念排名第一）。

2. 多样性（Diversity）

为了评估模型渲染不同内容的能力，在代表相同视觉概念的图像对上使用LPIPS多样性得分。

3. 逼真度（realism）

对于从ImageNet的1K图像的采样集合，使用Fréchet Inception Distance（FID）来量化自然图像和LLM生成的图像的分布差异。
对比实验中，使用Stable Diffusion获得的模型作为基线。
LLM能可视化（visualize）什么？
研究结果发现，LLM可以从整个视觉层次可视化现实世界的概念，对两个不相关的概念进行组合（如汽车形状的蛋糕），生成视觉现象（如模糊图像），并设法正确解释空间关系（如水平排列「一排自行车」）。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画