重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力-人工智能-PHP中文网

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

PHPz

发布： 2023-11-26 20:17:03

转载

1730 人浏览过

众所周知，大型语言模型（LLM）可以通过上下文学习的方式从少量示例中学习，无需进行模型微调。目前，这种上下文学习现象只能在大型模型中观察到。例如，像GPT-4、Llama等大型模型在许多领域中都表现出了卓越的性能，但由于资源限制或实时性要求较高，许多场景无法使用大型模型

那么，常规大小的模型是否具备这种能力呢？为了探索小模型的上下文学习能力，字节和华东师大的研究团队在场景文本识别任务上进行了研究。

目前，在实际应用场景中，场景文本识别面临着多种挑战：不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等，因此很难训练一个能应对所有场景的统一的文本识别模型。

解决该问题的一个直接方法是收集相应的数据，并在具体场景中微调模型。然而，这个过程需要重新训练模型，计算量很大，并且需要保存多个模型权重以适应不同的场景。如果文本识别模型能够具备上下文学习能力，在面对新场景时，只需要少量标注数据作为提示，就能提升在新场景上的性能，从而解决上述问题。然而，场景文本识别是一个资源敏感型任务，将大模型作为文本识别器会消耗大量资源。通过初步的实验观察，研究人员发现传统的大模型训练方法并不适用于场景文本识别任务

为了解决这个问题，来自字节跳动和华东师大的研究团队提出了自进化文本识别器，E2STR（Ego-Evolving Scene Text Recognizer）。这是一个融合了上下文学习能力的常规大小的文本识别器，能够快速适应不同的文本识别场景，而无需微调

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

论文链接：https://arxiv.org/pdf/2311.13120.pdf

E2STR 配备了一种上下文训练和上下文推理模式，不仅在常规数据集上达到了 SOTA 的水平，而且可以使用单一模型提升在各个场景中的识别性能，实现对新场景的快速适应，甚至超过了经过微调后专用模型的识别性能。E2STR 证明，常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。

方法

在图1中，展示了E2STR的训练和推理过程

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

1. 基础文本识别训练

基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器，目的为了获取文本识别能力：

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

2. 上下文训练

上下文训练阶段 E2STR 将根据文中提出的上下文训练范式进行进一步训练。在这一阶段，E2STR 会学习理解不同样本之间的联系，从而从上下文提示中获取推理能力。

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

如图 2 所示，这篇文章提出 ST 策略，在场景文本数据中进行随机的分割和转换，从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列，模型从这些语义丰富的序列中学习上下文知识，从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练：

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

需要进行改写的内容是：3. 上下文推理改写后的内容：3. 根据上下文进行推理

针对一个测试样本，该框架会从上下文提示池中选择 N 个样本，这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说，这篇文章通过对视觉 token 序列做平均池化，计算出图像 embedding I 。然后，从上下文池中选择图像嵌入与 I 的余弦相似度最高的前 N 个样本，从而形成上下文提示。

重新表达的标题为：字节跳动与华东师大的合作：探索小模型的上下文学习能力

将上下文提示和测试样本拼接在一起送入模型后，E2STR会以无需训练的方式从上下文提示中学习新的知识，从而提高测试样本的识别准确率。需要注意的是，上下文提示池只保留视觉编码器输出的令牌，使得上下文提示的选择过程非常高效。此外，由于上下文提示池很小，并且E2STR无需训练即可进行推理，因此额外的计算开销也被降至最低