被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降
继 BERT 之后,研究者们注意到了大规模预训练模型的潜力,不同的预训练任务、模型架构、训练策略等被提出。但 BERT 类模型通常存在两大缺点:一是过分依赖有标签数据;二是存在过拟合现象。
具体而言,现在的语言模型都倾向于两段式框架,即预训练 + 下游任务微调,但是在针对下游任务的微调过程中又需要大量的样本,否则效果很差,然而标注数据的成本高昂。还有就是标注数据有限,模型只能拟合训练数据分布,但数据较少的话容易造成过拟合,致使模型的泛化能力下降。
作为大模型的开路先锋,大型预训练语言模型,特别是 GPT-3 已经显示出令人惊讶的 ICL(In-Context Learning)能力。与微调需要额外的参数更新不同,ICL 只需要一些演示「输入 - 标签」对,模型就可以预测标签甚至是没见过的输入标签。在许多下游任务中,一个大型 GPT 模型可以获得相当好的性能,甚至超过了一些经过监督微调的小型模型。
为何 ICL 的表现如此优秀,在来自 OpenAI 的一篇长达 70 多页的论文《Language Models are Few-Shot Learners》中,他们对 ICL 进行了探索,其目的是让 GPT-3 使用更少的领域数据、且不经过微调去解决问题。
如下图所示,ICL 包含三种分类:Few-shot learning,允许输入数条示例和一则任务说明;One-shot learning,只允许输入一条示例和一则任务说明;Zero-shot learning,不允许输入任何示例,只允许输入一则任务说明。结果显示 ICL 不需要进行反向传播,仅需要把少量标注样本放在输入文本的上下文中即可诱导 GPT-3 输出答案。
GPT-3 in-context learning
实验证明在 Few-shot 下 GPT-3 有很好的表现:
为什么 GPT 可以在 In-Context 中学习?
尽管 ICL 在性能上取得了巨大的成功,但其工作机制仍然是一个有待研究的开放性问题。为了更好地理解 ICL 是如何工作的,我们接下来介绍一篇来自北大、清华等机构的研究是如何解释的。
- 论文地址:https://arxiv.org/pdf/2212.10559v2.pdf
- 项目地址:https://github.com/microsoft/LMOps
用网友的话来总结,即:「这项工作表明,GPT 自然地学会了使用内部优化来执行某些运行。该研究同时提供了经验性证据来证明 In-Context Learning 和显式微调在多个层面上表现相似。」
为了更好地理解 ICL 是如何工作的,该研究将语言模型解释为元优化器,ICL 解释为一个元优化过程,并将 ICL 理解为一种隐式微调,试图在基于 GPT 的 ICL 和微调之间建立联系。从理论上讲,该研究发现 Transformer 的注意力具有基于梯度下降的对偶优化形式。
在此基础上,该研究提出了一个新的视角来解释 ICL:GPT 首先根据演示示例生成元梯度,然后将这些元梯度应用于原始 GPT 以构建 ICL 模型。
如图 1 所示,ICL 和显式微调共享基于梯度下降的对偶优化形式。唯一的区别是 ICL 通过前向计算产生元梯度,而微调通过反向传播计算梯度。因此,将 ICL 理解为某种隐式微调是合理的。
ICR 执行隐式微调
该研究首先定性分析了松弛线性注意力(relaxed linear attention)形式下的 Transformer 注意力,以找出它与基于梯度下降优化之间的对偶形式。然后,该研究将 ICL 与显式微调进行比较,并在这两种优化形式之间建立联系。基于这些理论发现,他们建议将 ICL 理解为一种隐式微调。
首先该研究将 Transforme 注意力看作元优化,将 ICL 解释为一个元优化过程:(1)一个基于 Transformer 的预训练语言模型作为元优化器;(2)通过前向计算根据实例生成元梯度;(3)通过注意力,将元梯度应用于原始语言模型,构建 ICL。
接下来是 ICL 与微调的比较。通过一系列设置后,该研究发现 ICL 与微调有许多共同特性。他们从以下四个方面来组织这些共性:两者都执行梯度下降;相同的训练信息;训练例子的因果顺序相同;都是围绕注意力展开。
考虑到 ICL 和微调之间的所有这些共同属性,该研究认为将 ICL 理解为一种隐式微调是合理的。在本文的其余部分,该研究从多个方面根据经验比较 ICL 和微调,以提供支持这种理解的定量结果。
实验结果
该研究进行了一系列实验来全面比较 ICL 的行为和基于实际任务的显式微调,在六个分类任务上,他们比较了预训练 GPT 在 ICL 和微调设置中关于预测、注意力输出和注意力得分的情况。正如预期的那样,ICL 在预测、表示和注意力级别等方面都与显式微调高度相似。这些结果有力地证明了这一合理性:ICL 执行隐式微调。
此外,受元优化理解的启发,该研究通过类比基于动量的梯度下降算法设计了一种基于动量的注意力。它始终优于 vanilla attention 的性能。
表 2 显示了在六个分类数据集上 ZSL( Zero-Shot Learning )、ICL 和微调(FT)设置中的验证精度。与 ZSL 相比,ICL 和微调都取得了相当大的改进,这意味着所做的优化都有助于这些下游任务。此外,该研究发现 ICL 在 Few-shot 场景中比微调更好。
表 3 中显示了 6 个数据集上 2 个 GPT 模型的 Rec2FTP 分数。平均而言,ICL 可以从 ZSL 中正确地预测 87.64% 的微调能够纠正的示例。这些结果表明在预测层面,ICL 可以覆盖大多数正确的微调行为。
表 3 还显示了 6 个数据集上 2 个 GPT 模型的示例与层的平均 SimAOU 分数。为了比较,该研究还提供了一个基线指标(Random SimAOU),用来计算 ICL 更新和随机生成更新之间的相似性。从表中可以看出,ICL 更新更类似于微调更新而非随机更新,这意味着在表示层面上,ICL 倾向于按照微调改变的方向来改变注意力结果。
最后,表 3 还显示了 6 个数据集上 2 个 GPT 模型的示例与层的平均 SimAM 分数。作为 SimAM 的基线指标,ZSL SimAM 计算 ICL 注意力权重和 ZSL 注意力权重之间的相似性。通过比较这两个指标,该研究发现,与 ZSL 相比,ICL 更倾向于生成类似于微调的注意力权重。同样在注意力行为层面,该研究证明 ICL 的行为类似于微调。
为了更彻底地探究 ICL 和微调之间的相似性,该研究比较了不同层的 SimAOU 和 SimAM 分数。通过从每个数据集中随机抽取 50 个验证示例,分别绘制了如下图 2 和图 3 所示的 SimAOU 和 SimAM 箱形图。
从图中可以发现,SimAOU 和 SimAM 在较低层出现波动,并且往往在较高层更加稳定。这种现象说明了 ICL 进行的元优化具有前向累积效应,随着累积的增加,ICL 的行为更类似于较高层的微调。
总结
总结而言,本文旨在解释基于 GPT 的 ICL 工作机制。从理论上讲,该研究找出了 ICL 的对偶形式,并建议将 ICL 理解为元优化过程。此外,该研究在 ICL 和特定微调设置之间建立了联系,发现将 ICL 视为一种隐式微调是合理的。为了支持对 ICL 执行隐式微调的理解,该研究综合比较了 ICL 和基于实际任务的微调的行为。结果证明,ICL 类似于显式微调。
此外,受元优化的启发,该研究设计了一种基于动量的注意力,以实现一致的性能改进。作者希望该研究能够帮助更多的人深入了解 ICL 应用和模型设计。
以上是被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的
