首页 > 科技周边 > 人工智能 > 封闭式学习背后的数学

封闭式学习背后的数学

王林
发布: 2025-02-26 00:03:10
原创
643 人浏览过

现代大语言模型(LLMS)的关键特征(LLMS)

内部文化学习(ICL)允许变形金刚根据输入提示中的示例进行适应。 使用几个任务示例,很少有提示有效地证明了所需的行为。 但是,变形金刚如何实现这种适应?本文探讨了ICL背后的潜在机制。

The Math Behind In-Context Learning

ICL的核心是:给定的示例对((x,y)),注意机制可以学习算法以将新查询(x)映射到其输出(y)?

> SoftMax的注意力和最近的邻居搜索

softmax的注意公式是:

The Math Behind In-Context Learning

引入反向温度参数,

c ,修改了注意力分配:

The Math Behind In-Context Learning

AS

> c 接近无穷大,注意变成了一个旋转向量,仅关注最相似的令牌 - 实际上是最近的邻居搜索。 使用有限的c ,注意与高斯内核平滑相似。 这表明ICL可能会在输入输出对上实现最近的邻居算法。 的含义和进一步的研究

了解变压器如何学习算法(如最近的邻居)为汽车打开门。 Hollmann等。在合成数据集上展示了训练变压器,以学习整个汽车管道,从单个通行证中预测新数据的最佳模型和超参数。

最近的研究(Garg等,2022,Oswald等,2023)将变形金刚的ICL与梯度下降联系起来。 线性注意力,省略软件操作:

>类似于预处理的梯度下降(PGD):>

The Math Behind In-Context Learning

一层线性注意执行一个PGD步骤。

结论The Math Behind In-Context Learning 注意机制可以实现学习算法,通过从演示对学习来启用ICL。尽管多个注意层和MLP的相互作用很复杂,但研究阐明了ICL的力学。本文提供了这些见解的高级概述。

>

进一步阅读:

  • >内部的学习和归纳负责人
  • >变形金刚可以在文化中学习什么?简单函数类别的案例研究
  • 变形金刚通过梯度下文学习
  • 变形金刚学习实施预处理的梯度下降

确认

>本文的灵感来自密歇根大学2024年秋季研究生课程。 任何错误都是作者的。

以上是封闭式学习背后的数学的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板