首页 > 科技周边 > 人工智能 > 线性关注

线性关注

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
发布: 2025-02-25 19:10:11
原创
109 人浏览过

大型语言模型(LLMS)出色,但它们的软磁性注意机制呈现了计算瓶颈。本文探讨了实现线性时间复杂性的替代方案。

注意基础Linearizing Attention

>假设熟悉诸如Chatgpt和Transformers之类的LLM,我们专注于这些模型的核心。与将过去状态压缩到隐藏的向量的RNN不同,注意力选择性地检索了每个新查询的相关过去数据。 变压器使用键(k),查询(q)和值(v)嵌入。 注意机制与查询与取回值的键相匹配:

Linearizing Attention SoftMax将相似性得分转换为概率,类似于K-Nearest邻居。

单个注意力层的计算成本为:

Linearizing Attention

softmax的二次复杂性(O(n²))对于长序列(n>> 100k)而变得过于敏锐。

>

线性注意:解决方案?

> Katharopoulos等人提出的线性注意力

巧妙地重写了SoftMax指数为内核函数,从而实现了线性计算。 转换如下所示:

Linearizing Attentionelu(x) 1>

函数近似于指数。计算成本变为:

当N>>> D,LLMS中的常见情况。 经常性的视图是:Linearizing Attention

> softmax的不可分割性阻止了这种线性化。 在解码过程中,仅SLinearizing Attention(N-1)需要跟踪,导致每个令牌o(d²)。但是,固定尺寸的S(n-1)限制了上下文保留。 封闭线性注意:战略记忆

通过选择性保留信息来解决内存限制,

封闭式线性注意力。 关键更改是在S_N的配方中:

存在

>

存在各种门控函数(G),每个函数都会导致不同的模型:>

Linearizing Attention>门控函数的依赖性仅对当前令牌允许有效的并行处理。

状态空间模型:卷积方法

状态空间模型(SSM)提供不同的视角,以处理CNNS过程图像等序列。 该模型是一个离散的线性时间不变系统:Linearizing Attention

Linearizing Attention这与卷积有关:

Linearizing Attention> H3使用两种互补的SSM层:>

Linearizing Attention

选择性状态空间模型:数据依赖性动力学

SSMS的固定参数限制了适应性。选择性SSM通过使系统依赖于数据来解决此问题:

Mamba

>

使用带有输出门控和卷积的选择性SSM:

Linearizing Attention

Linearizing Attention结论

>本文追踪了有效序列建模的演变,突出了计算效率和内存能力之间的权衡。 SoftMax的二次复杂性与线性注意力的效率形成鲜明对比,但后者的记忆有限导致封闭式的线性注意力和SSM。 朝着数据依赖性模型(封闭线性注意力和选择性SSM)的进展强调了自适应信息保留的重要性。 引用的论文中提出了进一步的阅读。

>

参考:

> Katharopoulos等。 (2020)

Yang等。 (2023)

> fu等。 (2022)gu&dao(2023) Waleffe等。 (2024)。 (注意:简短省略了全文,但在原始输入中可用。 确认:(确认部分保持不变。)>

以上是线性关注的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板