直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争-人工智能-PHP中文网

首页

科技周边

人工智能

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2024 am 08:00 AM

谷歌产业内存占用

不知 Gemini 1.5 Pro 是否用到了这项技术。

谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。

Infini-Transformer 引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求。使用该技术，研究者成功将一个 1B 的模型上下文长度提高到 100 万；应用到 8B 模型上，模型能处理 500K 的书籍摘要任务。

自 2017 年开创性研究论文《Attention is All You Need》问世以来，Transformer 架构就一直主导着生成式人工智能领域。而谷歌对 Transformer 的优化设计最近比较频繁，几天前，他们更新了 Transformer 架构，发布 Mixture-of-Depths（MoD），改变了以往 Transformer 计算模式。没过几天，谷歌又放出了这项新研究。

专注 AI 领域的研究者都了解内存的重要性，它是智能的基石，可以为 LLM 提供高效的计算。然而，Transformer 和基于 Transformer 的 LLM 由于注意力机制的固有特性，即 Transformer 中的注意力机制在内存占用和计算时间上都表现出二次复杂性。例如，对于批大小为 512、上下文长度为 2048 的 500B 模型，注意力键 - 值 (KV) 状态的内存占用为 3TB。但事实上，标准 Transformer 架构有时需要将 LLM 扩展到更长的序列（如 100 万 token），这就带来巨大的内存开销，并且随着上下文长度的增加，部署成本也在增加。

基于此，谷歌引入了一种有效的方法，其关键组成部分是一种称为 Infini-attention（无限注意力）的新注意力技术。不同于传统的 Transformer 使用局部注意力丢弃旧片段，为新片段释放内存空间。Infini-attention 增加了压缩内存（compressive memory），可以将使用后的旧片段存储到压缩内存中，输出时会聚合当前上下文信息以及压缩内存中的信息，因而模型可以检索完整的上下文历史。

该方法使 Transformer LLM 在有限内存的情况下扩展到无限长上下文，并以流的方式处理极长的输入进行计算。

实验表明，该方法在长上下文语言建模基准测试中的性能优于基线，同时内存参数减少了 100 倍以上。当使用 100K 序列长度进行训练时，该模型实现了更好的困惑度。此外该研究发现，1B 模型在 5K 序列长度的密钥实例上进行了微调，解决了 1M 长度的问题。最后，论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调，在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果。

本文贡献总结如下：

引入了一种实用且强大的注意力机制 Infini-attention—— 具有长期压缩内存和局部因果注意力，可用于有效地建模长期和短期上下文依赖关系；
Infini-attention 对标准缩放点积注意力（ standard scaled dot-product attention）进行了最小的改变，并通过设计支持即插即用的持续预训练和长上下文自适应；
该方法使 Transformer LLM 能够通过流的方式处理极长的输入，在有限的内存和计算资源下扩展到无限长的上下文。

论文链接：https://arxiv.org/pdf/2404.07143.pdf
论文标题：Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

方法介绍

Infini-attention 使 Transformer LLM 能够通过有限的内存占用和计算有效地处理无限长的输入。如下图 1 所示，Infini-attention 将压缩记忆融入到普通的注意力机制中，并在单个 Transformer 块中构建了掩码局部注意力和长期线性注意力机制。

对 Transformer 注意力层进行这种微妙但关键的修改可以通过持续的预训练和微调将现有 LLM 的上下文窗口扩展到无限长。

Infini-attention 采用标准注意力计算的所有键、值和查询状态，以进行长期记忆巩固（memory consolidation）和检索，并将注意力的旧 KV 状态存储在压缩内存中，而不是像标准注意力机制那样丢弃它们。在处理后续序列时，Infini-attention 使用注意查询状态从内存中检索值。为了计算最终的上下文输出，Infini-attention 聚合了长期记忆检索值和局部注意力上下文。

如下图 2 所示，研究团队比较了基于 Infini-attention 的 Infini-Transformer 和 Transformer-XL。与 Transformer-XL 类似，Infini-Transformer 对 segment 序列进行操作，并计算每个 segment 中的标准因果点积注意力上下文。因此，点积注意力计算在某种意义上是局部的。

然而，局部注意力在处理下一个 segment 时会丢弃前一个 segment 的注意力状态，但 Infini-Transformer 复用旧的 KV 注意力状态，以通过压缩存储来维护整个上下文历史。因此，Infini-Transformer 的每个注意力层都具有全局压缩状态和局部细粒度状态。

与多头注意力（MHA）类似，除了点积注意力之外，Infini-attention 还为每个注意力层维护 H 个并行压缩内存（H 是注意力头的数量）。

下表 1 列出了几种模型根据模型参数和输入 segment 长度，定义的上下文内存占用和有效上下文长度。Infini-Transformer 支持具有有限内存占用的无限上下文窗口。

实验

该研究在长上下文语言建模、长度为 1M 的密钥上下文块检索和 500K 长度的书籍摘要任务上评估了 Infini-Transformer 模型，这些任务具有极长的输入序列。对于语言建模，研究者选择从头开始训练模型，而对于密钥和书籍摘要任务，研究者采用不断预训练 LLM 的方式，以证明 Infini-attention 即插即用的长上下文适应能力。

长上下文语言建模。表 2 结果表明 Infini-Transformer 优于 Transformer-XL 和 Memorizing Transformers 基线，并且与 Memorizing Transformer 模型相比，存储参数减少了 114 倍。

密钥任务。表 3 为 Infini-Transformer 在 5K 长度输入上进行微调后，解决了高达 1M 上下文长度的密钥任务。实验中输入 token 的范围从 32K 到 1M，对于每个测试子集，研究者控制密钥的位置，使其位于输入序列的开头、中间或结尾附近。实验报告了零样本准确率和微调准确率。在对 5K 长度输入进行 400 个步骤的微调后，Infini-Transformer 解决了高达 1M 上下文长度的任务。

摘要任务。表 4 将 Infini-Transformer 与专门为摘要任务构建的编码器 - 解码器模型进行了比较。结果表明 Infini-Transformer 超越了之前最佳结果，并且通过处理书中的整个文本在 BookSum 上实现了新的 SOTA。

研究者还在图 4 中绘制了 BookSum 数据验证分割的总体 Rouge 分数。根据折线趋势表明，随着输入长度的增加，Infini-Transformers 提高了摘要性能指标。

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

以上是直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7464

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所（Gate.io）网页版和Gate交易App的注册流程。无论是网页注册还是App注册，都需要访问官方网站或应用商店下载正版App，然后填写用户名、密码、邮箱和手机号等信息，并完成邮箱或手机验证。

加密数字资产交易APP推荐top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能着称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

芝麻开门交易所网页版登入口最新版gateio官网入口 Mar 04, 2025 pm 11:48 PM

详细介绍芝麻开门交易所网页版登入口操作，含登录步骤、找回密码流程，还针对登录失败、无法打开页面、收不到验证码等常见问题提供解决方法，助你顺利登录平台。

为什么说Bittensor是AI赛道的'比特币”？ Mar 04, 2025 pm 04:06 PM

原文标题：Bittensor=AIBitcoin?原文作者：S4mmyEth，DecentralizedAIResearch原文编译：zhouzhou，BlockBeats编者按：本文讨论了Bittensor，一个去中心化的AI平台，希望通过区块链技术打破集中式AI公司的垄断，推动开放、协作的AI生态系统。Bittensor采用子网模型，允许不同AI解决方案的出现，并通过TAO代币激励创新。尽管AI市场已成熟，但Bittensor面临竞争风险，可能会受到其他开源

如何在Bitget官网注册并下载最新App Mar 05, 2025 am 07:54 AM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤，适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息，包括官网、App Store 和 Google Play，并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App，包括应用商店、官网 APK 下载和官网跳转，并完成注册、身份验证和安全设置。此外，指南还涵盖了常见问题和注意事项，例如

欧易okx官方版下载APP入口 Mar 04, 2025 pm 11:24 PM

本文提供有关欧易 OKX 官方版的最新下载信息。本文将指导读者如何安全便捷地获取该交易所的 Android 和 iOS 应用程序。本文包含分步说明和重要提示，旨在帮助读者轻松下载并安装欧易 OKX 应用程序。

欧易okex账号怎么注册、使用、注销教程 Mar 31, 2025 pm 04:21 PM

本文详细介绍了欧易OKEx账号的注册、使用和注销流程。注册需下载APP，输入手机号或邮箱注册，完成实名认证。使用方面涵盖登录、充值提现、交易以及安全设置等操作步骤。而注销账号则需要联系欧易OKEx客服，提供必要信息并等待处理，最终获得账号注销确认。通过本文，用户可以轻松掌握欧易OKEx账号的完整生命周期管理，安全便捷地进行数字资产交易。