社区

学习

工具库

AI工具

休闲

简体中文

首页

科技周边

人工智能

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？

PHPz

Jul 11, 2023 pm 03:05 PM

ai 模型

今年 2 月，Meta 发布的 LLaMA 大型语言模型系列，成功推动了开源聊天机器人的发展。因为 LLaMA 比之前发布的很多大模型参数少（参数量从 70 亿到 650 亿不等），但性能更好，例如，最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B，所以一经发布让很多研究者兴奋不已。

然而，LLaMA 仅授权给学术界的研发人员使用，从而限制了该模型的商业应用。

因而，研究者开始寻找那些可用于商业用途的 LLaMA，UC 伯克利的博士生 Hao Liu 发起的项目 OpenLLaMA，就是其中一个比较热门的 LLaMA 开源复制品，其使用了与原始 LLaMA 完全相同的预处理和训练超参数，可以说 OpenLLaMA 完全按照 LLaMA 的训练步骤来的。最重要的一点是，该模型可商用。

OpenLLaMA 在 Together 公司发布的 RedPajama 数据集上训练完成，有三个模型版本，分别为 3B、7B 和 13B，这些模型都经过了 1T tokens 的训练。结果显示，OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当，甚至有超越的情况。

除了不断发布新模型，研究者对模型处理 token 的能力探索不断。

几天前，田渊栋团队的最新研究用不到 1000 步微调，将 LLaMA 上下文扩展到 32K。再往前追溯，GPT-4 支持 32k token（这相当于 50 页的文字），Claude 可以处理 100k token （大概相当于一键总结《哈利波特》第一部）等等。

现在，一个新的基于 OpenLLaMA 大型语言模型来了，它将上下文的长度扩展到 256k token，甚至更多。该研究由 IDEAS NCBR 、波兰科学院、华沙大学、 Google DeepMind 联合完成。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

LongLLaMA 基于 OpenLLaMA 完成，微调方法采用 FOT （ Focused Transformer ）。本文表明，FOT 可以用于对已经存在的大型模型进行微调，以扩展其上下文长度。

该研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型为起点，并使用 FOT 对它们进行微调。由此产生的模型称之为 LONGLLAMAs，能够在其训练上下文长度之外进行外推（甚至可以达到 256K），并且在短上下文任务上还能保持性能。

项目地址：https://github.com/CStanKonrad/long_llama
论文地址：https://arxiv.org/pdf/2307.03170.pdf

有人将这一研究形容为 OpenLLaMA 的无限上下文版本，借助 FOT，模型很容易外推到更长的序列，例如在 8K token 上训练的模型，可以很容易外推到 256K 窗口大小。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

本文用到了 FOT 方法，它是 Transformer 模型中一种即插即用的扩展，可用于训练新模型，也可对现有的较大模型进行更长上下文微调。

为了达到这一目的，FOT 使用了记忆注意力层和跨批次（crossbatch）训练过程：

记忆注意力层使模型能够在推理时从外部存储器中检索信息，从而有效地扩展了上下文；
跨批次训练过程使模型倾向于学习（键，值）表示，这些表示对于记忆注意力层的使用非常简便。

有关 FOT 架构的概述，请参见图 2：

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

下表为 LongLLaMA 的一些模型信息：

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

最后，该项目还提供了 LongLLaMA 与原始 OpenLLaMA 模型的比较结果。

下图为 LongLLaMA 一些实验结果，在密码检索任务上，LongLLaMA 取得了良好的性能。具体而言，LongLLaMA 3B 模型远远超出了它的训练上下文长度 8K，对于 token 为 100k 时，准确率达到 94.5%，当 token 为 256k 时，准确率为 73%。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

下表为 LongLLaMA 3B 模型在两个下游任务（TREC 问题分类和 WebQS 问题回答）上的结果，结果显示，在使用长上下文时，LongLLaMA 性能改进明显。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

下表显示了即使在不需要长上下文的任务上，LongLLaMA 也能表现良好。实验在零样本设置下，对 LongLLaMA 和 OpenLLaMA 进行了比较。

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？图片

了解更多细节，可参考原论文与项目。

以上是将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热门文章

如何修复KB5055523无法在Windows 11中安装？

3 周前 By DDD

如何修复KB5055518无法在Windows 10中安装？

3 周前 By DDD

<🎜>：死铁路 - 如何驯服狼

4 周前 By DDD

R.E.P.O.的每个敌人和怪物的力量水平

4 周前 By 尊渡假赌尊渡假赌尊渡假赌

<🎜>：种植花园 - 完整的突变指南

2 周前 By DDD

显示更多

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1659

14

CakePHP 教程

1416

52

Laravel 教程

1310

25

PHP教程

1258

29

C# 教程

1232

24

显示更多

Related knowledge

比特币值多少美金

比特币值多少美金 Apr 28, 2025 pm 07:42 PM

比特币的价格在20,000到30,000美元之间。1. 比特币自2009年以来价格波动剧烈，2017年达到近20,000美元，2021年达到近60,000美元。2. 价格受市场需求、供应量、宏观经济环境等因素影响。3. 通过交易所、移动应用和网站可获取实时价格。4. 比特币价格波动性大，受市场情绪和外部因素驱动。5. 与传统金融市场有一定关系，受全球股市、美元强弱等影响。6. 长期趋势看涨，但需谨慎评估风险。

全球币圈十大交易所有哪些排名前十的货币交易平台2025

全球币圈十大交易所有哪些排名前十的货币交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密货币交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex，均以高交易量和安全性着称。

全球币圈十大交易所有哪些排名前十的货币交易平台最新版

全球币圈十大交易所有哪些排名前十的货币交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密货币交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex，均提供多种交易方式和强大的安全措施。

解密Gate.io战略升级：MeMebox 2.0如何重新定义加密资产管理？

解密Gate.io战略升级：MeMebox 2.0如何重新定义加密资产管理？ Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通过创新架构和性能突破重新定义了加密资产管理。1) 它解决了资产孤岛、收益衰减和安全与便利悖论三大痛点。2) 通过智能资产枢纽、动态风险管理和收益增强引擎，提升了跨链转账速度、平均收益率和安全事件响应速度。3) 为用户提供资产可视化、策略自动化和治理一体化，实现了用户价值重构。4) 通过生态协同和合规化创新，增强了平台的整体效能。5) 未来将推出智能合约保险池、预测市场集成和AI驱动资产配置，继续引领行业发展。

排名前十的虚拟币交易app有哪最新数字货币交易所排行榜

排名前十的虚拟币交易app有哪最新数字货币交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大数字货币交易所完善系统、高效多元化交易和严密安全措施严重推崇。

排名靠前的货币交易平台有哪些最新虚拟币交易所排名榜前10

排名靠前的货币交易平台有哪些最新虚拟币交易所排名榜前10 Apr 28, 2025 pm 08:06 PM

目前排名前十的虚拟币交易所：1.币安，2. OKX，3. Gate.io，4。币库，5。海妖，6。火币全球站，7.拜比特，8.库币，9.比特币，10。比特戳。

靠谱的数字货币交易平台推荐全球十大数字货币交易所排行榜2025

靠谱的数字货币交易平台推荐全球十大数字货币交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐：1. OKX，2. Binance，3. Coinbase，4. Kraken，5. Huobi，6. KuCoin，7. Bitfinex，8. Gemini，9. Bitstamp，10. Poloniex，这些平台均以其安全性、用户体验和多样化的功能着称，适合不同层次的用户进行数字货币交易

C 中的chrono库如何使用？

C 中的chrono库如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔，让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分，它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说，chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性，还提供了更高的精度和灵活性。让我们从基础开始，chrono库主要包括以下几个关键组件：std::chrono::system_clock：表示系统时钟，用于获取当前时间。std::chron

See all articles