58行代码把Llama 3扩展到100万上下文,任何微调版都适用
堂堂开源之王Llama 3,原版上下文窗口居然只有……8k,让到嘴边的一句“真香”又咽回去了。
在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗?
开源社区当然不会放过这个机会:
现在只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。
背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mb。
接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。
所使用的1048k上下文微调版本,刚刚在流行的大海捞针测试中达到全绿(100%准确率)的成绩。
不得不说,开源的进步速度是指数级的。
1048k上下文LoRA怎么炼成的
首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。
而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。
他先制作了524k上下文版,随后又更新了1048k版本。
首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。
具体方法如下:
- 调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息
- 渐进式训练:使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度
值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。
最终使模型的训练速度提高了33倍。
长文本检索性能评估中,只在最难的版本中,当“针”藏在文本中间部分时容易出错。
有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA。
同样使用Mergekit,就可以把提取好的LoRA合并到其他同架构模型中了。
合并代码也由Eric Hartford开源在GitHub上,只有58行。
目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。
不过可以看到,中文开发者社区已经关注到了这一进展。
524k版本LoRA:https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter
1048k版本LoRA:https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter
合并代码:https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac
以上是58行代码把Llama 3扩展到100万上下文,任何微调版都适用的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

DeepSeek的安装方法有多种,包括:从源码编译(适用于经验丰富的开发者)使用预编译包(适用于Windows用户)使用Docker容器(最便捷,无需担心兼容性)无论选择哪种方法,请仔细阅读官方文档并充分准备,避免不必要的麻烦。

DeepSeekAI工具使用指南及常见问题解答DeepSeek是一款功能强大的AI智能工具,本文将解答一些常见的使用问题,助您快速上手。常见问题解答:不同访问方式的区别:网页版、App版和API调用在功能上没有区别,App只是网页版的封装。本地部署使用的是蒸馏模型,能力略逊于完整版DeepSeek-R1,但32位模型理论上拥有90%的完整版能力。酒馆(SillyTavern)是什么?SillyTavern是一个前端界面,需要通过API或Ollama调用AI模型。破限是什么

灰度投资:机构投资者进入加密货币市场的通道灰度投资公司为机构和投资者提供数字货币投资服务,其通过信托基金形式,让投资者间接参与加密货币投资。该公司已推出多个加密信托基金,引发市场广泛关注,但这些基金对代币价格的影响却差异显着。本文将详细介绍灰度旗下部分主要的加密信托基金。灰度主要加密信托基金一览灰度投资(由DigitalCurrencyGroup于2013年创立)旗下管理着多种加密资产信托基金,为机构投资者和高净值人士提供合规的加密货币投资途径。其主要基金包括:Zcash(ZEC)、SOL、

顶级做市商城堡证券入局比特币做市,是比特币市场成熟化的标志,也是传统金融势力争夺未来资产定价权的关键一步,同时对散户而言,可能意味着话语权的逐步减弱。2月25日,据彭博社报道,城堡证券(CitadelSecurities)正在寻求成为加密货币的流动性提供商。知情人士称,该公司的目标是加入各个交易所的做市商名单,其中包括CoinbaseGlobal、BinanceHoldings和Crypto.com运营的交易所。一旦获得交易所批准,该公司最初计划在美国境外成立做市团队。这一举动不仅标志

ElizaOSv2:赋能AI,引领Web3新经济AI正从辅助工具进化为独立实体,ElizaOSv2在其中扮演着关键角色,它赋予AI管理资金和运营Web3业务的能力。本文将深入探讨ElizaOSv2的关键创新,以及它如何塑造AI驱动的未来经济。 AI自主化:走向独立运营ElizaOS最初是一个专注于Web3自动化的AI框架。 v1版本允许AI与智能合约和区块链数据交互,而v2版本则实现了显着的性能提升。 AI不再仅仅执行简单指令,而是能够独立管理工作流程、运营业务并制定财务策略。架构升级:增强A

上海交大、上海AILab和港中文大学的研究人员推出Visual-RFT(视觉强化微调)开源项目,该项目仅需少量数据即可显着提升视觉语言大模型(LVLM)性能。 Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调(RFT)范式相结合,成功地将这一方法从文本领域扩展到视觉领域。通过为视觉细分类、目标检测等任务设计相应的规则奖励,Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性,为LVLM训练提供了新的途径。 Vis

每周观察:企业囤积比特币——一场正在酝酿的巨变我经常在每周备忘录中指出一些被忽视的市场趋势。MicroStrategy的举动就是一个鲜明的例子。很多人可能会说:“MicroStrategy和MichaelSaylor已经很出名了,有什么好关注的?”的确如此,但许多投资者却将其视为特例,忽略了其背后更深层次的市场力量。这种观点是片面的。近几个月对企业采用比特币作为储备资产的深入研究表明,这并非个例,而是一个正在兴起的重大趋势。我预测,未来12-18个月内,将有数百家企业效仿,大量购买比特币
