LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数-人工智能-PHP中文网

大模型外推能力提升“机关”

掌握这个规律，上下文轻松100w+

首页

科技周边

人工智能

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 21, 2023 pm 02:25 PM

数据研究

只需微调一下，大模型支持上下文大小就能从1.6万tokens延长至100万？！

还是在只有70亿参数的LLaMA 2上。

要知道，即使是当前最火的Claude 2和GPT-4，支持上下文长度也不过10万和3.2万，超出这个范围大模型就会开始胡言乱语、记不住东西。

现在，一项来自复旦大学和上海人工智能实验室的新研究，不仅找到了让一系列大模型提升上下文窗口长度的方法，还发掘出了其中的规律。

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

按照这个规律，只需调整1个超参数，就能确保输出效果的同时，稳定提升大模型外推性能。

外推性，指大模型输入长度超过预训练文本长度时，输出表现变化情况。如果外推能力不好，输入长度一旦超过预训练文本长度，大模型就会“胡言乱语”。

所以，它究竟能提升哪些大模型的外推能力，又是如何做到的？

大模型外推能力提升“机关”

这种提升大模型外推能力的方法，和Transformer架构中名叫位置编码的模块有关。

事实上，单纯的注意力机制（Attention）模块无法区分不同位置的token，例如“我吃苹果”和“苹果吃我”在它眼里没有差异。

因此需要加入位置编码，来让它理解词序信息，从而真正读懂一句话的含义。

目前的Transformer位置编码方法，有绝对位置编码（将位置信息融入到输入）、相对位置编码（将位置信息写入attention分数计算）和旋转位置编码几种。其中，最火热的要属旋转位置编码，也就是RoPE了。

RoPE通过绝对位置编码的形式，实现了相对位置编码的效果，但与相对位置编码相比，又能更好地提升大模型的外推潜力。

如何进一步激发采用RoPE位置编码的大模型的外推能力，也成为了最近不少研究的新方向。

这些研究，又主要分为限制注意力和调整旋转角两大流派。

限制注意力的代表研究包括ALiBi、xPos、BCA等。最近MIT提出的StreamingLLM，可以让大模型实现无限的输入长度（但并不增加上下文窗口长度），就属于这一方向的研究类型。

△图源作者

调整旋转角的工作则更多，典型代表如线性内插、Giraffe、Code LLaMA、LLaMA2 Long等都属于这一类型的研究。

△图源作者

以Meta最近爆火的LLaMA2 Long研究为例，它就提出了一个名叫RoPE ABF的方法，通过修改一个超参数，成功将大模型的上下文长度延长到3.2万tokens。

这个超参数，正是Code LLaMA和LLaMA2 Long等研究找出的“开关”——

旋转角底数（base）。

只需要微调它，就可以确保提升大模型的外推表现。

但无论是Code LLaMA还是LLaMA2 Long，都只是在特定的base和续训长度上进行微调，使得其外推能力增强。

是否能找到一种规律，确保所有用了RoPE位置编码的大模型，都能稳定提升外推表现？

掌握这个规律，上下文轻松100w+

来自复旦大学和上海AI研究院的研究人员，针对这一问题进行了实验。

他们先是分析了影响RoPE外推能力的几种参数，提出了一种名叫临界维度（Critical Dimension）的概念，随后基于这一概念，总结出了一套RoPE外推的缩放法则（Scaling Laws of RoPE-based Extrapolation）。

只需要应用这个规律，就能确保任意基于RoPE位置编码大模型都能改善外推能力。

先来看看临界维度是什么。

从定义中来看，它和预训练文本长度Ttrain、自注意力头维度数量d等参数都有关系，具体计算方法如下：

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

其中，10000即超参数、旋转角底数base的“初始值”。

作者发现，无论放大还是缩小base，最终都能让基于RoPE的大模型的外推能力得到增强，相比之下当旋转角底数为10000时，大模型外推能力是最差的。

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

对此论文认为，旋转角底数更小，能让更多的维度感知到位置信息，旋转角底数更大，则能表示出更长的位置信息。

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

既然如此，在面对不同长度的续训语料时，究竟缩小和放大多少旋转角底数，才能确保大模型外推能力得到最大程度上的提升？

论文给出了一个扩展RoPE外推的缩放法则，与临界维度、大模型的续训文本长度和预训练文本长度等参数有关：

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

基于这一规律，可以根据不同预训练和续训文本长度，来直接计算出大模型的外推表现，换言之就是预测大模型的支持的上下文长度。

反之利用这一法则，也能快速推导出如何最好地调整旋转角底数，从而提升大模型外推表现。

作者针对这一系列任务进行了测试，发现实验上目前输入10万、50万甚至100万tokens长度，都可以保证，无需额外注意力限制即可实现外推。

与此同时，包括Code LLaMA和LLaMA2 Long在内的大模型外推能力增强工作都证明了这一规律是确实合理有效的。

这样一来，只需要根据这个规律“调个参”，就能轻松扩展基于RoPE的大模型上下文窗口长度、增强外推能力了。

论文一作柳潇然表示，目前这项研究还在通过改进续训语料，提升下游任务效果，等完成之后就会将代码和模型开源，可以期待一下~

论文地址：

https://arxiv.org/abs/2310.05209

Github仓库：

https://github.com/OpenLMLab/scaling-rope

论文解析博客：

https://zhuanlan.zhihu.com/p/660073229

以上是LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7696

Java教程

1640

CakePHP 教程

1393

Laravel 教程

1287

PHP教程

1229

显示更多

Related knowledge

使用ddrescue在Linux上恢复数据 Mar 20, 2024 pm 01:37 PM

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备，留下损坏的数据块，只移动好的数据块。ddreasue是一种强大的恢复工具，完全自动化，因为它在恢复操作期间不需要任何干扰。此外，由于有了ddasue地图文件，它可以随时停止和恢复。DDREASE的其他主要功能如下：它不会覆盖恢复的数据，但会在迭代恢复的情况下填补空白。但是，如果指示工具显式执行此操作，则可以将其截断。将数据从多个文件或块恢复到单

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！ Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥？提出了DepthFM：一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外，DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高，可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如何多条件使用Excel过滤功能 Feb 26, 2024 am 10:19 AM

如果您需要了解如何在Excel中使用具有多个条件的筛选功能，以下教程将指导您完成相应步骤，确保您可以有效地对数据进行筛选和排序。Excel的筛选功能是非常强大的，能够帮助您从大量数据中提取所需的信息。这个功能可以根据您设定的条件，过滤数据并只显示符合条件的部分，让数据的管理变得更加高效。通过使用筛选功能，您可以快速找到目标数据，节省了查找和整理数据的时间。这个功能不仅可以应用在简单的数据列表上，还可以根据多个条件进行筛选，帮助您更精准地定位所需信息。总的来说，Excel的筛选功能是一个非常实用的

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多的大模型会基于JAX平台进行训练和运行。模型最近，Keras团队为三个后端（TensorFlow、JAX、PyTorch）与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先，他们为生成式和非生成式人工智能任务选择了一组主流

iPhone上的蜂窝数据互联网速度慢：修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后，缓慢的移动数据连接？通常，手机上蜂窝互联网的强度取决于几个因素，例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时，强制重启设备只会重置许多内容，包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来，按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度，但在信号较弱

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下，两侧都能生成高质量、多模态的新数据，对模型本身进行数据反哺。模型是啥？中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁？智子引擎。由人大高瓴人工智能学院博士生高一钊创立，高

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

首个自主完成人类任务机器人出现，五指灵活速度超人，大模型加持虚拟空间训练 Mar 11, 2024 pm 12:10 PM

这周，由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资，计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑，今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的

See all articles

LLaMA2上下文长度暴涨至100万tokens，只需调整1个超参数

大模型外推能力提升“机关”

掌握这个规律，上下文轻松100w+

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题