LLM推理3倍速!微软发布LLM Accelerator:用参考文本实现无损加速
随着人工智能技术的快速发展,ChatGPT、New Bing、GPT-4 等新产品和新技术陆续发布,基础大模型在诸多应用中将发挥日益重要的作用。
目前的大语言模型大多是自回归模型。自回归是指模型在输出时往往采用逐词输出的方式,即在输出每个词时,模型需要将之前输出的词作为输入。而这种自回归模式通常在输出时制约着并行加速器的充分利用。
在许多应用场景中,大模型的输出常常与一些参考文本有很大的相似性,例如在以下三个常见的场景中:
1. 检索增强的生成
New Bing 等检索应用在响应用户输入的内容时,会先返回一些与用户输入相关的信息,然后用语言模型总结检索出的信息,再回答用户输入的内容。在这种场景中,模型的输出往往包含大量检索结果中的文本片段。
2. 使用缓存的生成
大规模部署语言模型的过程中,历史的输入输出会被缓存。在处理新的输入时,检索应用会在缓存中寻找相似的输入。因此,模型的输出往往和缓存中对应的输出有很大的相似性。
3. 多轮对话中的生成
在使用 ChatGPT 等应用时,用户往往会根据模型的输出反复提出修改要求。在这种多轮对话的场景下,模型的多次输出往往只有少量的变化,重复度较高。
图1:大模型的输出与参考文本存在相似性的常见场景
基于以上观察,研究员们以参考文本与模型输出的重复性作为突破自回归瓶颈的着力点,希望可以提高并行加速器利用率,加速大语言模型推理,进而提出了一种利用输出与参考文本的重复性来实现一步输出多个词的方法 LLM Accelerator。
图2:LLM Accelerator 解码算法
具体来说,在每一步解码时,让模型先匹配已有的输出结果与参考文本,如果发现某个参考文本与已有的输出相符,那么模型很可能顺延已有的参考文本继续输出。
因此,研究员们将参考文本的后续词也作为输入加入到模型中,从而使得一个解码步骤可以输出多个词。
为了保证输入输出准确,研究员们进一步对比了模型输出的词与从参考文档输入的词。如果两者不一致,那么不正确的输入输出结果将被舍弃。
以上方法能够保证解码结果与基准方法完全一致,并可以提高每个解码步骤的输出词数,从而实现大模型推理的无损加速。
LLM Accelerator 无需额外辅助模型,简单易用,可以方便地部署到各种应用场景中。
论文链接:https://arxiv.org/pdf/2304.04487.pdf
项目链接:https://github.com/microsoft/LMOps
使用 LLM Accelerator,有两个超参数需要调整。
一是触发匹配机制所需的输出与参考文本的匹配词数:匹配词数越长往往越准确,可以更好地保证从参考文本拷贝的词是正确的输出,减少不必要的触发和计算;更短的匹配,解码步骤更少,潜在加速更快。
二是每次拷贝词的数量:拷贝词数越多,加速潜力越大,但也可能造成更多不正确的输出被舍弃,浪费计算资源。研究员们通过实验发现,更加激进的策略(匹配单个词触发,一次拷贝15到20个词)往往能够取得更好的加速比。
为了验证 LLM Accelerator 的有效性,研究员们在检索增强和缓存辅助生成方面进行了实验,利用 MS-MARCO 段落检索数据集构造了实验样本。
在检索增强实验中,研究员们使用检索模型对每个查询返回10个最相关的文档,然后拼接到查询后作为模型输入,将这10个文档作为参考文本。
在缓存辅助生成实验中,每个查询生成四个相似的查询,然后用模型输出对应的查询作为参考文本。
表1:检索增强的生成场景下的时间对比
表2:使用缓存的生成场景下的时间对比
研究员们使用通过 OpenAI 接口得到的 Davinci-003 模型的输出结果作为目标输出,以获得高质量的输出。得到所需输入、输出和参考文本后,研究员们在开源的 LLaMA 语言模型上进行了实验。
由于 LLaMA 模型的输出与 Davinci-003 输出不一致,所以研究员们采用了目标导向的解码方法来测试理想输出(Davinci-003 模型结果)结果下的加速比。
研究员们利用算法2得到了贪婪解码时生成目标输出所需的解码步骤,并强制 LLaMA 模型按照得到的解码步骤进行解码。
图3:利用算法2得到了贪婪解码时生成目标输出所需的解码步骤
对于参数量为 7B 和 13B 的模型,研究员们在单个 32G NVIDIA V100 GPU 上进行实验;对于参数量为 30B 的模型,在四块同样的 GPU 上进行实验。所有的实验均采用了半精度浮点数,解码均为贪婪解码,且批量大小为1。
实验结果表明,LLM Accelerator 在不同模型大小(7B,13B,30B)与不同的应用场景中(检索增强、缓存辅助)都取得了两到三倍的加速比。
进一步实验分析发现,LLM Accelertator 能显著减少所需的解码步骤,并且加速比与解码步骤的减少比例呈正相关。
更少的解码步骤一方面意味着每个解码步骤生成的输出词数更多,可以提高 GPU 计算的计算效率;另一方面,对于需要多卡并行的30B模型,这意味着更少的多卡同步,从而达到更快的速度提升。
在消融实验中,在开发集上对 LLM Accelertator 的超参数进行分析的结果显示,匹配单个单词(即触发拷贝机制)时,一次拷贝15到20个单词时的加速比可达到最大 (图4所示)。
在图5中我们可以看出,匹配词数为1能更多地触发拷贝机制,并且随着拷贝长度的增加,每个解码步骤接受的输出词增加,解码步骤减少,从而达到更高的加速比。
图4:消融实验中,在开发集上对 LLM Accelertator 的超参数的分析结果
图5:在开发集上,具有不同匹配词数 n 和拷贝词数 k 的解码步骤统计数据
LLM Accelertator 是微软亚洲研究院自然语言计算组在大语言模型加速系列工作的一部分,未来,研究员们将持续对相关问题进行更加深入的探索。
以上是LLM推理3倍速!微软发布LLM Accelerator:用参考文本实现无损加速的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

必应(Bing)是微软公司推出的一款网络搜索引擎,搜索功能非常强大,分了国内版和国际版两个入口。这两个版本入口在哪呢?要怎么访问国际版呢?下面就来看看详细内容。 必应中国版网址入口:https://cn.bing.com/ 必应国际版网址入口:https://global.bing.com/ 必应国际版怎么访问? 1、首先输入打开必应的网址入口:https://www.bing.com/ 2、可以看到有国内版跟国际版的选项,我们只需要选择国际版,输入关键词即可。

本站8月14日消息,在今天的8月补丁星期二活动日中,微软发布了适用于Windows11系统的累积更新,包括面向22H2和23H2的KB5041585更新,面向21H2的KB5041592更新。上述设备安装8月累积更新之后,本站附上版本号变化如下:21H2设备安装后版本号升至Build22000.314722H2设备安装后版本号升至Build22621.403723H2设备安装后版本号升至Build22631.4037面向Windows1121H2的KB5041585更新主要内容如下:改进:提高了

4月18日消息,近日,一些使用Canary频道的MicrosoftEdge浏览器的用户反映,在升级到最新版本后,他们发现自动保存密码的选项被禁用了。经过调查,这是浏览器升级后的一个微调,而非功能被取消。在使用Edge浏览器访问网站前,用户反馈说浏览器会弹出一个窗口询问是否希望保存该网站的登录密码。选择保存后,在下一次登录时,Edge就会自动填充已保存的账号和密码,为用户提供了极大的便利。但最近的更新类似于微调,修改了默认设置。用户需要在选择保存密码后,再手动在设置中开启自动填充已保存的账号和密码

6月3日消息,微软正在积极向所有Windows10用户发送全屏通知,鼓励他们升级到Windows11操作系统。这一举措涉及了那些硬件配置并不支持新系统的设备。自2015年起,Windows10已经占据了近70%的市场份额,稳坐Windows操作系统的霸主地位。然而,市场占有率远超过82%的市场份额,占有率远超过2021年面世的Windows11。尽管Windows11已经推出已近三年,但其市场渗透率仍显缓慢。微软已宣布,将于2025年10月14日后终止对Windows10的技术支持,以便更专注于

本站4月27日消息,微软本月初向Canary和Dev频道发布了Windows11Build26100预览版更新,预估会成为Windows1124H2更新的候选RTM版本。新版本中最主要的变化在于文件资源管理器、整合Copilot、编辑PNG文件元数据、创建TAR和7z压缩文件等等。@PhantomOfEarth发现,微软已经将24H2版本(Germanium)部分功能下放到23H2/22H2(Nickel)版本中,例如创建TAR和7z压缩文件。如示意图所示,Windows11将支持原生创建TAR

3月21日消息,微软近日对其MicrosoftEdge浏览器进行了更新,新增了一项实用的“放大图像”功能。现在,用户在使用Edge浏览器时,只需右键点击图片,便可在弹出的菜单中轻松找到这一新功能。更为便捷的是,用户还可以将光标悬停在图片上方,然后双击Ctrl键,即可快速呼出放大图像的功能。根据小编的了解,最新发布的MicrosoftEdge浏览器已经在Canary频道进行了新功能测试。该浏览器的稳定版中也已经正式推出了实用的“放大图像”功能,为用户提供了更便捷的图片浏览体验。外国科技媒体也对这一

2024年下半年,微软安全官方博客发布了一条消息,以回应安全社区的呼吁。公司计划在2024年下半年发布的Windows11中淘汰NTLANManager(NTLM)认证协议,以提升安全性。根据之前的解释,微软此前已经有过类似的动作。去年10月12日,微软在一份官方新闻稿中就已经提出了一个过渡计划,旨在逐步淘汰NTLM身份验证方式,并推动更多企业和用户转向使用Kerberos。为了帮助那些可能在关闭NTLM身份验证后遇到硬连接(hardwired)应用程序和服务问题的企业,微软提供了IAKerb和

在4月27日的消息中,微软公司宣布即将发布新版OutlookforWindows客户端的测试。此次更新主要聚焦于优化日历功能,旨在提升用户的工作效率,进一步简化日常工作流程。新版OutlookforWindows客户端的改进点在于其更加强大的日历管理功能。现在,用户能够更便捷地分享个人的工作时间与地点信息,使得会议规划变得更为高效。此外,Outlook还新增了人性化设置,允许用户设定会议自动提前结束或推迟开始,为用户提供了更多的灵活性,无论是换会议室、稍作休息还是享受一杯咖啡,都能轻松安排。根据
