Nvidia发布TensorRT-LLM开源软件 提升高端GPU芯片上的AI模型性能
Nvidia近日宣布推出一款名为TensorRT-LLM的新开源软件套件,扩展了Nvidia GPU上大型语言模型优化的功能,并突破了部署之后人工智能推理性能的极限。
生成式AI大语言模型因其令人印象深刻的功能而变得流行。它扩大了人工智能的可能性,并广泛应用于各个行业。用户可以通过与聊天机器人对话来获取信息,总结大型文档,编写软件代码,以及发现理解信息的新方法
Nvidia公司超大规模和高性能计算副总裁Ian Buck表示:“大型语言模型推理变得越来越难。模型的复杂性不断增加,模型变得越来越智能,也变得越来越大,这是很自然的,但当模型扩展到单个GPU之外并且必须在多个GPU上运行的时候,就成了一大难题。”
在人工智能方面,推理是模型处理那些前所未见的新数据的一个过程,例如用于总结、生成代码、提供建议或者回答问题,是大型语言模型的主力。
随着模型生态系统的迅速扩展,模型变得越来越庞大,功能也越来越丰富。这也意味着模型变得如此庞大,无法在单个GPU上同时运行,必须进行分割。开发人员和工程师必须手动分配和协调工作负载,以实时获得响应。TensorRT-LLM通过实现“张量并行性”来解决这个问题,允许在多个GPU上进行大规模高效的推理
除此之外,由于当今市场中有各种各样的大型语言模型,所以Nvidia针对目前主流的大型语言模型对核心进行了优化。该软件套件包括了完全优化的、可立即运行的大型语言模型版本,包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。
应对动态工作负载的“运行中批处理”机制
由于大型语言模型本身的性质,模型的工作负载可能是高度动态的,工作负载的需求和任务使用情况也可能会随着时间的推移而发生变化,单个模型可以同时用作聊天机器人来提问和回答,也可以用于总结大型文档和简短文档。因此,输出大小可能会出现完全不同的数量级。
为了应对这些不同的工作负载,TensorRT-LLM引入了一种称为“运行中批处理”的机制,这是一个优化调度的过程,把文本生成过程分解为多个片段,以便可以将移入或者移出GPU,这样在开始新一批之前就不需要完成整批工作负载了。
以前,如果有大型请求的话,例如对非常大的文档进行摘要提取,那么后面所有的内容都必须等待该过程完成才能使队列继续前进。
Nvidia一直在与众多厂商合作优化TensorRT-LLM,包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他们的帮助下,Nvidia不断简化软件套件中的功能和工具集,包括开源Python应用用户界面,用于定义和优化新架构以定制大型语言模型。
举个例子,当MosaicML将TensorRT-LLM与其现有软件堆栈集成时,在TensorRT-LLM的基础上增加了额外的功能。Databricks公司工程副总裁Naveen Rao表示,这个过程非常简单
“TensorRT-LLM易于使用,功能丰富,包括令牌流、动态批处理、分页注意力、量化等,而且效率很高,为使用 NVIDIA GPU的大型语言模型服务提供了最佳性能,并使我们能够将节省的成本回馈给我们的客户。”
Nvidia表示,TensorRT-LLM以及其带来的好处(包括批处理功能)可以将使用Nvidia H100进行文章摘要提取的推理性能提高超过1倍。在使用GPT-J-6B模型对CNN/每日邮报文章摘要进行A100测试时,仅使用H100的速度比A100快4倍,而启用TensorRT-LLM优化后,速度提升了8倍
TensorRT-LLM为开发人员和工程师提供了深度学习编译器、优化的大型语言模型内核、预处理和后处理、多GPU/多节点通信功能、以及简单的开源API,使他们能够快速优化和执行大型语言模型生产的推理。随着大型语言模型继续重塑数据中心,企业需要更高的性能就意味着开发人员比以往任何时候都更需要能够为他们提供具备功能和访问权限的工具,以提供更高性能的结果。
TensorRT-LLM软件套件现已可供Nvidia开发人员计划中的开发人员抢先体验,并将于下个月集成到用于生产型AI端到端软件平台Nvidia AI Enterprise的NeMo框架中。 TensorRT-LLM软件套件已经发布,供Nvidia开发人员计划中的开发人员提前体验,并将在下个月整合到Nvidia AI Enterprise的NeMo框架中,用于生产型AI端到端软件平台
以上是Nvidia发布TensorRT-LLM开源软件 提升高端GPU芯片上的AI模型性能的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

近日,以“AI引领时代,算力驱动未来”为主题的“临港新片区智算大会”举行。会上,新片区智算产业联盟正式成立,商汤科技作为算力提供企业成为联盟一员,同时商汤科技被授予“新片区智算产业链链主”企业。作为临港算力生态的积极参与者,商汤目前已建设了亚洲目前最大的智能计算平台之一——商汤AIDC,可以输出5000Petaflops的总算力,可支持20个千亿参数量的超大模型同时训练。以AIDC为底座、前瞻打造的商汤大装置SenseCore,致力于打造高效率、低成本、规模化的下一代AI基础设施与服务,赋能人工

IT之家10月13日消息,《Cell》的姐妹期刊《Joule》本周出版了一篇名为《持续成长的人工智慧能源足迹(Thegrowingenergyfootprintofartificialintelligence)》论文。通过查询,我们了解到这篇论文是由科研机构Digiconomist的创始人AlexDeVries发表的。他声称未来人工智能的推理性能可能会消耗大量的电力,预计到2027年,人工智能的用电量可能会相当于荷兰一年的电力消耗量AlexDeVries表示,外界一向认为训练一个AI模型“AI最

驱动中国2023年6月28日消息,今日在上海世界移动通信大会期间,中国联通发布图文大模型“鸿湖图文大模型1.0”。中国联通称,鸿湖图文大模型是首个面向运营商增值业务的大模型。第一财经记者了解到,鸿湖图文大模型目前拥有8亿训练参数和20亿训练参数两个版本,可以实现以文生图、视频剪辑、以图生图等功能。此外,中国联通董事长刘烈宏在今天的主题演讲中也表示,生成式AI正在迎来发展的奇点,未来2年内50%的工作将受到人工智能深刻影响。

Transformer模型出自于Google团队2017年发表的论文《Attentionisallyouneed》,该论文中首次提出了使用Attention替换Seq2Seq模型循环结构的概念,给NLP领域带来了极大冲击。且随着近年来研究的不断推进,Transformer相关技术逐渐由自然语言处理流向其他领域。截止目前,Transformer系列模型已经成为了NLP、CV、ASR等领域的主流模型。因此,如何更快地训练和推理Transformer模型已成为业界的一个重要研究方向。低精度量化技术能够

“不服跑个分”这句话,我相信关注手机圈的朋友一定不会感到陌生。例如,安兔兔、GeekBench等理论性能测试软件因为能够在一定程度上反映手机的性能,因此备受玩家的关注。同样地,在PC处理器、显卡上也有相应的跑分软件来衡量它们的性能既然"万物皆可跑分",目前最火爆的AI大模型也开始参与跑分比拼,尤其是在"百模大战"开始后,几乎每天都有突破,各家都自称为"跑分第一"国产AI大模型在性能评分方面几乎从未落后,但在用户体验方面却始终无法超越GP

IT之家11月3日消息,中科院物理所官网发文,近期,中国科学院物理研究所/北京凝聚态物理国家研究中心SF10组和中国科学院计算机网络信息中心共同合作,将AI大模型应用于材料科学领域,将数万个化学合成路径数据投喂给大语言模型LLAMA2-7b,从而获得了MatChat模型,可用来预测无机材料的合成路径。IT之家注意到,该模型可根据所询问的结构进行逻辑推理,并输出相应的制备工艺和配方。目前已部署上线,并向所有材料科研人员开放使用,为材料研究和创新带来了新启发和新思路。该工作为大语言模型在细分科学领域

Meta Platforms公司人工智能部门日前表示,他们正在教AI模型如何在少量训练数据支持下学会在物理世界中行走,目前已经取得了快速进展。这项研究能够显著缩短AI模型获得视觉导航能力的时间。以前,实现这类目标要需要利用大量数据集配合重复“强化学习”才能实现。Meta AI研究人员表示,这项关于AI视觉导航的探索将给虚拟世界带来重大影响。而项目的基本思路并不复杂:帮助AI像人类那样,单纯通过观察和探索实现在物理空间导航。Meta AI部门解释道,“比如,如果要让AR眼镜指引我们找到钥匙,就必须

Nvidia近日宣布推出一款名为TensorRT-LLM的新开源软件套件,扩展了NvidiaGPU上大型语言模型优化的功能,并突破了部署之后人工智能推理性能的极限。生成式AI大语言模型因其令人印象深刻的功能而变得流行。它扩大了人工智能的可能性,并广泛应用于各个行业。用户可以通过与聊天机器人对话来获取信息,总结大型文档,编写软件代码,以及发现理解信息的新方法Nvidia公司超大规模和高性能计算副总裁IanBuck表示:“大型语言模型推理变得越来越难。模型的复杂性不断增加,模型变得越来越智能,也变得
