Barbara Streisand
发布: 2024-09-24 21:17:15
原创
556 人浏览过

NVIDIA 的 Llama 3.1-Nemotron-51B 以卓越的准确性和效率树立了 AI 的新基准,可在单个 GPU 上实现高工作负载。

NVIDIA 的最新语言模型 Llama 3.1-Nemotron-51B 以卓越的准确性和效率树立了 AI 性能的新标准。该模型标志着在扩展 LLM 以适应单个 GPU 上的进步,即使在高工作负载下也是如此。

NVIDIA 推出了一种名为 Llama 3.1-Nemotron-51B 的新语言模型,有望以卓越的准确性和效率实现 AI 性能的飞跃。该模型源自 Meta 的 Llama-3.1-70B,并利用新颖的神经架构搜索 (NAS) 方法来优化准确性和效率。值得注意的是,即使在高工作负载下,该模型也可以安装在单个 NVIDIA H100 GPU 上,从而使其更易于访问且更具成本效益。

与前代产品相比,Llama 3.1-Nemotron-51B 模型的推理速度提高了 2.2 倍,同时保持了几乎相同的精度水平。由于其减少的内存占用和优化的架构,这种效率使得推理期间单个 GPU 上的工作负载增加了 4 倍。

采用大型语言模型 (LLM) 的挑战之一是其推理成本较高。 Llama 3.1-Nemotron-51B 模型通过在准确性和效率之间提供平衡权衡来解决这个问题,使其成为从边缘系统到云数据中心等各种应用的经济高效的解决方案。此功能对于通过 Kubernetes 和 NIM 蓝图部署多个模型特别有用。

Nemotron 模型使用 TensorRT-LLM 引擎进行了优化,以实现更高的推理性能,并打包为 NVIDIA NIM 推理微服务。此设置简化并加速了生成式 AI 模型在 NVIDIA 加速基础设施(包括云、数据中心和工作站)上的部署。

Llama 3.1-Nemotron-51B-Instruct 模型是使用高效的 NAS 技术和训练方法构建的,可以创建针对特定 GPU 优化的非标准 Transformer 模型。该方法包括一个块蒸馏框架,用于并行训练各种块变体,确保高效且准确的推理。

NVIDIA 的 NAS 方法允许用户在准确性和效率之间选择最佳平衡。例如,Llama-3.1-Nemotron-40B-Instruct 变体的创建是为了优先考虑速度和成本,与父模型相比,速度提高了 3.2 倍,但精度略有下降。

Llama 3.1-Nemotron-51B-Instruct模型已针对多项行业标准进行了对标,展示了其在各种场景下的卓越性能。它使参考模型的吞吐量翻倍,使其在多个用例中具有成本效益。

Llama 3.1-Nemotron-51B-Instruct 模型为用户和公司提供了一系列新的可能性,以经济高效地利用高精度基础模型。其准确性和效率之间的平衡使其成为对构建者有吸引力的选择,并突显了 NAS 方法的有效性,NVIDIA 旨在将其扩展到其他模型。

以上是的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板