首页 科技周边 人工智能 仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

Apr 25, 2024 pm 04:10 PM
apache 产业 压缩技术

Snowflake 加入 LLM 混战。


Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。

刚刚,数据管理和仓库提供商 Snowflake 宣布加入 LLM 混战,发布了一款专注于企业级应用的顶级大型语言模型(LLM)——Snowflake Arctic。

作为一家云计算公司推出的 LLM,Arctic 主要具备以下两个方面的优势:

  • 高效智能:Arctic 在企业任务方面表现出色,例如 SQL 生成、编程和指令遵循,甚至可与使用更高计算成本训练的开源模型媲美。Arctic 为经济高效的训练设定了新的基线,使 Snowflake 客户能够以低成本为其企业需求创建高质量的定制模型。
  • 开源开放:Arctic 采用 Apache 2.0 许可,提供对权重和代码的开放访问,Snowflake 还将开源所有的数据方案和研究发现。

现在,你可以在 Hugging Face 上访问 Arctic 模型。Snowflake 表示:用户很快可以通过一些模型库获取,包括 Snowflake Cortex、AWS、微软 Azure、NVIDIA API、Lamini、Perplexity、Replicate 和 Together 等。
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
Hugging Face:https://huggingface.co/Snowflake/snowflake-arctic-instruct

Arctic 的上下文窗口设置为 4K,研究团队正在研发基于注意力池(attention-sink)的滑动窗口实现,在未来几周内将支持无限序列生成,并在不久的将来扩展到 32K 注意力窗口。

高性能、低成本

Snowflake 的研究团队从企业客户的 AI 需求和使用案例中看到了一个一致的模式:企业希望使用 LLM 构建对话式 SQL 数据 copilot、代码 copilot 和 RAG 聊天机器人。

这意味着 LLM 需要在 SQL、代码、复杂指令遵循和生成具体响应方面表现出色。Snowflake 将这些能力融合成一个称为「企业智能」的单一指标,具体方式是对编码(HumanEval 和 MBPP )、SQL 生成(Spider)和指令遵循(IFEval)性能水平取平均值。

Arctic 在开源 LLM 中达到了顶级的「企业智能」水平,而且是在大约不到 200 万美元的训练计算成本(少于 3K GPU 周)的情况下做到的。这意味着 Arctic 比其他使用类似计算成本训练的开源模型能力更强。

更重要的是,即使与那些使用远高于其的计算成本训练的模型相比,Arctic 在企业智能方面也表现出色。Arctic 的高训练效率意味着 Snowflake 的客户和整个 AI 社区可以以更经济的方式训练定制模型。

如图 1 所示,Arctic 在企业智能指标上与 LLAMA 3 8B 和 LLAMA 2 70B 不相上下,而使用的训练计算成本不到一半。并且,尽管仅使用 1/17 倍的计算成本,Arctic 在编码(HumanEval 和 MBPP )、SQL(Spider)和指令遵循(IFEval)等指标上可与 Llama3 70B 媲美,即 Arctic 在保持整体性能竞争力的同时做到了这一点。
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
此外,Snowflake 还在学术基准上评估了 Arctic,涉及世界知识、常识推理和数学能力,完整评估结果如下图所示:
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
训练效率

为了达到上述训练效率,Arctic 采用一种独特的 Dense-MoE 混合 transformer 架构。它将一个 10B 的密集 transformer 模型与一个 128×3.66B 的残差 MoE MLP 结合起来,总共有 480B 参数和 17B 活跃参数,使用 top-2 gating 来进行选择。

设计和训练Arctic 时,研究团队使用了以下三个关键的见解和创新:

MoE 专家数量多,并采取压缩技术

2021 年底,DeepSpeed 团队证明了MoE 可以应用于自回归LLM,从而显着提高模型质量而不增加计算成本。在设计 Arctic 时,研究团队注意到,基于这个思路,模型质量的提高主要取决于 MoE 模型中的专家数量和总参数量,以及这些专家的组合方式数量。

基于此,Arctic 被设计为在128 个细粒度(fine-grained)专家之间分布480B 参数,并使用top-2 gating 来选择17B 活跃参数。

架构与系统协同设计

在强大的AI 训练硬件上训练具有大量专家的基本MoE 架构非常低效,因为专家之间的全连接通信开销很高。 Snowflake 发现,如果通信可以与计算重叠,就可以省去这种开销。

因此,Arctic 将密集transformer 与残差MoE 组件相结合(图2),通过通信计算重叠,使训练系统能够实现良好的训练效率,隐藏了通信开销的大部分。
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
聚焦企业数据的课程学习

在代码生成和SQL 等企业级指标上表现出色需要与通用指标截然不同的数据课程学习(Curriculum Learning)。通过数百次小规模的消融实验,该团队了解到通用技能,如常识推理,可以在初始阶段学习;而编码、数学和 SQL 等更复杂的指标可以在训练后期有效学习。

这可以类比于人类的生活教育,从简单到困难逐步获取能力。因此,Arctic 使用一个三阶段的课程学习,每个阶段的数据构成都不同,第一阶段侧重于通用技能(1T token),后两个阶段侧重于企业技能(1.5T 和 1T token)。
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
推理效率
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
推理效率也是模型高效的一个重要方面,影响到模型是否可以在低成本下进行实际部署。

Arctic 代表了 MoE 模型规模的一次飞跃,它比任何其他开源自回归 MoE 模型都使用了更多的专家和总参数。因此,Snowflake 需要几个创新思路来确保Arctic 能够高效推理:

a) 在批大小较小的交互推理中,例如批大小为1,MoE 模型的推理延迟受制于读取所有活跃参数的时间,推理是受内存带宽限制的。在这种批大小下,Arctic(17B 活跃参数)的内存读取量仅为 Code-Llama 70B 的 1/4、Mixtral 8x22B(44B 活跃参数)的 2/5,从而具备更快的推理速率。

b) 当批大小显着增加,例如每次前向传递数千个token 时,Arctic 从内存带宽受限转变为计算受限,推理受到每个token 的活跃参数的限制。在这方面,Arctic 的计算量是 CodeLlama 70B 和 Llama 3 70B 的 1/4。

为了实现计算受限的推理和与 Arctic 中少量活跃参数相匹配的高吞吐量,需要一个较大的批大小。实现这一点需要有足够的 KV 缓存来支持,同时还需要足够的内存来存储模型的近 500B 参数。

虽然具有挑战性,但Snowflake 通过使用两个节点进行推理,并结合FP8 权重、split-fuse 和连续批处理、节点内张量并行以及节点间pipeline 并行等系统优化来实现。

研究团队已与 NVIDIA 展开密切合作,针对由 TensorRT-LLM 驱动的 NVIDIA NIM 微服务进行推理优化。同时,研究团队还与 vLLM 社区合作,内部开发团队也将在未来几周内为企业用例实现 Arctic 的高效推理。

参考链接:https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

以上是仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

apache中cgi目录怎么设置 apache中cgi目录怎么设置 Apr 13, 2025 pm 01:18 PM

要在 Apache 中设置 CGI 目录,需要执行以下步骤:创建 CGI 目录,如 "cgi-bin",并授予 Apache 写入权限。在 Apache 配置文件中添加 "ScriptAlias" 指令块,将 CGI 目录映射到 "/cgi-bin" URL。重启 Apache。

apache80端口被占用怎么办 apache80端口被占用怎么办 Apr 13, 2025 pm 01:24 PM

当 Apache 80 端口被占用时,解决方法如下:找出占用该端口的进程并关闭它。检查防火墙设置以确保 Apache 未被阻止。如果以上方法无效,请重新配置 Apache 使用不同的端口。重启 Apache 服务。

apache怎么连接数据库 apache怎么连接数据库 Apr 13, 2025 pm 01:03 PM

Apache 连接数据库需要以下步骤:安装数据库驱动程序。配置 web.xml 文件以创建连接池。创建 JDBC 数据源,指定连接设置。从 Java 代码中使用 JDBC API 访问数据库,包括获取连接、创建语句、绑定参数、执行查询或更新以及处理结果。

怎样优化CentOS HDFS配置 怎样优化CentOS HDFS配置 Apr 14, 2025 pm 07:15 PM

提升CentOS上HDFS性能:全方位优化指南优化CentOS上的HDFS(Hadoop分布式文件系统)需要综合考虑硬件、系统配置和网络设置等多个方面。本文提供一系列优化策略,助您提升HDFS性能。一、硬件升级与选型资源扩容:尽可能增加服务器的CPU、内存和存储容量。高性能硬件:采用高性能网卡和交换机,提升网络吞吐量。二、系统配置精调内核参数调整:修改/etc/sysctl.conf文件,优化TCP连接数、文件句柄数和内存管理等内核参数。例如,调整TCP连接状态和缓冲区大小

怎么查看自己的apache版本 怎么查看自己的apache版本 Apr 13, 2025 pm 01:15 PM

有 3 种方法可在 Apache 服务器上查看版本:通过命令行(apachectl -v 或 apache2ctl -v)、检查服务器状态页(http://<服务器IP或域名>/server-status)或查看 Apache 配置文件(ServerVersion: Apache/<版本号>)。

怎么查看apache版本 怎么查看apache版本 Apr 13, 2025 pm 01:00 PM

如何查看 Apache 版本?启动 Apache 服务器:使用 sudo service apache2 start 启动服务器。查看版本号:使用以下方法之一查看版本:命令行:运行 apache2 -v 命令。服务器状态页面:在 Web 浏览器中访问 Apache 服务器的默认端口(通常为 80),版本信息显示在页面底部。

apache怎么启动 apache怎么启动 Apr 13, 2025 pm 01:06 PM

启动 Apache 的步骤如下:安装 Apache(命令:sudo apt-get install apache2 或从官网下载)启动 Apache(Linux:sudo systemctl start apache2;Windows:右键“Apache2.4”服务并选择“启动”)检查是否已启动(Linux:sudo systemctl status apache2;Windows:查看服务管理器中“Apache2.4”服务的状态)启用开机自动启动(可选,Linux:sudo systemctl

apache怎么删除多于的服务器名 apache怎么删除多于的服务器名 Apr 13, 2025 pm 01:09 PM

要从 Apache 中删除多余的 ServerName 指令,可以采取以下步骤:识别并删除多余的 ServerName 指令。重新启动 Apache 使更改生效。检查配置文件验证更改。测试服务器确保问题已解决。

See all articles