社区

学习

工具库

AI工具

休闲

简体中文

首页 > 科技周边 > 人工智能 > Attention isn't all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Attention isn't all you need！Mamba混合大模型开源：三倍Transformer吞吐量

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

发布： 2024-03-30 09:41:16

转载

946 人浏览过

Mamba 时代来了？

自 2017 年开创性研究论文《Attention is All You Need》问世以来，transformer 架构就一直主导着生成式人工智能领域。

然而，transformer 架构实际上有两个显着缺点：

Transformer 的内存占用量随上下文长短而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行处理变得具有挑战性，从而限制了广泛的实验和部署。 Transformer 模型的内存占用量随上下文长度的变化而变化，这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行处理变得困难，从而限制了广泛的实验和部署。
Transformer 模型中的注意力机制会根据上下文长度的增加来调整速度，这种机制会随机扩展序列长度并降低计算量，因为每个token 都依赖于它之前的整个序列，从而将上下文应用于高效生产产生的范围之外。

transformer并非生产式人工智能唯一的前进方向。最近，AI21 Labs推出并开源了一种名为“Jamba”的新方法，在多个基准上超越了transformer。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Hugging Face 地址：https://huggingface.co/ai21labs/Jamba-v0.1

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Mamba的SSM 架构可以很好地解决transformer 的内存资源和上下文问题。然而，Mamba 方法很难提供与 transformer 模型相同的输出水平。

Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合，旨在将 SSM 和 transformer 的最佳属性结合在一起。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Jamba 还可以作为 NVIDIA NIM 推理微服务从 NVIDIA API 目录进行访问，企业应用程序开发人员可以使用 NVIDIA AI Enterprise 软件平台进行部署。

‍总的来说，Jamba 模型具有以下特点：

第一个基于Mamba 的生产级模型，采用新颖的SSM-Transformer 混合架构；
与Mixtral 8x7B 相比，长上下文上的吞吐量提高了3 倍；
提供对256K 上下文窗口的访问；
公开了模型权重；
同等参数规模中唯一能够在单个GPU 上容纳高达140K 上下文的模型。

模型架构

如下图所示，Jamba 的架构采用块层（blocks-and-layers）方法，使Jamba 能够集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器（MLP），从而形成 transformer 层。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Jamba 利用MoE 来增加模型参数的总数，同时简化推理中使用的活跃参数的数量，从而在计算需求没有相应增加的情况下获得更高的模型容量。为了在单个 80GB GPU 上最大限度地提高模型的质量和吞吐量，研究团队优化了所使用的 MoE 层和专家的数量，为常见推理工作负载留出了足够的内存。

Jamba 的 MoE 层允许它在推理时仅利用可用的 52B 参数中的 12B，并且其混合架构使这些 12B 活跃参数比同等大小的纯 transformer 模型更有效。

此前，没有人将 Mamba 扩展到 3B 参数之外。 Jamba 是同类模型中第一个达到生产级规模的混合架构。

吞吐量和效率

初步评估实验表明，Jamba 在吞吐量和效率等关键衡量指标上表现出色。

在效率方面，Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的 3 倍。 Jamba 比 Mixtral 8x7B 等大小相当的基于 Transformer 的模型更高效。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

在成本方面，Jamba 可以在单个 GPU 上容纳 140K 上下文。与当前类似大小的其他开源模型相比，Jamba 能提供更多的部署和实验机会。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

需要注意的是，Jamba 目前不太可能取代当前基于 Transformer 的大型语言模型 (LLM)，但它可能会成为某些领域的补充。

^{参考链接：}

^{https://www.ai21.com/blog/announcing-jamba}

^{https://venturebeat.com/ai/ai21-labs-juices-up-gen-ai-transformers-with-jamba/}

以上是Attention isn't all you need！Mamba混合大模型开源：三倍Transformer吞吐量的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

产业内存占用 jamba

来源：jiqizhixin.com

上一篇：情境智能：数据分析的下一个前沿下一篇：Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

企业公众号怎么推广

来自于 1970-01-01 08:00:00

0

0

0

php - 生产环境下,给MySQL添加索引,修改表结构操作,如何才能让线上业务不受影响？

来自于 1970-01-01 08:00:00

0

0

0

作业在哪

来自于 1970-01-01 08:00:00

0

0

0

课后作业

来自于 1970-01-01 08:00:00

0

0

0

作业

来自于 1970-01-01 08:00:00

0

0

0

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1429907
php入门教程之一周学会PHP

4281931
JAVA 初级入门视频教程

2597966
小甲鱼零基础入门学习Python视频教程

511807
PHP 零基础入门教程

870027

最新下载

更多>

网站特效

网站源码

网站素材

前端模板