社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > Attention isn't all you need！ Mamba混合大模型開源：三倍Transformer吞吐量

Attention isn't all you need！ Mamba混合大模型開源：三倍Transformer吞吐量

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-03-30 09:41:16

轉載

1007 人瀏覽過

Mamba 时代来了？

自 2017 年开创性研究论文《Attention is All You Need》问世以来，transformer 架构就一直主导着生成式人工智能领域。

然而，transformer 架构实际上有两个显著缺点：

Transformer 的内存占用量随上下文长短而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行处理变得具有挑战性，从而限制了广泛的实验和部署。 Transformer 模型的内存占用量随上下文长度的变化而变化，这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行处理变得困难，从而限制了广泛的实验和部署。
Transformer 模型中的注意力机制会根据上下文长度的增加来调整速度，这种机制会随机扩展序列长度并降低计算量，因为每个 token 都依赖于它之前的整个序列，从而将上下文应用于高效生产产生的范围之外。

transformer并非生产式人工智能唯一的前进方向。最近，AI21 Labs推出并开源了一种名为“Jamba”的新方法，在多个基准上超越了transformer。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Hugging Face 地址：https://huggingface.co/ai21labs/Jamba-v0.1

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而，Mamba 方法很难提供与 transformer 模型相同的输出水平。

Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合，旨在将 SSM 和 transformer 的最佳属性结合在一起。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Jamba 还可以作为 NVIDIA NIM 推理微服务从 NVIDIA API 目录进行访问，企业应用程序开发人员可以使用 NVIDIA AI Enterprise 软件平台进行部署。

‍总的来说，Jamba 模型具有以下特点：

第一个基于 Mamba 的生产级模型，采用新颖的 SSM-Transformer 混合架构；
与 Mixtral 8x7B 相比，长上下文上的吞吐量提高了 3 倍；
提供对 256K 上下文窗口的访问；
公开了模型权重；
同等参数规模中唯一能够在单个 GPU 上容纳高达 140K 上下文的模型。

模型架构

如下图所示，Jamba 的架构采用块层（blocks-and-layers）方法，使 Jamba 能够集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器（MLP），从而形成 transformer 层。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Jamba 利用 MoE 来增加模型参数的总数，同时简化推理中使用的活跃参数的数量，从而在计算需求没有相应增加的情况下获得更高的模型容量。为了在单个 80GB GPU 上最大限度地提高模型的质量和吞吐量，研究团队优化了所使用的 MoE 层和专家的数量，为常见推理工作负载留出了足够的内存。

Jamba 的 MoE 层允许它在推理时仅利用可用的 52B 参数中的 12B，并且其混合架构使这些 12B 活跃参数比同等大小的纯 transformer 模型更有效。

此前，没有人将 Mamba 扩展到 3B 参数之外。Jamba 是同类模型中第一个达到生产级规模的混合架构。

吞吐量和效率

初步评估实验表明，Jamba 在吞吐量和效率等关键衡量指标上表现出色。

在效率方面，Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的 3 倍。Jamba 比 Mixtral 8x7B 等大小相当的基于 Transformer 的模型更高效。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

在成本方面，Jamba 可以在单个 GPU 上容纳 140K 上下文。与当前类似大小的其他开源模型相比，Jamba 能提供更多的部署和实验机会。

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

要注意的是，Jamba 目前不太可能取代目前基於 Transformer 的大型語言模型 (LLM)，但它可能會成為某些領域的補充。

^{參考連結：}

^{https://www.ai21.com/blog/announcing-jamba}

^{https://venturebeat.com/ai/ai21-labs-juices-up-gen-ai-transformers-with-jamba/}

以上是Attention isn't all you need！ Mamba混合大模型開源：三倍Transformer吞吐量的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

產業記憶體佔用 jamba

上一篇：情境智能：資料分析的下一個前沿下一篇：Champ首發開源：人體影片產生新SOTA，5天拿下1k星，demo可玩

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

如何使用Yolo V12進行對象檢測？

2025-03-22 11:07:21
2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！

2025-03-22 10:58:15
Uber的指南H3用於空間索引

2025-03-22 10:54:14
R.E.D。：與專家代表團的縮放文本分類

2025-03-22 10:33:09
DeepSeek #opensourceweek第6天：推理系統概述

2025-03-22 10:26:10

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1440061
php入門教程之一週學會PHP

4301429
JAVA 初級入門影片教學

2687746
小甲魚零基礎入門學習Python影片教學

518102
PHP 零基礎入門教學

879816

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板