社区

学习

工具库

AI工具

休闲

简体中文

首页 > 科技周边 > 人工智能 > 10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

发布： 2024-04-07 09:04:01

转载

732 人浏览过

想了解更多AIGC的内容，

请访问：51CTO AI.x社区

https://www.51cto.com/aigc/

“只需”10万美元，训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了：

它叫JetMoE，来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

△贾扬清转发

要知道，后者可是数十亿美元级别的投入成本。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

JetMoE发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级GPU就能进行微调。

不得说，大模型的打造成本，真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞：

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年6月提出）

它的注意力层中仍然使用了MoE：

80亿参数的JetMoE一共有24个区块，每块包含2个MoE层，分别是注意力头混合 (MoA) 和MLP专家混合 (MoE）。

每个MoA和MoE层又有8个专家，每次输入token激活2个。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练，学习率5.0 x 10-4，全局batch size为4M token。

具体训练方案遵循MiniCPM（来自面壁智能，2B模型就能赶超Mistral-7B）的思路，共包含两阶段：

第一阶段使用线性预热的恒定学习率，用来自大规模开源预训练数据集的1万亿个token进行训练，这些数据集包括RefinedWeb、Pile、Github data等等。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减，用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

最终，团队使用96×H100的GPU集群，花费2周时间、约8万美元搞定JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中，由于JetMoE-8B仅具有22亿个激活参数，因此计算成本大大降低——

同时，它还收获了不错的性能表现。

如下图所示：

JetMoE-8B在8个评测基准上获得了5个sota（包括大模型竞技场Open LLM Leaderboard），超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

在MT-Bench基准上得分6.681，也超过了130亿参数的LLaMA2、Vicuna等模型。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者，分别是：

Yikang Shen

MIT-IBM Watson Lab研究员，研究方向NLP。

本硕毕业于北航，博士经历于Yoshua Bengio创办的Mila研究机构。

国振 (Gavin Guo)

MIT博士在读，研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业，去年夏天作为学生研究员加入MIT-IBM Watson Lab，导师为Yikang Shen等人。

蔡天乐

普林斯顿博士在读生，本科毕业于北大应用数学和计算机科学，目前也是Together.ai 的兼职研究员，与Tri Dao合作。

Zengyi Qin

MIT博士在读，同时在创业，MyShell的AI研发主管。

这家公司刚刚融资了1100万美元，投资者包括Transformer的作者。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

传送门：https://github.com/myshell-ai/JetMoE
参考链接：https://twitter.com/jiayq/status/1775935845205463292

想了解更多AIGC的内容，

请访问：51CTO AI.x社区

https://www.51cto.com/aigc/

以上是10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

模型训练

上一篇：Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话下一篇：ICLR 2024 | 联邦学习后门攻击的模型关键层

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

LLM的工作方式：培训前训练，神经网络，幻觉和推理

2025-02-26 03:58:14
我将区块链和AI组合在一起以生成艺术。接下来发生了什么。

2025-02-26 03:38:10
高级及时工程：思想链（COT）

2025-02-26 03:17:10
在Sqlite中检索增强发电

2025-02-26 02:49:09
如何使用LLM驱动的样板构建自己的节点。JSAPI

2025-02-26 01:08:13
2024年编码的LLM：价格，性能和争取最佳的战斗

2025-02-26 00:46:10
提示视觉语言模型

2025-02-25 23:42:08
如何衡量大语模型的响应的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科学家对大型语言模型的认真反映了人类思维

2025-02-25 20:45:11

最新问题

如何使用Yolo V12进行对象检测？

2025-03-22 11:07:21
2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！

2025-03-22 10:58:15
Uber的指南H3用于空间索引

2025-03-22 10:54:14
R.E.D。：与专家代表团的缩放文本分类

2025-03-22 10:33:09
DeepSeek #opensourceweek第6天：推理系统概述

2025-03-22 10:26:10

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1439609
php入门教程之一周学会PHP

4300793
JAVA 初级入门视频教程

2684292
小甲鱼零基础入门学习Python视频教程

517972
PHP 零基础入门教程

879566

最新下载

更多>

网站特效

网站源码

网站素材

前端模板