社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

WBOY

發布： 2024-04-07 09:04:01

轉載

600 人瀏覽過

想了解更多AIGC的內容，

請造訪：51CTO AI.x社群

https ://www.51cto.com/aigc/

「只要」10萬美元，訓練Llama-2等級的大模型。

尺寸更小但效能不減的MoE模型來了：

它叫做JetMoE，來自MIT、普林斯頓等研究機構。

性能妥妥超過同等規模的Llama-2。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

△賈揚清轉發

要知道，後者可是數十億美元等級的投入成本。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

JetMoE發布即完全開源，且學術界友善：僅使用公開資料集與開源程式碼，以消費級GPU就能進行微調。

不得說，大模型的打造成本，真的比人們想的便宜更多了。

Ps. Stable Diffusion前老闆Emad也點了讚：

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

10萬美刀實現Llama-2效能

JetMoE啟發ModuleFormer的稀疏激活架構。

（ModuleFormer，一個基於稀疏專家混合(SMoE)的模組化架構，可提高大模型效率和靈活性，去年6月提出）

它的注意力層中仍然使用了MoE：

80億參數的JetMoE一共有24個區塊，每塊包含2個MoE層，分別是注意力頭混合 (MoA) 和MLP專家混合 (MoE）。

每個MoA和MoE層又有8個專家，每次輸入token啟動2個。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

JetMoE-8B使用公開資料集中的1.25T token進行訓練，學習率5.0 x 10-4，全域batch size為4M token。

具體訓練方案遵循MiniCPM（來自面壁智能，2B模型就能趕上超Mistral-7B）的思路，共包含兩階段：

第一階段使用線性預熱的恆定學習率，用來自大規模開源預訓練資料集的1萬億個token進行訓練，這些資料集包括RefinedWeb、Pile、Github data等等。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

第二階段則使用指數學習率衰減，用2500億個token訓練第一階段資料集和超高品質開源資料集的token。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

最終，團隊使用96×H100的GPU集群，#花費2週時間、約8萬美元搞定JetMoE-8B。

更多技術細節將在不久後發布的技術報告上揭露。

而在推理過程中，由於JetMoE-8B僅具有22億個激活參數，因此計算成本大大降低-

同時，它還收穫了不錯的性能表現。

如下圖所示：

JetMoE-8B在8個評測基準上獲得了5個sota（包括大模型競技場Open LLM Leaderboard），超過LLaMA -13B、LLaMA2-7B和DeepseekMoE-16B。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

在MT-Bench基準上得分6.681，也超過了130億參數的LLaMA2、Vicuna等模型。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

作者介紹

JetMoE共4位作者，分別為：

Yikang Shen

MIT-IBM Watson Lab研究員，研究方向NLP。

本碩畢業於北航，博士經歷於Yoshua Bengio創辦的Mila研究機構。

國振 (Gavin Guo)

MIT博士在讀，研究方向為3D成像的資料高效機器學習。

UC柏克萊本科畢業，去年夏天加入MIT-IBM Watson Lab，導師為Yikang Shen等。

蔡天樂

#普林斯頓博士在讀生，本科畢業於北大應用數學和電腦科學，目前也是Together. ai 的兼職研究員，與Tri Dao合作。

Zengyi Qin

#MIT博士在讀，同時在創業，MyShell#的AI研發主管。

這家公司剛剛融資了1,100萬美元，投資者包括Transformer的作者。

10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

傳送門：https://github.com/myshell-ai/JetMoE
參考連結：https:// twitter.com/jiayq/status/1775935845205463292

想了解更多AIGC的內容，

請造訪：51CTO AI.x社群

https://www.51cto.com/aigc/

#

以上是10萬美元訓練Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型訓練

來源：51cto.com

上一篇：Up主已經開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話下一篇：ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1423165
php入門教程之一週學會PHP

4268705
JAVA 初級入門影片教學

2536437
小甲魚零基礎入門學習Python影片教學

507375
PHP 零基礎入門教學

862749

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板