AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat-AI-php.cn

AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-04-07 09:04:01

ke hadapan

727 orang telah melayarinya

Jika anda ingin mengetahui lebih lanjut tentang AIGC,

sila layari: 51CTO AI , latih model besar di peringkat Llama-2.

Model

MoE

lebih kecil tetapi mempunyai prestasi yang sama:

Ia dipanggil JetMoE, dan ia datang daripada institusi penyelidikan seperti MIT dan Princeton. Prestasi jauh melebihi Llama-2 dengan saiz yang sama.

△Ditweet semula oleh Jia Yangqing

Anda mesti tahu bahawa yang terakhir ini mempunyai kos pelaburan sebanyak

berbilion dolar

peringkat.

AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat

JetMoE sepenuhnya

sumber terbuka apabila dikeluarkan, dan mesra akademik: ia hanya menggunakan set data awam dan kod sumber terbuka, dan boleh diperhalusi dengan GPU gred pengguna

AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat Mesti dikatakan kos membina model besar memang jauh lebih murah daripada yang orang sangka.

Ps. Emad, bekas bos Stable Diffusion, juga menyukainya:

$100,000 untuk mencapai prestasi Llama-2

JetMoE diilhamkan oleh seni bina yang jarang digunakan.

(ModuleFormer, seni bina modular berdasarkan Campuran Jarang Pakar (SMoE) untuk meningkatkan kecekapan dan fleksibiliti model besar, dicadangkan pada Jun tahun lepas) AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat

MoE masih digunakan dalam lapisan perhatiannya:

JetMoE dengan 8 bilion parameter mempunyai sejumlah 24 blok, setiap blok mengandungi 2 lapisan MoE iaitu attention head mixing

(MoA)

dan MLP expert mixing (MoE) .

Setiap lapisan MoA dan MoE mempunyai 8 pakar, 2 diaktifkan setiap kali token dimasukkan.

JetMoE-8B menggunakan

1.25T token

dalam set data awam untuk latihan, dengan kadar pembelajaran 5.0 x 10-4 dan saiz kelompok global 4M token. . peringkat menggunakan prapemanasan linear Kadar pembelajaran berterusan, dilatih dengan 1 trilion token daripada set data pra-latihan sumber terbuka berskala besar, termasuk RefinedWeb, Pile, data Github, dsb.

AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat

Peringkat kedua menggunakan pereputan kadar pembelajaran eksponen dan menggunakan 250 bilion token untuk melatih token daripada set data peringkat pertama dan set data sumber terbuka berkualiti ultra tinggi.

Akhirnya, pasukan menggunakan 96×H100 kluster GPU, menghabiskan masa 2 minggu dan kira-kira 80,000 dolar AS untuk melengkapkan JetMoE-8B. Lebih banyak butiran teknikal akan didedahkan dalam laporan teknikal yang dikeluarkan tidak lama lagi.

Semasa proses inferens, memandangkan JetMoE-8B hanya mempunyai

2.2 bilion AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat

parameter pengaktifan, kos pengiraan dikurangkan dengan banyak -

Pada masa yang sama, ia juga mencapai prestasi yang baik.

AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat Seperti yang ditunjukkan dalam rajah di bawah:

JetMoE-8B mencapai 5 sota pada 8 penanda aras penilaian (termasuk arena model besar Open LLM Leaderboard) , mengatasi LLaMA-13B, LLaMA2-7B dan DeepseekMoE-16B. Mendapat 6.681 pada penanda aras MT-Bench, juga mengatasi model seperti LLaMA2 dan Vicuna dengan 13 bilion parameter.

Pengenalan pengarangJetMoE mempunyai 4 pengarang kesemuanya, mereka ialah:

Yikang Shen

Penyelidik di MIT-IBM Watson Lab, NLP hala tuju penyelidikan.

Berlulus dari Universiti Beihang dengan ijazah sarjana muda dan sarjana, dan pengalaman PhD dalam Institut Penyelidikan Mila yang diasaskan oleh Yoshua Bengio.

Guozhen (Gavin Guo)

ialah calon PhD di MIT, hala tuju penyelidikannya ialah pembelajaran mesin yang cekap data untuk pengimejan 3D.

Lulus dari UC Berkeley dengan ijazah sarjana muda pada musim panas lalu, beliau menyertai MIT-IBM Watson Lab sebagai seorang penyelidik pelajarnya ialah Yikang Shen dan lain-lain.

Cai Tianle

Calon PhD di Princeton, dengan ijazah sarjana muda dalam bidang matematik gunaan dan sains komputer dari Universiti Peking Beliau kini juga merupakan penyelidik sambilan di Together.ai, bekerja dengan Tri Dao .
Zengyi Qin

sedang belajar untuk PhD di MIT dan memulakan perniagaan, pengarah R&D AI MyShell
.
Syarikat ini baru sahaja mengumpul $11 juta, dan pelabur termasuk pengarang Transformer.

Portal: https://github.com/myshell-ai/JetMoE
Pautan rujukan: https://twitter.com/jiayq/status/1775935845205463292🜎
Untuk kandungan,
sila layari: 51CTO AI.

Atas ialah kandungan terperinci AS$100,000 untuk melatih model besar Llama-2! Semua orang Cina membina MoE baharu, Jia Yangqing, bekas CEO SD, melihat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!