Perhatian bukan semua yang anda perlukan! Sumber terbuka model besar hibrid Mamba: daya pemprosesan tiga kali ganda Transformer-AI-php.cn

Perhatian bukan semua yang anda perlukan! Sumber terbuka model besar hibrid Mamba: daya pemprosesan tiga kali ganda Transformer

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-03-30 09:41:16

ke hadapan

1009 orang telah melayarinya

Mamba Masa sudah tiba?

Seni bina transformer telah mendominasi bidang kecerdasan buatan generatif sejak penerbitan kertas penyelidikan terobosan "Attention is All You Need" pada 2017.

Walau bagaimanapun, seni bina transformer sebenarnya mempunyai dua kelemahan yang ketara:

Jejak memori Transformer berbeza mengikut panjang konteks. Ini menjadikan ia mencabar untuk menjalankan tetingkap konteks panjang atau pemprosesan selari besar-besaran tanpa sumber perkakasan yang ketara, sekali gus mengehadkan percubaan dan penggunaan yang meluas. Jejak memori model Transformer menskalakan dengan panjang konteks, menjadikannya sukar untuk menjalankan tetingkap konteks yang panjang atau pemprosesan yang sangat selari tanpa sumber perkakasan yang ketara, sekali gus mengehadkan percubaan dan penggunaan yang meluas.
Mekanisme perhatian dalam model Transformer akan melaraskan kelajuan mengikut pertambahan panjang konteks Mekanisme ini akan mengembangkan panjang jujukan secara rawak dan mengurangkan kos pengiraan, kerana setiap token bergantung pada keseluruhan jujukan sebelum itu, dengan itu. mengurangkan konteks Digunakan di luar skop pengeluaran yang cekap.

Transformer bukan satu-satunya jalan ke hadapan untuk pengeluaran kecerdasan buatan. Baru-baru ini, AI21 Labs melancarkan dan membuka sumber kaedah baharu yang dipanggil "Jamba" yang mengatasi pengubah pada berbilang penanda aras.

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Alamat Muka Berpeluk: https://huggingface.co/ai21labs/Jamba-v0.1

Seni bina SSM Mamba boleh menyelesaikan masalah sumber memori dan konteks pengubah dengan baik. Walau bagaimanapun, pendekatan Mamba bergelut untuk menyediakan tahap output yang sama seperti model pengubah.

Jamba menggabungkan model Mamba berdasarkan Model Ruang Negeri Berstruktur (SSM) dengan seni bina transformer, bertujuan untuk menggabungkan sifat terbaik SSM dan transformer.

Jamba juga boleh diakses daripada katalog NVIDIA API sebagai perkhidmatan mikro inferens NVIDIA NIM, yang boleh digunakan oleh pembangun aplikasi perusahaan menggunakan platform perisian NVIDIA AI Enterprise.

‍Secara amnya, model Jamba mempunyai ciri-ciri berikut:

Model peringkat pengeluaran pertama berdasarkan Mamba, menggunakan seni bina hibrid SSM-Transformer
Berbanding dengan Mixtral 8x7B, konteks panjang. meningkat sebanyak 3 kali ganda;
Seni Bina Model
Seperti yang ditunjukkan dalam rajah di bawah, seni bina Jamba menggunakan pendekatan blok dan lapisan, membolehkan Jamba menyepadukan kedua-dua seni bina. Setiap blok Jamba terdiri daripada lapisan perhatian atau lapisan Mamba, diikuti oleh perceptron berbilang lapisan (MLP), membentuk lapisan pengubah.
Jamba memanfaatkan MoE untuk meningkatkan jumlah bilangan parameter model sambil memudahkan bilangan parameter aktif yang digunakan dalam inferens, menghasilkan kapasiti model yang lebih tinggi tanpa peningkatan yang sepadan dalam keperluan pengiraan. Untuk memaksimumkan kualiti model dan daya pemprosesan pada GPU 80GB tunggal, pasukan penyelidik mengoptimumkan bilangan lapisan MoE dan pakar yang digunakan, meninggalkan memori yang mencukupi untuk beban kerja inferens biasa.

Lapisan MoE Jamba membenarkannya menggunakan hanya 12B daripada parameter 52B yang tersedia pada masa inferens, dan seni bina hibridnya menjadikan parameter aktif 12B ini lebih cekap daripada model pengubah tulen dengan saiz yang sama.

Tiada siapa yang memanjangkan Mamba melebihi parameter 3B sebelum ini. Jamba ialah seni bina hibrid pertama seumpamanya yang mencapai skala pengeluaran.

Kelancaran dan Kecekapan

Eksperimen penilaian awal menunjukkan bahawa Jamba berprestasi baik pada metrik utama seperti pemprosesan dan kecekapan.

Dari segi kecekapan, Jamba mencapai 3x daya pemprosesan Mixtral 8x7B pada konteks yang panjang. Jamba lebih cekap daripada model berasaskan Transformer bersaiz serupa seperti Mixtral 8x7B.

Dari segi kos, Jamba boleh menampung 140K konteks pada satu GPU. Jamba menawarkan lebih banyak peluang penggunaan dan percubaan daripada model sumber terbuka semasa yang lain dengan saiz yang sama.

Perlu diingatkan bahawa Jamba pada masa ini tidak mungkin menggantikan model bahasa besar (LLM) berasaskan Transformer semasa, tetapi ia mungkin menjadi pelengkap dalam beberapa kawasan.

^{Pautan rujukan:}

^{https://www.ai21.com/blog/announcing-jamba}

^{-https://venturebeat.com/sup-jui21- gen-ai-transformers-with-jamba/}

Atas ialah kandungan terperinci Perhatian bukan semua yang anda perlukan! Sumber terbuka model besar hibrid Mamba: daya pemprosesan tiga kali ganda Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!