Model besar tanpa perhatian Eagle7B: Berdasarkan RWKV, kos inferens dikurangkan sebanyak 10-100 kali ganda
Dalam trek AI , model kecil telah menarik banyak perhatian baru-baru ini, berbanding model dengan ratusan bilion parameter. Sebagai contoh, model Mistral-7B yang dikeluarkan oleh pemula AI Perancis mengatasi Llama 2 sebanyak 13B dalam setiap penanda aras dan mengatasi Llama 1 sebanyak 34B dalam kod, matematik dan inferens.
Berbanding dengan model besar, model kecil mempunyai banyak kelebihan, seperti keperluan kuasa pengkomputeran yang rendah dan keupayaan untuk berjalan pada sisi peranti.
Baru-baru ini, model bahasa baharu telah muncul, iaitu parameter 7.52B Eagle 7B, daripada organisasi bukan untung sumber terbuka RWKV, yang mempunyai ciri-ciri berikut:
Perlu dinyatakan bahawa RWKV-v5 Eagle 7B boleh digunakan untuk kegunaan peribadi atau komersial tanpa sekatan.
Hasil ujian pada 23 bahasa
Prestasi model yang berbeza pada berbilang bahasa adalah seperti berikut Penanda aras ujian termasuk xLAMBDA, xStoryCloze, xWinograd, xCopa.
23 bahasa secara keseluruhan
Tanda aras ini termasuk kebanyakan penaakulan RW-languK yang besar, yang menunjukkan prestasi akal fikiran yang besar. kepada v5. Walau bagaimanapun, disebabkan kekurangan tanda aras berbilang bahasa, kajian itu hanya boleh menguji keupayaannya dalam 23 bahasa yang lebih biasa digunakan, dan keupayaan dalam baki 75 atau lebih bahasa masih tidak diketahui.
Prestasi Bahasa Inggeris
Prestasi model berbeza dalam bahasa Inggeris dinilai melalui 12 penanda aras, termasuk penaakulan akal dan pengetahuan dunia.
Daripada hasilnya, kita sekali lagi dapat melihat lonjakan besar RWKV daripada seni bina v4 kepada v5. v4 sebelum ini kalah kepada token 1T MPT-7b, tetapi v5 telah mula mengejar ujian penanda aras Dalam sesetengah kes (walaupun pada beberapa ujian penanda aras LAMBADA, StoryCloze16, WinoGrande, HeadQA_en, Sciq) ia boleh mengatasi Falcon , atau llama2.
Selain itu, prestasi v5 mula sejajar dengan tahap prestasi Transformer yang dijangkakan berdasarkan anggaran statistik latihan token. Sebelum ini, Mistral-7B menggunakan kaedah latihan 2-7 trilion Token untuk mengekalkan pendahulunya dalam model skala 7B. Kajian ini berharap dapat merapatkan jurang ini supaya RWKV-v5 Eagle 7B mengatasi prestasi llama2 dan mencapai tahap Mistral. Rajah di bawah menunjukkan bahawa pusat pemeriksaan RWKV-v5 Eagle 7B berhampiran 300 bilion mata token menunjukkan prestasi yang serupa dengan pythia-6.9b: Ini adalah konsisten dengan kerja-kerja eksperimen RWKV4 sebelum ini perjanjian berasaskan cerucuk) ialah transformer linear seperti RWKV adalah serupa dalam tahap prestasi dengan transformer dan dilatih dengan bilangan token yang sama. Dapat diramalkan, kemunculan model ini menandakan kedatangan transformer linear terkuat (dari segi penanda aras penilaian) setakat ini.
Atas ialah kandungan terperinci Model besar tanpa perhatian Eagle7B: Berdasarkan RWKV, kos inferens dikurangkan sebanyak 10-100 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!