Selepas Google, Meta juga datang untuk melancarkan konteks yang sangat panjang.
Kerumitan kuadratik dan ekstrapolasi panjang yang lemah bagi Transformer mengehadkan keupayaan mereka untuk menskalakan kepada jujukan yang panjang Walaupun penyelesaian kuadratik seperti perhatian linear dan model ruang nyata wujud, dari pengalaman lepas, Mereka berprestasi rendah dari segi kecekapan pra-latihan. dan ketepatan tugas hiliran.
Baru-baru ini, Infini-Transformer yang dicadangkan oleh Google telah menarik perhatian orang ramai dengan memperkenalkan kaedah berkesan yang boleh memanjangkan model bahasa besar (LLM) berasaskan Transformer kepada input yang tidak terhingga panjang tanpa meningkatkan keperluan storan dan pengkomputeran.
Hampir pada masa yang sama, Meta juga mencadangkan teknologi teks yang tidak terhingga panjangnya.
Alamat kertas: https://arxiv.org/pdf/2404.08801.pdf
Tajuk kertas: MEGALODON: Cekap LLM Pralatihan dan Inferens Konteks🜎🜎 / /github.com/XuezheMax/megalodon
Dalam kertas kerja yang diserahkan pada 12 April, institusi dari Meta, University of Southern California, CMU, UCSD dan institusi lain memperkenalkan MEGALODON, rangkaian saraf untuk pemodelan jujukan yang cekap, panjang konteks tidak terhad.
MEGALODON pada asasnya ialah seni bina MEGA yang dipertingkatkan (Ma et al., 2023), yang menggunakan mekanisme perhatian berpagar dan kaedah purata bergerak eksponen (EMA) klasik. Untuk meningkatkan lagi keupayaan dan kecekapan MEGALODON dalam pra-latihan konteks panjang berskala besar, penulis mencadangkan pelbagai komponen teknikal. Mula-mula, MEGALODON memperkenalkan komponen purata bergerak eksponen kompleks (CEMA) yang memanjangkan EMA lembap berbilang dimensi dalam MEGA kepada domain kompleks. Kedua, MEGALODON mencadangkan lapisan normalisasi langkah masa, yang menyamaratakan lapisan normalisasi kumpulan kepada tugas pemodelan jujukan autoregresif untuk membenarkan normalisasi sepanjang dimensi jujukan.
Untuk meningkatkan kestabilan pra-latihan berskala besar, MEGALODON seterusnya mencadangkan perhatian yang dinormalisasi, serta pra-penormalan dengan konfigurasi baki dua hop dengan mengubah suai kaedah pra-normalisasi dan pasca-normalisasi yang diterima pakai secara meluas. Dengan hanya memotong jujukan input ke dalam ketulan tetap, seperti yang dilakukan dalam ketulan MEGA, MEGALODON mencapai kerumitan pengiraan dan ingatan linear dalam latihan model dan inferens.
Dalam perbandingan langsung dengan LLAMA2, sambil mengawal data dan pengiraan, MEGALODON-7B dengan ketara mengatasi varian Transformer tercanggih yang digunakan untuk melatih LLAMA2-7B dari segi kebingungan latihan. Penilaian pada pemodelan konteks panjang, termasuk kebingungan dalam pelbagai panjang konteks sehingga 2M dan tugasan QA konteks panjang dalam Tatal, menunjukkan keupayaan MEGALODON untuk memodelkan jujukan panjang tak terhingga. Hasil percubaan tambahan pada penanda aras kecil dan sederhana, termasuk LRA, ImageNet, Perintah Pertuturan, WikiText-103, dan PG19 menunjukkan keupayaan MEGALODON pada volum dan pelbagai mod.
Pengenalan kepada kaedahPertama sekali, artikel itu mengkaji secara ringkas komponen utama dalam seni bina MEGA (Moving Average Equipped Gated Attention) dan membincangkan masalah yang wujud dalam MEGA. MEGA membenamkan komponen EMA (purata bergerak eksponen) ke dalam pengiraan matriks perhatian untuk menggabungkan bias induktif merentas dimensi langkah masa. Khususnya, EMA terlembap berbilang dimensi mula-mula mengembangkan setiap dimensi jujukan input Borangnya adalah seperti berikut:
Untuk mengurangkan kerumitan kuadratik dalam mekanisme perhatian penuh, MEGA hanya membahagikan urutan pertanyaan, kunci dan nilai dalam (14-16) kepada ketulan panjang c. Perhatian dalam (17) digunakan pada setiap blok secara individu, menghasilkan kerumitan linear O (kc^2 ) = O (nc).
Secara teknikal, sub-lapisan EMA dalam MEGA membantu menangkap maklumat kontekstual setempat berhampiran setiap token, dengan itu mengurangkan masalah kehilangan maklumat dalam konteks melangkaui sempadan blok. Walaupun MEGA mencapai keputusan yang mengagumkan, ia menghadapi masalah berikut:
i) Disebabkan kuasa ekspresif terhad sub-lapisan EMA dalam MEGA, prestasi MEGA dengan perhatian peringkat blok masih ketinggalan berbanding MEGA tumpuan penuh.
ii) Untuk tugasan dan jenis data yang berbeza, mungkin terdapat perbezaan seni bina dalam seni bina MEGA akhir, seperti lapisan penormalan yang berbeza, mod penormalan dan fungsi perhatian f (・).
iii) Tiada bukti empirikal bahawa skala MEGA untuk pra-latihan berskala besar.
CEMA: Memperluaskan EMA redaman multidimensi ke domain kompleks
Untuk menyelesaikan masalah yang dihadapi oleh MEGA, penyelidikan ini mencadangkan MEGALODON.
Secara khusus, mereka secara kreatif mencadangkan purata bergerak eksponen kompleks CEMA (purata bergerak eksponen kompleks), menulis semula persamaan di atas (1) ke dalam bentuk berikut:
dan parameterkan θ_j dalam (2) sebagai :
Penormalan Langkah Masa
Walaupun prestasi penormalan lapisan yang digabungkan dengan Transformer sangat mengagumkan, adalah jelas bahawa penormalan lapisan tidak dapat secara langsung mengurangkan sepanjang dimensi ruang (juga Anjakan kovariat dalaman dipanggil langkah masa atau dimensi jujukan). Dalam MEGALODON, kajian ini memanjangkan normalisasi kumpulan kepada kes autoregresif dengan mengira min dan varians kumulatif. Rajah 2 menggambarkan penormalan lapisan dan penormalan langkah masa.Perhatian yang dinormalkan dalam MEGALODON
Selain itu, penyelidikan itu juga mencadangkan mekanisme perhatian ternormal yang disesuaikan khusus untuk MEGA untuk meningkatkan kestabilannya. Bentuknya adalah seperti berikut: Kemudian operasi perhatian dalam persamaan di atas (17) ditukar kepada:Pra-Norma dengan baki Dua-hop didapati melalui penyiasatan, Meningkatkan saiz model boleh menyebabkan ketidakstabilan pranormalisasi. Pra-normalisasi berdasarkan blok Transformer boleh dinyatakan seperti (ditunjukkan dalam Rajah 3 (b)):
Dalam seni bina MEGA asal, φ (19) digunakan untuk sambungan baki berpagar (21 ) untuk mengurangkan masalah ini. Walau bagaimanapun, gerbang kemas kini φ memperkenalkan lebih banyak parameter model, dan masalah ketidakstabilan masih wujud apabila saiz model dikembangkan kepada 7 bilion. MEGALODON memperkenalkan konfigurasi baharu yang dipanggil pra-norma dengan baki dua hop, yang hanya menyusun semula sambungan baki dalam setiap blok, seperti yang ditunjukkan dalam Rajah 3(c):
Eksperimen
menilai kebolehskalaan dan kecekapan MEGALODON dalam pemodelan jujukan konteks panjang, makalah ini memanjangkan MEGALODON kepada skala 7 bilion.
LLM pra-latihanUntuk meningkatkan kecekapan data, penyelidik menunjukkan kemungkinan log negatif (NLL) MEGALODON-7B, LLAMA2-7B dan LLAMA2-13B semasa proses latihan, seperti ditunjukkan dalam Rajah 1.
Di bawah bilangan token latihan yang sama, MEGALODON-7B mencapai NLL yang jauh lebih baik (rendah) daripada LLAMA2-7B, menunjukkan kecekapan data yang lebih baik.
Rajah 4 menggambarkan purata WPS (perkataan/token sesaat) setiap peranti untuk LLAMA2-7B dan MEGALODON-7B masing-masing menggunakan panjang konteks 4K dan 32K. Untuk model LLAMA2, kajian menggunakan Flash-Attention V2 untuk mempercepatkan pengiraan perhatian penuh. Pada panjang konteks 4K, MEGALODON-7B adalah lebih perlahan (~6%) daripada LLAMA2-7B disebabkan pengenalan CEMA dan penormalan langkah masa. Apabila memanjangkan panjang konteks kepada 32K, MEGALODON-7B jauh lebih pantas daripada LLAMA2-7B (kira-kira 32%), yang menunjukkan kecekapan pengiraan MEGALODON untuk pra-latihan konteks yang panjang.
Penilaian Konteks Ringkas
Jadual 1 meringkaskan keputusan MEGALODON dan LLAMA2 pada penanda aras akademik, serta hasil perbandingan model asas sumber terbuka lain, termasuk MPT, RWKV, dan Gemba, Mistral Selepas pra-latihan pada token 2T yang sama, MEGALODON-7B mengatasi LLAMA2-7B pada semua penanda aras. Pada sesetengah tugas, prestasi MEGALODON-7B adalah setanding atau lebih baik daripada LLAMA2-13B.
Penilaian konteks panjang
Rajah 5 menunjukkan kebingungan (PPL) set data pengesahan di bawah pelbagai panjang konteks daripada 4K hingga 2M. Dapat diperhatikan bahawa PPL berkurangan secara monoton dengan panjang konteks, mengesahkan keberkesanan dan keteguhan MEGALODON dalam memodelkan urutan yang sangat panjang.
Penalaan halus arahan
Jadual 3 meringkaskan prestasi model 7B pada MT-Bench. MEGALODON menunjukkan prestasi unggul pada MT-Bench berbanding Vicuna dan setanding dengan LLAMA2-Chat, yang menggunakan RLHF untuk penyelarasan lebih lanjut.
Penilaian Penanda Aras Skala Sederhana
Untuk menilai prestasi MEGALODON pada tugas pengelasan imej, kajian itu menjalankan eksperimen pada dataset Imagenet-1K. Jadual 4 melaporkan ketepatan Top-1 pada set pengesahan. Ketepatan MEGALODON adalah 1.3% lebih tinggi daripada DeiT-B dan 0.8% lebih tinggi daripada MEGA.
Jadual 5 menggambarkan kekeliruan peringkat perkataan (PPL) MEGALODON pada PG-19, dan perbandingan dengan model terkini yang terkini, termasuk Compressive Transformer, Perceiver AR, Perceiver AR, Block Loop Transformer dan MEGABYTE, dsb. Prestasi MEGALODON jelas di hadapan.
Sila rujuk kertas asal untuk butiran lanjut.
Atas ialah kandungan terperinci Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!