Tingkatkan mekanisme teras Transformer untuk fokus, supaya model kecil boleh dibuat dua kali lebih besar!
Dalam kertas penskoran tinggi ICML+2024, pasukan Teknologi Caiyun membina rangka kerja DCFormer untuk menggantikan modul perhatian komponen teras Transformer (MHA) dan mencadangkan perhatian berbilang kepala yang boleh digabungkan secara dinamik (DMCHA).
DCMHA mengalih keluar pengikatan tetap gelung pemilihan carian dan gelung transformasi kepala perhatian MHA, membolehkan mereka digabungkan secara dinamik berdasarkan input, yang secara asasnya meningkatkan keupayaan ekspresi model.
Maksud asalnya ialah setiap lapisan telah menetapkan kepala perhatian H Kini ia boleh difahami pada asasnya bahawa setiap lapisan telah menetapkan kepala perhatian H Kini dengan jumlah parameter dan kuasa pengkomputeran yang hampir sama, ia boleh digabungkan secara dinamik sehingga HxH perhatian kepala. Kandungan yang diperhalusi boleh menyatakan dengan lebih jelas maksud teks asal, seperti berikut: Setiap lapisan model asal mengandungi nombor tetap kepala perhatian H Kini kita boleh menggunakan
DCMHA plug-and-play untuk menggantikan MHA dalam mana-mana seni bina Transformer untuk mendapatkan seni bina baharu DCFormer yang serba boleh, cekap dan boleh berskala.
Kerja ini telah disiapkan bersama oleh penyelidik dari Universiti Pos dan Telekomunikasi Beijing dan syarikat pemula AI Caiyun Technology.
Model DCPythia-6.9B yang dibina oleh penyelidik berdasarkan DCFormer adalah lebih baik daripada sumber terbuka Pythia-12B dari segi kebingungan pra-latihan dan penilaian tugas hiliran.
Model DCFormer adalah setanding dalam prestasi dengan model Transformer yang memerlukan 1.7-2 kali lebih pengiraan.
Undang-undang penskalaan model besar memberitahu kita bahawa apabila kuasa pengkomputeran meningkat, model menjadi lebih besar dan mempunyai lebih banyak data, dan kesan model akan menjadi lebih baik dan lebih baik. Walaupun tiada siapa dapat menjelaskan dengan jelas betapa tinggi siling jalan ini dan sama ada ia boleh mencapai AGI, ini sememangnya pendekatan yang paling biasa pada masa ini.
Tetapi sebagai tambahan kepada ini, soalan lain juga patut difikirkan: Kebanyakan model besar semasa adalah berdasarkan Transformer Mereka dibina satu demi satu dengan blok Transformer seperti blok binaan, Transformer itu sendiri. dan Berapa banyak ruang untuk penambahbaikan yang ada?
Ini ialah soalan asas yang perlu dijawab dalam penyelidikan struktur model, dan ia juga merupakan titik permulaan kerja DCFormer yang disiapkan bersama oleh Caiyun Technology dan Beijing University of Posts and Telecommunications.
Dalam modul perhatian berbilang kepala Transformer (MHA) , setiap ketua perhatian berfungsi sepenuhnya secara bebas antara satu sama lain.
Reka bentuk ini sangat berjaya dalam amalan kerana kesederhanaan dan kemudahan pelaksanaannya, tetapi ia juga membawa kepada kedudukan rendah matriks skor perhatian, yang melemahkan keupayaan ekspresif, dan lebihan berulang fungsi kepala perhatian membazir. parameter dan pengiraan sumber dan kelemahan lain. Berdasarkan ini, beberapa kerja penyelidikan dalam beberapa tahun kebelakangan ini telah cuba memperkenalkan beberapa bentuk interaksi antara ketua perhatian.
Menurut teori gelung Transformer, dalam MHA, tingkah laku setiap kepala perhatian digambarkan oleh empat matriks berat WQ, WK, WV, WO(di mana WO Diperolehi oleh membahagikan matriks unjuran keluaran MHA).
Antaranya, WQWK dipanggil gelung QK (atau gelung pemilihan carian) , yang menentukan token (beberapa) dalam konteks untuk difokuskan daripada token semasa, contohnya:
W
OWV dipanggil gelung OV (atau gelung transformasi unjuran), yang menentukan maklumat yang perlu diambil daripada tanda kebimbangan) untuk ditayangkan tulis ke dalam aliran baki pada kedudukan semasa, dan kemudian ramalkan token Seterusnya. Contohnya:
Penyelidik mendapati bahawa carian (di mana untuk mendapatkan) dan transformasi (apa yang perlu diperoleh) pada asalnya adalah dua perkara bebas, yang harus dinyatakan secara berasingan dan digabungkan secara bebas mengikut keperluan (sama seperti dalam pertanyaan SQL, Pemilihan keadaan selepas WHERE dan unjuran atribut selepas SELECT ditulis secara berasingan), dan MHA memaksanya untuk "dihimpunkan" dalam QKOV dengan kepala perhatian, yang mengehadkan keupayaan fleksibiliti dan ekspresi.
Sebagai contoh, katakan ada model dengan kepala perhatian A, B dan C yang gelung QK dan OV boleh melengkapkan contoh di atas =, kemudian gantikannya dengan:
Anda perlu silang- menggabungkan kepala perhatian sedia ada gelung QK dan OV, model mungkin "tidak dapat membelok" (disahkan oleh set ujian sintetik yang dibina oleh sistem penyelidik, model kecil dan sederhana
Dengan ini sebagai titik permulaan, pasukan penyelidik artikel ini memperkenalkan operasi gubah dalam MHA:
Seperti yang ditunjukkan dalam rajah di bawah, DCMHA diperolehi:
. struktur keseluruhan DCMHA akan QWQ Matriks skor perhatian AS dan matriks berat perhatian AW yang dikira oleh dan KWK dipetakan secara linear pada dimensi num_heads untuk mendapatkan matriks baru A' didarab dengan VWV , melalui matriks pemetaan linear yang berbeza
(peta komposisi), untuk mencapai kesan gabungan pelbagai kepala perhatian.
Sebagai contoh, dalam Rajah 2(c), gelung QK kepala 3 dan 7 digabungkan dengan gelung OV kepala 1 untuk membentuk kepala perhatian "baru".
△ Rajah 2. Dipermudahkan fungsi peta komposisi tipikal 8 kepala perhatian, warna terang mewakili nilai yang besar Untuk memaksimumkan keupayaan ekspresi, penyelidik berharap bahawa matriks pemetaan oleh dinamik input
Jana, iaitu, secara dinamik menentukan cara kepala perhatian digabungkan. Tetapi matriks pemetaan yang ingin mereka hasilkan bukanlah satu, tetapi matriks sedemikian mesti dihasilkan untuk setiap pasangan pertanyaan Qi pada kedudukan sumber dan kunci K
jpada kedudukan destinasi dalam urutan, yang memerlukan kedua-dua overhed pengiraan dan penggunaan memori Ia akan menjadi sukar untuk diterima. Untuk tujuan ini, mereka menguraikan lagi matriks pemetaan kepada jumlah matriks statik bebas input Wb, matriks peringkat rendah w1w2, dan matriks pepenjuru Diag(wg ), Mereka masing-masing bertanggungjawab untuk kombinasi asas, kombinasi dinamik dalam cara yang terhad (iaitu pangkat R antara ketua perhatian, dan gating dinamik
kepala itu sendiri (lihat Rajah 2 (d) dan Rajah 3 (b )). Dua matriks terakhir dijana secara dinamik oleh matriks Q dan matriks K. Kurangkan pengiraan dan kerumitan parameter ke tahap yang hampir boleh diabaikan tanpa mengorbankan kesannya
(lihat analisis kerumitan dalam kertas untuk butiran)Peluasan skalaUntuk menilai kualiti seni bina, penunjuk teras yang menjadi tumpuan penyelidik ialah kecekapan menukar kuasa pengkomputeran kepada kecerdasan
(atau nisbah kuasa pengkomputeran prestasi), iaitu prestasi model yang boleh dicapai dengan melabur kuasa pengkomputeran unit Penambahbaikan - kurangkan kuasa pengkomputeran dan dapatkan model yang lebih baik. Ia boleh dilihat daripada lengkung undang-undang penskalaan
dalam Rajah 4 dan Rajah 5 (dalam koordinat logaritma, kehilangan setiap seni bina model boleh dilukis sebagai garis lurus anggaran apabila kuasa pengkomputeran berubah. Semakin rendah kerugian, semakin baik model)△Rajah 5. Kesan pengembangan skala Pythia dan DCPythia
untuk memahami peningkatan ini? Sejak kelahiran Transformer pada 2017, dari perspektif meningkatkan prestasi dan nisbah kuasa pengkomputeran, GLU MLP dan pengekodan kedudukan putaran RoPE adalah dua daripada beberapa penambahbaikan seni bina yang telah terbukti berkesan secara universal dan diterima pakai secara meluas dalam skala besar. bilangan amalan. Seni bina yang menambah dua penambahbaikan ini kepada Transformer asal juga dipanggil Transformer++ Model sumber terbuka terkuat seperti Llama dan Mistral semuanya menggunakan seni bina ini. Tidak kira seni bina Transformer atau Transformer++, penambahbaikan yang ketara boleh diperolehi melalui DCMHA. Pada skala model 1.4B, peningkatan DCMHA adalah lebih besar daripada jumlah dua penambahbaikan Transformer++, dan kebolehskalaan adalah lebih baik (Perbandingan garis biru-hijau dan garis hitam dalam Rajah 4, peningkatan DCMHA melemahkan apabila kuasa pengkomputeran meningkat Lebih perlahan, dan perbandingan Rajah 4 dan Rajah 5). Boleh dikatakan DCFormer membawa keupayaan Transformer ke tahap yang baru. 🎜Pasukan penyelidik melatih dua model, DCPythia-2.8B dan DCPythia-6.9B, untuk menilai tugasan hiliran NLP arus perdana dan membandingkannya dengan model sumber terbuka Pythia dengan skala yang sama (latihan menggunakan perkara yang sama hiperparameter sebagai tetapan Pythia) .
Seperti yang dapat dilihat dari Jadual 1, DCPythia-2.8B dan 6.9B bukan sahaja mempunyai ppl yang lebih rendah pada set pengesahan Cerucuk, tetapi juga mempunyai ppl yang lebih rendah pada kebanyakan Ia dengan ketara mengatasi Pythia pada tugas hiliran Ketepatan purata DCPythia6.9B pada tugas ppl dan hiliran malah melebihi Pythia-12B.
DCFormer++2.8B dipertingkatkan lagi berbanding DCPythia-2.8B, mengesahkan keberkesanan gabungan seni bina DCMHA dan Lllama.
Walaupun pengenalan DCMHA akan membawa latihan tambahan dan overhed inferens, dapat dilihat daripada Jadual 2 bahawa kelajuan latihan DCFormer++ ialah 74.5%-89.2% daripada Transformer++, dan kelajuan inferens ialah 81.1% -89.7 %, dan apabila parameter model meningkat, overhed pengiraan tambahan akan berkurangan secara beransur-ansur.
Kelajuan latihan dibandingkan apabila pod TPU v3, panjang jujukan ialah 2048, saiz_batch ialah 1k, penilaian_GPU ialah 1k; panjang input ialah 1024 dan panjang yang dijana ialah 128.
Keputusannya adalah seperti berikut:
Daripada Jadual 3, kita boleh lihat perkara berikut:
Pautan kertas ICML2024: https://icml.cc/virtual/2024/poster/34047.
Pautan kertas Arxiv: https://arxiv.org/abs/2405.08553. Pautan kod: https://github.com/Caiyun-AI/DCFormer.
Atas ialah kandungan terperinci ICML2024 skor tinggi! Ubah suai perhatian secara ajaib, membolehkan model kecil bertarung dua kali lebih besar daripada model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!