Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu-AI-php.cn

Rumah

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 13, 2024 pm 09:51 PM

projek laser

MIT dan Microsoft menjalankan penyelidikan bersama dan mendapati bahawa tiada latihan tambahan diperlukan untuk meningkatkan prestasi tugas model bahasa besar dan mengurangkan saiznya

Dalam era model besar, Transformer terkenal dengan keupayaan uniknya Menyokong keseluruhan bidang penyelidikan saintifik. Sejak diperkenalkan, model bahasa berasaskan Transformer (LLM) telah menunjukkan prestasi cemerlang dalam pelbagai tugas. Seni bina asas Transformer telah menjadi teknologi terkini untuk pemodelan dan penaakulan bahasa semula jadi, dan telah menunjukkan prospek yang kukuh dalam bidang seperti penglihatan komputer dan pembelajaran pengukuhan

Walau bagaimanapun, seni bina Transformer semasa adalah sangat besar dan biasanya memerlukan sejumlah besar sumber pengkomputeran untuk latihan dan penaakulan.

Tulis semula seperti ini: Adalah wajar untuk melakukan ini kerana Transformer yang dilatih dengan lebih banyak parameter atau data jelas lebih berkebolehan berbanding model lain. Walau bagaimanapun, semakin banyak penyelidikan menunjukkan bahawa model berasaskan Transformer dan rangkaian saraf tidak perlu mengekalkan semua parameter penyesuaian untuk mengekalkan hipotesis yang dipelajari

Secara umum, penparameteran berlebihan nampaknya membantu semasa melatih model, tetapi Model ini boleh menjadi sangat berguna. dicantas sebelum inferens. Kajian telah menunjukkan bahawa rangkaian saraf selalunya boleh mengeluarkan lebih daripada 90% berat tanpa sebarang penurunan prestasi yang ketara. Fenomena ini telah mencetuskan minat penyelidik dalam strategi pemangkasan yang membantu penaakulan model

Penyelidik dari MIT dan Microsoft menulis dalam kertas kerja "The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction" membentangkan penemuan mengejutkan yang berhati-hati. pemangkasan pada lapisan tertentu model Transformer boleh meningkatkan prestasi model pada tugas tertentu dengan ketara.

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/pdf/2312.13558.pdf
Laman utama kertas: https://pratyushashama.giterhub.io

Kajian ini memanggil campur tangan mudah ini sebagai LASER (Pengurangan Kedudukan Terpilih Lapisan), yang meningkatkan prestasi LLM dengan ketara dengan mengurangkan komponen tertib tinggi matriks berat yang dipelajari bagi lapisan tertentu dalam model Transformer secara terpilih melalui penguraian nilai tunggal. Operasi ini boleh dilakukan selepas latihan model selesai tanpa parameter atau data tambahan

Semasa operasi, pengurangan pemberat dilakukan dalam matriks dan lapisan berat khusus model. Kajian ini juga mendapati bahawa banyak matriks yang serupa boleh mengurangkan pemberat dengan ketara, dan biasanya tiada kemerosotan prestasi diperhatikan sehingga lebih daripada 90% komponen dialih keluar

Kajian juga mendapati bahawa pengurangan ini boleh meningkatkan ketepatan dengan ketara, satu penemuan yang nampaknya Tidak terhad kepada bahasa semula jadi, peningkatan prestasi juga didapati dalam pembelajaran pengukuhan.

Selain itu, penyelidikan ini cuba menyimpulkan apa yang disimpan dalam komponen tertib lebih tinggi supaya ia boleh dipadamkan untuk meningkatkan prestasi. Kajian mendapati bahawa LASER menjawab soalan yang betul, tetapi sebelum campur tangan, model asal terutamanya bertindak balas dengan perkataan frekuensi tinggi (seperti "the", "of", dll.), yang bukan jenis semantik yang sama seperti jawapan yang betul, dan juga Maksudnya, komponen ini akan menyebabkan model menghasilkan beberapa perkataan frekuensi tinggi yang tidak relevan tanpa campur tangan.

Walau bagaimanapun, dengan melakukan tahap penurunan pangkat tertentu, jawapan model boleh diubah menjadi betul.

Untuk memahami perkara ini, kajian itu turut meneroka perkara yang dikodkan oleh komponen selebihnya secara individu, dan mereka menganggarkan matriks berat hanya menggunakan vektor tunggal peringkat tinggi mereka. Didapati bahawa komponen ini menerangkan respons yang berbeza atau perkataan frekuensi tinggi biasa dalam kategori semantik yang sama dengan jawapan yang betul.

Keputusan ini mencadangkan bahawa apabila komponen tertib tinggi yang bising digabungkan dengan komponen tertib rendah, respons bercanggah mereka menghasilkan jawapan purata, yang mungkin salah. Rajah 1 memberikan gambaran visual seni bina Transformer dan prosedur yang diikuti oleh LASER. Di sini, matriks berat lapisan tertentu perceptron berbilang lapisan (MLP) digantikan dengan anggaran peringkat rendahnya.

Gambaran Keseluruhan Laser

menyediakan pengenalan terperinci kepada campur tangan LASER. Intervensi LASER satu langkah ditakrifkan oleh triplet (τ, ℓ, ρ), yang mengandungi parameter τ, bilangan lapisan ℓ dan pangkat yang dikurangkan ρ. Bersama-sama nilai ini menerangkan matriks yang akan digantikan dengan penghampiran peringkat rendah, dan tahap penghampiran. Penyelidik mengelaskan jenis matriks yang mereka akan campur tangan berdasarkan jenis parameter

Penyelidik menumpukan pada matriks dalam W = {W_q, W_k, W_v, W_o, U_in, U_out}, yang terdiri daripada matriks dalam MLP dan lapisan perhatian . Bilangan strata mewakili strata intervensi penyelidik (stratum pertama diindeks bermula dari 0). Sebagai contoh, Llama-2 mempunyai 32 lapisan, jadi ℓ ∈ {0, 1, 2,・・・31}.

Akhirnya, ρ ∈ [0, 1) menerangkan bahagian kedudukan maksimum yang harus dikekalkan apabila membuat anggaran peringkat rendah. Sebagai contoh, andaikan

, pangkat maksimum matriks ini ialah d. Para penyelidik menggantikannya dengan anggaran ⌊ρ・d⌋-. Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

Rajah 1 di bawah ialah contoh LASER Dalam rajah ini, τ = U_in dan ℓ = L mewakili pengemaskinian matriks berat lapisan pertama MLP dalam blok Transformer lapisan L^. Parameter lain mengawal k dalam anggaran pangkat-k.

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

LASER boleh menyekat aliran maklumat tertentu dalam rangkaian dan secara tidak dijangka menghasilkan faedah prestasi yang ketara. Intervensi ini juga boleh digabungkan dengan mudah, seperti menggunakan set intervensi dalam sebarang susunan Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu .

Kaedah LASER hanyalah carian mudah untuk campur tangan sedemikian, diubah suai untuk membawa manfaat maksimum. Walau bagaimanapun, terdapat banyak cara lain untuk menggabungkan campur tangan ini, yang merupakan hala tuju untuk kerja masa depan.

Untuk mengekalkan maksud asal tidak berubah, kandungan perlu ditulis semula ke dalam bahasa Cina. Tidak perlu muncul ayat asal

Di bahagian eksperimen, pengkaji menggunakan model GPT-J yang telah dilatih pada set data PILE Bilangan lapisan model ialah 27 dan parameternya ialah 6 bilion. Tingkah laku model kemudian dinilai pada set data CounterFact, yang mengandungi sampel tiga kali ganda (topik, hubungan dan jawapan), dengan tiga gesaan parafrasa disediakan untuk setiap soalan.

Yang pertama ialah analisis model GPT-J pada dataset CounterFact. Rajah 2 di bawah menunjukkan kesan ke atas kehilangan klasifikasi set data akibat penggunaan jumlah pengurangan pangkat yang berbeza pada setiap matriks dalam seni bina Transformer. Setiap lapisan Transformer terdiri daripada MLP kecil dua lapisan, dengan matriks input dan output ditunjukkan secara berasingan. Warna yang berbeza mewakili peratusan berbeza bagi komponen yang dialih keluar.

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

Berkenaan meningkatkan ketepatan dan keteguhan tafsiran, seperti yang ditunjukkan dalam Rajah 2 di atas dan Jadual 1 di bawah, penyelidik mendapati bahawa apabila melakukan pengurangan pangkat pada satu lapisan, hakikat bahawa model GPT-J berprestasi baik pada Dataset CounterFact Ketepatan meningkat daripada 13.1% kepada 24.0%. Adalah penting untuk ambil perhatian bahawa penambahbaikan ini hanya hasil daripada penurunan pangkat dan tidak melibatkan sebarang latihan lanjut atau penalaan halus model.

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

Fakta manakah yang akan dipulihkan dalam set data melalui pengurangan pangkat telah menjadi kebimbangan para penyelidik. Para penyelidik mendapati bahawa fakta pemulihan melalui pengurangan pangkat jarang muncul dalam data, seperti yang ditunjukkan dalam Rajah 3

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

Apakah yang disimpan oleh komponen peringkat tinggi? Penyelidik menggunakan komponen tertib tinggi untuk menganggarkan matriks berat akhir Tidak seperti LASER, mereka tidak menggunakan komponen tertib rendah untuk anggaran, seperti yang ditunjukkan dalam Rajah 5(a). Apabila menghampiri matriks menggunakan bilangan komponen tertib tinggi yang berbeza, mereka mengukur persamaan kosinus purata antara jawapan yang benar dan yang diramalkan, seperti yang ditunjukkan dalam Rajah 5(b)

Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu

Akhir sekali, penyelidik menilai penemuan mereka Kebolehgeneralisasian 3 berbeza. LLM pada tugas pemahaman berbilang bahasa. Untuk setiap tugasan, mereka menilai prestasi model dengan menjana tiga metrik: ketepatan, ketepatan klasifikasi dan kerugian. Seperti yang ditunjukkan dalam Jadual 1 di atas, walaupun pengurangan pangkat adalah besar, ia tidak akan menyebabkan ketepatan model berkurangan, tetapi ia boleh meningkatkan prestasi model.

Atas ialah kandungan terperinci Kurangkan pangkat Transformer untuk meningkatkan prestasi sambil mengekalkan LLM tanpa mengurangkan penyingkiran lebih daripada 90% komponen dalam lapisan tertentu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7448

Tutorial CakePHP

1374

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Jul 23, 2024 pm 02:05 PM

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/

See all articles