Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap-AI-php.cn

Jadual Kandungan

Data-centric

Framework-centric

Ringkasan

Rumah

Peranti teknologi

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

PHPz

Jan 14, 2024 pm 07:48 PM

ai Penyelidikan penyiasatan

Model bahasa berskala besar (LLM) telah menunjukkan keupayaan yang menarik dalam banyak tugas penting, termasuk pemahaman bahasa semula jadi, penjanaan bahasa dan penaakulan yang kompleks, dan telah memberi kesan yang mendalam kepada masyarakat. Walau bagaimanapun, keupayaan cemerlang ini memerlukan sumber latihan yang ketara (ditunjukkan dalam imej kiri) dan masa inferens yang panjang (ditunjukkan dalam imej kanan). Oleh itu, penyelidik perlu membangunkan cara teknikal yang berkesan untuk menyelesaikan masalah kecekapan mereka.

Selain itu, seperti yang dapat dilihat dari sebelah kanan rajah, beberapa LLM (Model Bahasa) yang cekap seperti Mistral-7B telah berjaya digunakan dalam reka bentuk dan penggunaan LLM. LLM yang cekap ini boleh mengurangkan penggunaan memori inferens dan mengurangkan kependaman inferens sambil mengekalkan ketepatan yang serupa dengan LLaMA1-33B. Ini menunjukkan bahawa sudah ada beberapa kaedah yang boleh dilaksanakan dan cekap yang telah berjaya digunakan untuk reka bentuk dan penggunaan LLM.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

Dalam ulasan ini, penyelidik dari Ohio State University, Imperial College, Michigan State University, University of Michigan, Amazon, Google, Boson AI dan Microsoft Asia Research memberikan cerapan tentang penyelidikan tentang LLM yang cekap tinjauan sistem. Mereka membahagikan teknologi sedia ada untuk mengoptimumkan kecekapan LLM kepada tiga kategori, termasuk model-centric, data-centric dan framework-centric, dan meringkaskan serta membincangkan teknologi berkaitan yang paling canggih.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

Kertas: https://arxiv.org/abs/2312.03863

Untuk memudahkan menyusun kertas yang terlibat dalam semakan dan memastikannya dikemas kini, penyelidik mencipta repositori GitHub dan menyelenggaranya secara aktif. Mereka berharap repositori ini akan membantu penyelidik dan pengamal memahami secara sistematik penyelidikan dan pembangunan LLM yang cekap dan memberi inspirasi kepada mereka untuk menyumbang kepada bidang yang penting dan menarik ini.

URL gudang ialah https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey. Dalam repositori ini anda boleh menemui kandungan yang berkaitan dengan tinjauan sistem pembelajaran mesin yang cekap dan berkuasa rendah. Repositori ini menyediakan kertas penyelidikan, kod dan dokumentasi untuk membantu orang ramai memahami dan meneroka sistem pembelajaran mesin yang cekap dan berkuasa rendah. Jika anda berminat dengan kawasan ini, anda boleh mendapatkan maklumat lanjut dengan melawati repositori ini.

Model-centricPendekatan model-centric memfokuskan pada teknik yang cekap pada tahap algoritma dan tahap sistem, di mana model itu sendiri adalah tumpuan. Memandangkan LLM mempunyai berbilion malah bertrilion parameter dan mempunyai ciri unik seperti kemunculan berbanding model berskala lebih kecil, teknik baharu perlu dibangunkan untuk mengoptimumkan kecekapan LLM. Artikel ini membincangkan lima kategori kaedah tertumpu model secara terperinci, termasuk

mampatan model, pra-latihan yang cekap, penalaan halus yang cekap, inferens yang cekap dan reka bentuk seni bina model yang cekap

1 Dalam bidang pembelajaran mesin, saiz model sering menjadi pertimbangan penting. Model yang lebih besar selalunya memerlukan lebih banyak ruang storan dan sumber pengkomputeran, dan mungkin menghadapi pengehadan apabila dijalankan pada peranti mudah alih. Oleh itu, memampatkan model ialah teknik yang biasa digunakan untuk mengurangkan saiz model Teknik pemampatan model terutamanya dibahagikan kepada empat kategori: kuantisasi, pemangkasan parameter, anggaran peringkat rendah dan penyulingan pengetahuan (lihat rajah di bawah), antaranya Kuantisasi. akan memampatkan pemberat atau nilai pengaktifan model daripada ketepatan tinggi kepada ketepatan rendah Pemangkasan parameter akan mencari dan memadam bahagian yang lebih berlebihan dari berat model akan menukar matriks berat model kepada beberapa rendah. peringkat matriks kecil. Penyulingan produk dan pengetahuan secara langsung menggunakan model besar untuk melatih model kecil, supaya model kecil mempunyai keupayaan untuk menggantikan model besar apabila melakukan tugas-tugas tertentu.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

2. Pra-latihan yang cekap

Kos pra-latihan LLM sangat mahal. Pra-latihan yang cekap bertujuan untuk meningkatkan kecekapan dan mengurangkan kos proses pra-latihan LLM. Pra-latihan yang cekap boleh dibahagikan kepada pecutan ketepatan campuran, penskalaan model, teknologi permulaan, strategi pengoptimuman dan pecutan peringkat sistem.

Pecutan ketepatan campuran meningkatkan kecekapan pra-latihan dengan mengira kecerunan, pemberat dan pengaktifan menggunakan pemberat ketepatan rendah, kemudian menukarnya kembali kepada ketepatan tinggi dan menggunakannya untuk mengemas kini pemberat asal. Penskalaan model mempercepatkan penumpuan pra-latihan dan mengurangkan kos latihan dengan menggunakan parameter model kecil untuk menskalakan kepada model besar. Teknologi permulaan mempercepatkan penumpuan model dengan mereka bentuk nilai permulaan model. Strategi pengoptimuman menumpukan pada mereka bentuk pengoptimum ringan untuk mengurangkan penggunaan memori semasa latihan model Pecutan peringkat sistem menggunakan teknologi teragih dan lain untuk mempercepatkan pra-latihan model dari peringkat sistem.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

3. Penalaan halus yang cekap

Penalaan halus yang cekap direka untuk meningkatkan kecekapan proses penalaan halus LLM. Teknologi penalaan halus cekap biasa terbahagi kepada dua kategori, satu penalaan halus cekap berasaskan parameter, dan satu lagi penalaan halus cekap memori.

Penalaan Halus Cekap Parameter (PEFT) bertujuan untuk menyesuaikan LLM kepada tugas hiliran dengan membekukan keseluruhan tulang belakang LLM dan mengemas kini hanya set kecil parameter tambahan. Dalam makalah itu, kami membahagikan lagi PEFT kepada penalaan halus berasaskan penyesuai, penyesuaian peringkat rendah, penalaan halus awalan dan penalaan halus perkataan segera.

Penalaan halus berasaskan memori yang cekap memfokuskan pada mengurangkan penggunaan memori semasa keseluruhan proses penalaan halus LLM, seperti mengurangkan memori yang digunakan oleh status pengoptimum dan nilai pengaktifan.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

4. Penaakulan Cekap

Penaakulan yang cekap bertujuan untuk meningkatkan kecekapan proses inferens LLM. Penyelidik membahagikan teknologi penaakulan kecekapan tinggi biasa kepada dua kategori utama, satu ialah pecutan penaakulan peringkat algoritma, dan satu lagi ialah pecutan penaakulan peringkat sistem.

Pecutan inferens pada peringkat algoritma boleh dibahagikan kepada dua kategori: penyahkodan spekulatif dan KV - pengoptimuman cache. Penyahkodan spekulatif mempercepatkan proses pensampelan dengan mengira token secara selari menggunakan model draf yang lebih kecil untuk mencipta awalan spekulatif untuk model sasaran yang lebih besar. KV - Pengoptimuman cache merujuk kepada pengoptimuman pengiraan berulang pasangan Nilai-Kekunci (KV) semasa proses inferens LLM.

Pecutan inferens peringkat sistem adalah untuk mengoptimumkan bilangan capaian memori pada perkakasan tertentu, meningkatkan jumlah selari algoritma, dsb. untuk mempercepatkan inferens LLM.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

5. Reka bentuk seni bina model yang cekap

Reka bentuk seni bina yang cekap untuk LLM merujuk kepada mengoptimumkan struktur model dan proses pengiraan secara strategik sambil meminimumkan prestasi dan proses pengiraan Kami membahagikan reka bentuk seni bina model yang cekap kepada empat kategori utama berdasarkan jenis model: modul perhatian yang cekap, model pakar hibrid, model besar teks panjang dan seni bina yang boleh menggantikan pengubah.

Modul perhatian yang cekap bertujuan untuk mengoptimumkan pengiraan kompleks dan penggunaan memori dalam modul perhatian Model pakar hibrid (MoE) menggantikan keputusan penaakulan beberapa modul LLM dengan berbilang model pakar kecil model besar teks ialah LLM yang direka khas untuk memproses teks ultra-panjang dengan cekap Seni bina yang boleh menggantikan pengubah mengurangkan kerumitan model dan mencapai keupayaan penaakulan yang setanding dengan seni bina pasca pengubah dengan mereka bentuk semula seni bina model.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

Data-centric

Pendekatan data-centric memfokuskan pada peranan kualiti dan struktur data dalam meningkatkan kecekapan LLM. Dalam artikel ini, penyelidik membincangkan dua jenis kaedah berpusatkan data secara terperinci, termasuk pemilihan data dan kejuruteraan perkataan kiu.

1. Pemilihan data

Pemilihan data LLM bertujuan untuk membersihkan dan memilih data pra-latihan/penalaan halus, seperti mengalih keluar data yang berlebihan dan tidak sah, untuk mempercepatkan proses latihan.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

2. Kejuruteraan perkataan segera

Kejuruteraan kata cepat membimbing LLM untuk menjana output yang diingini dengan mereka bentuk input yang berkesan (kata-kata gesaan terletak pada kecekapannya dan Selepas penalaan model yang membosankan). . Penyelidik membahagikan teknologi kejuruteraan kata gesaan biasa kepada tiga kategori utama: kejuruteraan kata gesaan beberapa sampel, pemampatan kata gesaan dan penjanaan kata gesaan.

Beberapa contoh kejuruteraan kata cepat menyediakan LLM set contoh terhad untuk membimbing pemahamannya tentang tugas yang perlu dilaksanakan. Pemampatan perkataan pantas mempercepatkan pemprosesan input LLM dengan memampatkan input atau pembelajaran segera yang panjang dan menggunakan perwakilan segera. Penjanaan perkataan pantas bertujuan untuk mencipta gesaan berkesan secara automatik yang membimbing model untuk menjana respons khusus dan berkaitan, dan bukannya menggunakan data beranotasi secara manual.

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

Framework-centric

Para penyelidik menyiasat rangka kerja LLM cekap yang popular baru-baru ini dan menyenaraikan tugas cekap yang boleh mereka ikuti dan optimumkan, termasuk pra-latihan halus ditunjukkan dalam rajah).

Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap

Ringkasan

Dalam tinjauan ini, penyelidik memberikan anda semakan sistematik tentang LLM yang cekap, yang merupakan bidang penyelidikan penting yang didedikasikan untuk menjadikan LLM lebih demokratis. Mereka bermula dengan menerangkan mengapa LLM yang cekap diperlukan. Di bawah rangka kerja yang teratur, kertas kerja ini menyiasat teknologi yang cekap pada tahap algoritma dan tahap sistem LLM daripada perspektif berpusat model, berpusat data, dan berpusat rangka kerja.

Penyelidik percaya bahawa kecekapan akan memainkan peranan yang semakin penting dalam sistem berorientasikan LLM dan LLM. Mereka berharap tinjauan ini akan membantu penyelidik dan pengamal dengan cepat memasuki bidang ini dan berfungsi sebagai pemangkin untuk merangsang penyelidikan baharu tentang LLM yang cekap.

Atas ialah kandungan terperinci Menyelam mendalam ke dalam model, data dan rangka kerja: tinjauan menyeluruh 54 halaman model bahasa besar yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7416

Tutorial CakePHP

1359

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Tunjukkan Lagi

Related knowledge

Bagaimana cara memaparkan 'badan bulat jingnan mai' yang dipasang dengan betul di laman web? Apr 05, 2025 pm 10:33 PM

Menggunakan fail font yang dipasang di laman web baru -baru ini, saya memuat turun fon percuma dari internet dan berjaya memasangnya ke dalam sistem saya. Sekarang ...

Di mana untuk mendapatkan bahan untuk pengeluaran halaman H5 Apr 05, 2025 pm 11:33 PM

Sumber utama bahan halaman H5 adalah: 1. Laman web bahan profesional (berbayar, berkualiti tinggi, hak cipta yang jelas); 2. Bahan buatan sendiri (keunikan yang tinggi, tetapi memakan masa); 3. Perpustakaan Bahan Sumber Terbuka (percuma, perlu ditapis dengan teliti); 4. Laman web gambar/video (disahkan hak cipta diperlukan). Di samping itu, gaya bahan bersatu, penyesuaian saiz, pemprosesan mampatan, dan perlindungan hak cipta adalah perkara utama yang perlu diberi perhatian.

Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Apr 05, 2025 pm 11:27 PM

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

Bagaimana untuk memilih elemen kanak -kanak dengan item nama kelas pertama melalui CSS? Apr 05, 2025 pm 11:24 PM

Apabila bilangan elemen tidak ditetapkan, bagaimana untuk memilih elemen anak pertama nama kelas yang ditentukan melalui CSS. Semasa memproses struktur HTML, anda sering menghadapi unsur yang berbeza ...

Mengapa margin negatif tidak berkuatkuasa dalam beberapa kes? Bagaimana menyelesaikan masalah ini? Apr 05, 2025 pm 10:18 PM

Mengapa margin negatif tidak berkuatkuasa dalam beberapa kes? Semasa pengaturcaraan, margin negatif dalam CSS (negatif ...

Senario aplikasi apa yang sesuai untuk pengeluaran halaman H5 Apr 05, 2025 pm 11:36 PM

H5 (HTML5) sesuai untuk aplikasi ringan, seperti halaman kempen pemasaran, halaman paparan produk dan promosi korporat mikro. Kelebihannya terletak pada platformiti silang dan interaktiviti yang kaya, tetapi batasannya terletak pada interaksi dan animasi yang kompleks, akses sumber tempatan dan keupayaan luar talian.

Bagaimana cara menggunakan atribut CSS outside untuk mencapai kesan paparan teks secara beransur-ansur? Apr 05, 2025 pm 10:54 PM

Melaksanakan kesan paparan secara beransur -ansur memendekkan teks dalam reka bentuk web, bagaimana untuk mencapai kesan paparan teks khas untuk menjadikan panjang teks secara beransur -ansur memendekkan? Kesan ini ...

Apakah sebab mengapa PS terus menunjukkan pemuatan? Apr 06, 2025 pm 06:39 PM

PS "Memuatkan" Masalah disebabkan oleh akses sumber atau masalah pemprosesan: Kelajuan bacaan cakera keras adalah perlahan atau buruk: Gunakan CrystaldiskInfo untuk memeriksa kesihatan cakera keras dan menggantikan cakera keras yang bermasalah. Memori yang tidak mencukupi: Meningkatkan memori untuk memenuhi keperluan PS untuk imej resolusi tinggi dan pemprosesan lapisan kompleks. Pemandu kad grafik sudah lapuk atau rosak: Kemas kini pemandu untuk mengoptimumkan komunikasi antara PS dan kad grafik. Laluan fail terlalu panjang atau nama fail mempunyai aksara khas: Gunakan laluan pendek dan elakkan aksara khas. Masalah PS sendiri: Pasang semula atau membaiki pemasang PS.

See all articles