Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang kertas ini semuanya dari Huawei Noah Laboratory. Pengarang pertama ialah Li Wenshuo dan pengarang yang sepadan ialah Wang Yunhe Xinghao. Dalam tahun-tahun kebelakangan ini, pasukan yang berkaitan telah menerbitkan beberapa karya perwakilan di persidangan teratas seperti ICML, CVPR, NeurIPS, ICCV dan ECCV Mereka telah menghasilkan hasil yang kaya dalam bidang seperti model bahasa besar yang cekap dan model visual, dan telah bekerjasama dengannya universiti terkenal dan institusi penyelidikan saintifik kerjasama institusi adalah meluas. Sebagai "raja trafik" yang layak dalam industri dan akademik AI semasa, model besar telah menarik sejumlah besar sarjana dan syarikat untuk melabur sumber dalam penyelidikan dan latihan. Apabila skala semakin berkembang, isu sistem dan kejuruteraan telah menjadi masalah yang tidak dapat dielakkan dalam latihan model besar. Sebagai contoh, semasa latihan 54 hari Llama3.1, sistem mengalami ranap 466 kali, secara purata sekali setiap 2.78 jam!
Kemudian, pusat pemeriksaan penyimpanan yang kerap sangat diperlukan. Tetapi menyimpan pusat pemeriksaan juga merupakan projek besar itu sendiri.
Meta telah melakukan banyak usaha untuk mempercepatkan masa pemeriksaan storan dan meningkatkan kekerapan storan untuk memerangi kegagalan sistem yang kerap. Tetapi penyimpanan yang kerap juga bermakna banyak overhed sumber storan Kluster latihannya dilengkapi dengan 240PB SSD untuk menghadapi cabaran ini Kos penyimpanan sahaja ialah 100 juta yuan! Kaedah ExCP Huawei Noah wujud Untuk menangani overhed besar yang disebabkan oleh storan, mereka mencadangkan teknologi pusat pemeriksaan mampatan yang melampau, yang boleh memampatkan model 70 kali dengan ketara, mengurangkan overhed storan semasa latihan.
Kod pada masa ini adalah sumber terbuka dan dikeluarkan di bawah rangka kerja Apache 2.0 Beberapa rakan kongsi dalam isu ini telah berjaya menghasilkan semula hasilnya.
- Alamat artikel: https://arxiv.org/abs/2406.11257
- Alamat gudang: https://github.com/Gaffey/ExCP
Inovasi yang sangat baik, artikel itu menyebut dua konsep penting Satu ialah menggunakan maklumat sisa pusat pemeriksaan dalam latihan untuk mencapai nisbah pemangkasan yang lebih tinggi melalui keterbatasan maklumat pada siri masa yang lain adalah untuk menggabungkan pengoptimum dan pemberat untuk pemampatan untuk mencapai kadar mampatan tinggi keseluruhan. Kaedah khusus mata ditambah berturut-turut The jumlah kemas kini kecerunan semasa lelaran agak jarang dan mengandungi kurang maklumat Oleh itu, memampatkan baki ini boleh mencapai nisbah mampatan yang lebih baik. Sebaliknya, momentum yang disimpan dalam pengoptimum ialah purata gelongsor momen pertama dan kedua kecerunan Untuk saat pertama, parameter lalai purata gelongsor ialah 0.9, yang berjulat dari ratusan hingga ribuan. tidak terdapat banyak korelasi dengan kandungan yang disimpan di pusat pemeriksaan terakhir, jadi pengoptimum secara langsung memampatkan nilainya sendiri dan bukannya baki. Pusat pemeriksaan terakhir yang akan dimampatkan dinyatakan sebagai 2. Mampatan sendi momentum pengoptimum beratKerja sedia ada yang berkaitan dengan pemampatan model secara amnya hanya menumpukan pada prestasi inferens model, atau saiz pusat pemeriksaan storan akhir model, tetapi tidak membayar perhatian kepada model Ruang penyimpanan overhed semasa keseluruhan proses latihan. Oleh itu, kerja sedia ada hanya memampatkan pemberat, mengabaikan bahawa pengoptimum biasa seperti Adam sebenarnya menyimpan momentum yang dua kali ganda bilangan pemberat. Di satu pihak, kerja ini memampatkan kedua-duanya bersama-sama, meningkatkan nisbah mampatan keseluruhan dengan ketara, sebaliknya, ia juga menggunakan korelasi antara pemberat dan momentum pengoptimum untuk meningkatkan lagi nisbah mampatan antara satu sama lain. Pemangkasan berat: Oleh kerana berat pemangkasan ialah nilai baki, momen kedua momentum pengoptimum secara kasar boleh mewakili amplitud perubahan nilai baki berat dalam tempoh masa lalu, jadi momen kedua pengoptimum Momentum boleh digunakan. Momen tertib digunakan sebagai penunjuk untuk menentukan nisbah pemangkasan lapisan yang berbeza. Strategi pemangkasan ditunjukkan dalam formula berikut di mana, W dan masing-masing mewakili berat dan momen tertib kedua.
Pemangkasan momentum pengoptimum: Untuk pemangkasan momentum, anda boleh menggunakan momen tertib pertama sebagai penunjuk untuk melakukan pemangkasan Terdapat bukti penumpuan ringkas dalam kertas. Pada masa yang sama, jika berat kedudukan telah dipangkas, momentum pengoptimum kedudukan yang sepadan juga harus diproses secara serentak, jadi strategi pemangkasan adalah seperti yang ditunjukkan dalam formula berikut
di mana mewakili yang pertama- pesanan seketika. 3. Keseluruhan proses pemampatanProses pemampatan keseluruhan adalah seperti yang ditunjukkan dalam Algoritma 1, dan langkah-langkah pengiraan pemampatan seragam/penyesihan secara seragam dilakukan untuk mendapatkan hasil Compress akhir.
Proses memulihkan fail pusat pemeriksaan yang lengkap adalah seperti yang ditunjukkan dalam Algoritma 2. Selepas penyahmampatan, hasil titik terapung pertama kali dipulihkan daripada buku kod dan subskrip yang disimpan selepas kuantisasi tidak seragam, dan kemudian dibandingkan dengan penanda aras Berat (berat asal pusat pemeriksaan sebelumnya atau berat semula dibina semula) ditambah untuk mendapatkan fail lengkap pusat pemeriksaan. Proses memulihkan fail pusat pemeriksaan dalam keseluruhan proses latihan adalah seperti yang ditunjukkan dalam Algoritma 3. Selepas melengkapkan latihan, hanya benih rawak pemberat permulaan dan keputusan mampatan yang disimpan di setiap pusat pemeriksaan disimpan, dan kemudian pusat pemeriksaan dipulihkan dalam urutan untuk mendapatkan urutan pemeriksaan yang lengkap dari mana satu atau lebih pusat pemeriksaan boleh dipilih untuk menyambung latihan/ujian, dsb. Artikel itu bukan sahaja menilai model bahasa yang besar, kaedah ini juga boleh mencapai hasil yang baik pada model visual yang lebih besar seperti ViT-L32.
Ia juga dapat dilihat daripada eksperimen ablasi bahawa penggunaan pemangkasan sisa sangat mengurangkan kerugian yang disebabkan oleh pemangkasan.
Artikel ini juga menyediakan contoh soal jawab untuk model bahasa besar sebelum dan selepas pemampatan Ia dapat dilihat bahawa pemampatan itu sendiri tidak menyebabkan kerosakan kepada keupayaan soal jawab model. Atas ialah kandungan terperinci 70 kali mampatan muktamad! Tidak kira berapa banyak pusat pemeriksaan yang anda ada pada model besar, anda tidak akan takut.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!