Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah 'menggunting alpaca'-AI-php.cn

Jadual Kandungan

akan terus dikemas kini, datang dan potong satu demi satu pengarang kertas adalah pelajar kedoktoran Princeton

Saya harus mengatakan bahawa model besar benar-benar terlalu kerinting sekarang.

Rumah

Peranti teknologi

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah 'menggunting alpaca'

王林

Oct 12, 2023 pm 02:29 PM

ai kereta api

Ia hanya menggunakan 3% daripada jumlah pengiraan dan 5% daripada kos untuk mendapatkan SOTA, mendominasi model besar sumber terbuka skala 1B-3B.

Hasil ini datang daripada pasukan Princeton Chen Danqi, dan dipanggil LLM-ShearingKaedah Pemangkasan Model Besar.

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Berdasarkan Alpaca LLaMA 2 7B, model 1.3B dan 3B yang dipangkas Sheared-LLama diperolehi melalui pemangkasan berstruktur arah.

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Untuk mengatasi model sebelumnya dengan skala yang sama dalam penilaian tugasan hiliran, ia perlu ditulis semula

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Xia Mengzhou, pengarang pertama, berkata, "Ia jauh lebih menjimatkan kos daripada pra-latihan dari awal."

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Kertas ini juga memberikan contoh keluaran Sheared-LLaMA yang dipangkas, menunjukkan bahawa walaupun saiznya hanya 1.3B dan 2.7B, ia sudah boleh menjana respons yang koheren dan kaya.

Untuk tugas yang sama "memainkan peranan sebagai penganalisis industri semikonduktor", struktur jawapan versi 2.7B adalah lebih jelas.

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Pasukan menyatakan bahawa walaupun pada masa ini hanya versi Llama 2 7B telah digunakan untuk eksperimen pemangkasan, kaedah boleh diperluaskan kepada seni bina model lain dan juga boleh dilanjutkan kepada sebarang skala .

Faedah tambahan selepas pemangkasan ialah anda boleh memilih set data berkualiti tinggi untuk pra-latihan berterusan

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Sesetengah pembangun mengatakan bahawa hanya 6 bulan yang lalu, hampir semua orang berpendapat bahawa model di bawah 65B tidak mempunyai Kegunaan Praktikal

Pada kadar ini, saya yakin model 1B-3B juga akan bernilai tinggi, jika bukan sekarang, maka tidak lama lagi. .
Kaedah pemangkasan sebelum ini boleh menyebabkan kemerosotan prestasi model kerana sesetengah struktur akan dipadamkan, menjejaskan keupayaan ekspresifnya

Dengan menganggap pemangkasan sebagai masalah pengoptimuman yang terhad, kami mencadangkan kaedah baharu. Kami mencari subrangkaian yang sepadan dengan struktur yang ditentukan dengan mempelajari matriks topeng pemangkasan, dan bertujuan untuk memaksimumkan prestasi Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Seterusnya, kami terus melatih model pangkas dan memulihkan pemangkasan ke tahap tertentu kehilangan prestasi yang disebabkan. Pada peringkat ini, pasukan mendapati model yang dipangkas dan model yang dilatih dari awal mempunyai kadar pengurangan kerugian yang berbeza untuk set data yang berbeza, mengakibatkan masalah kecekapan penggunaan data yang rendah. Untuk tujuan ini, pasukan mencadangkan

Pemuatan Kelompok Dinamik

(Pemuatan Kelompok Dinamik)

, yang melaraskan perkadaran data dalam setiap domain secara dinamik mengikut kadar pengurangan kehilangan model pada data domain yang berbeza, meningkatkan kecekapan penggunaan data.

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Kajian mendapati bahawa walaupun model pemangkasan mempunyai prestasi awal yang lemah berbanding model bersaiz setara yang dilatih dari awal, mereka boleh bertambah baik dengan cepat dengan pra-latihan berterusan dan akhirnya mengatasi

Ini menunjukkan bahawa pemangkasan daripada cabang model asas yang kukuh , yang boleh menyediakan keadaan permulaan yang lebih baik untuk meneruskan pra-latihan.

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

akan terus dikemas kini, datang dan potong satu demi satu pengarang kertas adalah pelajar kedoktoran Princeton

xia Mengzhou, gao tianyu, Tsinghua zhiyuan Zeng, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, Princeton, penolong profesor Chen Dan琦 . Xia Mengzhou lulus dari Universiti Fudan dengan ijazah sarjana muda dan CMU dengan ijazah sarjana.

Gao Tianyu ialah seorang sarjana yang lulus dari Universiti Tsinghua Dia memenangi Hadiah Khas Tsinghua pada tahun 2019

Kedua-duanya adalah pelajar Chen Danqi, dan Chen Danqi kini merupakan penolong profesor di Princeton University dan ahli Princeton Natural. Kumpulan Pemprosesan Bahasa Ketua bersama

Baru-baru ini, di halaman utama peribadinya, Chen Danqi mengemas kini hala tuju penyelidikannya.

"Tempoh ini tertumpu terutamanya pada membangunkan model berskala besar, dan topik penyelidikan termasuk: "

Bagaimana pengambilan semula boleh memainkan peranan penting dalam model generasi akan datang, meningkatkan realisme, kebolehsuaian, kebolehtafsiran dan kredibiliti.

Latihan kos rendah dan penggunaan model besar, kaedah latihan yang dipertingkatkan, pengurusan data, pemampatan model dan pengoptimuman penyesuaian tugas hiliran.
Juga berminat dengan kerja yang benar-benar meningkatkan pemahaman tentang keupayaan dan batasan model besar semasa, secara empirik dan teori.

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca Sheared-Llama sudah tersedia di Hugging Face

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca Pasukan berkata bahawa mereka akan terus mengemas kini perpustakaan sumber terbuka

Apabila lebih banyak model besar dikeluarkan, potong satu demi satu dan teruskan keluarkan model kecil berprestasi tinggi .

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca One More Thing

Saya harus mengatakan bahawa model besar benar-benar terlalu kerinting sekarang.

Mengzhou Xia baru sahaja mengeluarkan pembetulan, menyatakan bahawa teknologi SOTA digunakan semasa menulis kertas, tetapi selepas kertas itu siap, ia telah diatasi oleh teknologi Stable-LM-3B terkini

Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah menggunting alpaca

Alamat kertas: https: //arxiv.org/abs/2310.06694

Muka Berpeluk: https://huggingface.co/princeton-nlp

Pautan halaman utama projek: https://xiamengzhou.github.io/sheared-llama/

Atas ialah kandungan terperinci Kerja inovatif pasukan Chen Danqi: Dapatkan SOTA pada kos 5%, mencetuskan kegilaan untuk kaedah 'menggunting alpaca'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7507

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Apr 13, 2025 am 09:06 AM

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Cara Mengoptimumkan Prestasi Debian Readdir Apr 13, 2025 am 08:48 AM

Dalam sistem Debian, panggilan sistem Readdir digunakan untuk membaca kandungan direktori. Jika prestasinya tidak baik, cuba strategi pengoptimuman berikut: Memudahkan bilangan fail direktori: Split direktori besar ke dalam pelbagai direktori kecil sebanyak mungkin, mengurangkan bilangan item yang diproses setiap panggilan readdir. Dayakan Caching Kandungan Direktori: Bina mekanisme cache, kemas kini cache secara teratur atau apabila kandungan direktori berubah, dan mengurangkan panggilan kerap ke Readdir. Cafh memori (seperti memcached atau redis) atau cache tempatan (seperti fail atau pangkalan data) boleh dipertimbangkan. Mengamalkan struktur data yang cekap: Sekiranya anda melaksanakan traversal direktori sendiri, pilih struktur data yang lebih cekap (seperti jadual hash dan bukannya carian linear) untuk menyimpan dan mengakses maklumat direktori

Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Apr 13, 2025 am 09:42 AM

Fungsi Readdir dalam sistem Debian adalah panggilan sistem yang digunakan untuk membaca kandungan direktori dan sering digunakan dalam pengaturcaraan C. Artikel ini akan menerangkan cara mengintegrasikan Readdir dengan alat lain untuk meningkatkan fungsinya. Kaedah 1: Menggabungkan Program Bahasa C dan Pipeline Pertama, tulis program C untuk memanggil fungsi Readdir dan output hasilnya:#termasuk#termasuk#includeintMain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Petua Konfigurasi Firewall Pelayan Mel Debian Apr 13, 2025 am 11:42 AM

Mengkonfigurasi firewall pelayan Mail Debian adalah langkah penting dalam memastikan keselamatan pelayan. Berikut adalah beberapa kaedah konfigurasi firewall yang biasa digunakan, termasuk penggunaan iptables dan firewalld. Gunakan iptables untuk mengkonfigurasi firewall untuk memasang iptables (jika belum dipasang): sudoapt-getupdateudoapt-getinstalliplesview peraturan iptables semasa: konfigurasi sudoiptable-l

Cara Mengkonfigurasi Peraturan Firewall Untuk Debian Syslog Apr 13, 2025 am 06:51 AM

Artikel ini menerangkan cara mengkonfigurasi peraturan firewall menggunakan iptables atau UFW dalam sistem debian dan menggunakan syslog untuk merakam aktiviti firewall. Kaedah 1: Gunakan IPTableSiptable adalah alat firewall baris perintah yang kuat dalam sistem Debian. Lihat peraturan yang ada: Gunakan arahan berikut untuk melihat peraturan iptables semasa: sudoiptables-l-n-v membolehkan akses IP tertentu: sebagai contoh, membenarkan alamat IP 192.168.1.100 untuk mengakses port 80: sudoiptables-ainput-pTCP-Dport80-S192.16

Cara Menetapkan Tahap Log Debian Apache Apr 13, 2025 am 08:33 AM

Artikel ini menerangkan cara menyesuaikan tahap pembalakan pelayan Apacheweb dalam sistem Debian. Dengan mengubah suai fail konfigurasi, anda boleh mengawal tahap maklumat log yang direkodkan oleh Apache. Kaedah 1: Ubah suai fail konfigurasi utama untuk mencari fail konfigurasi: Fail konfigurasi apache2.x biasanya terletak di direktori/etc/apache2/direktori. Nama fail mungkin apache2.conf atau httpd.conf, bergantung pada kaedah pemasangan anda. Edit Fail Konfigurasi: Buka Fail Konfigurasi dengan Kebenaran Root Menggunakan Editor Teks (seperti Nano): Sudonano/ETC/APACHE2/APACHE2.CONF

Cara Belajar Debian Syslog Apr 13, 2025 am 11:51 AM

Panduan ini akan membimbing anda untuk belajar cara menggunakan syslog dalam sistem Debian. SYSLOG adalah perkhidmatan utama dalam sistem Linux untuk sistem pembalakan dan mesej log aplikasi. Ia membantu pentadbir memantau dan menganalisis aktiviti sistem untuk mengenal pasti dan menyelesaikan masalah dengan cepat. 1. Pengetahuan asas syslog Fungsi teras syslog termasuk: mengumpul dan menguruskan mesej log secara terpusat; menyokong pelbagai format output log dan lokasi sasaran (seperti fail atau rangkaian); Menyediakan fungsi tontonan log dan penapisan masa nyata. 2. Pasang dan konfigurasikan syslog (menggunakan rsyslog) Sistem Debian menggunakan rsyslog secara lalai. Anda boleh memasangnya dengan arahan berikut: sudoaptupdatesud

Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Apr 13, 2025 am 10:30 AM

Dalam sistem Debian, OpenSSL adalah perpustakaan penting untuk pengurusan penyulitan, penyahsulitan dan sijil. Untuk mengelakkan serangan lelaki-dalam-pertengahan (MITM), langkah-langkah berikut boleh diambil: Gunakan HTTPS: Pastikan semua permintaan rangkaian menggunakan protokol HTTPS dan bukannya HTTP. HTTPS menggunakan TLS (Protokol Keselamatan Lapisan Pengangkutan) untuk menyulitkan data komunikasi untuk memastikan data tidak dicuri atau diganggu semasa penghantaran. Sahkan Sijil Pelayan: Sahkan secara manual Sijil Pelayan pada klien untuk memastikan ia boleh dipercayai. Pelayan boleh disahkan secara manual melalui kaedah perwakilan urlSession

See all articles