


LLM pertama yang menyokong pengkuantitian titik terapung 4-bit ada di sini, menyelesaikan masalah penggunaan LLaMA, BERT, dsb.
Mampatan model bahasa besar (LLM) sentiasa menarik perhatian ramai, dan kuantisasi selepas latihan (Post-training Quantization) adalah salah satu algoritma yang biasa digunakan Walau bagaimanapun, kebanyakan kaedah PTQ sedia ada adalah kuantisasi integer, dan apabila nombornya daripada bit kurang daripada 8, ketepatan model akan jatuh banyak selepas pengkuantitian. Berbanding dengan kuantisasi Integer (INT), kuantisasi Titik Terapung (FP) boleh mewakili pengedaran ekor panjang dengan lebih baik, jadi semakin banyak platform perkakasan mula menyokong kuantisasi FP. Artikel ini memberikan penyelesaian kepada kuantifikasi FP model besar. Artikel diterbitkan di EMNLP 2023.
- Alamat kertas: https://arxiv.org/abs/2310.16836
- Alamat kod: https://nbashub https://github
Untuk memahami artikel ini, anda mesti mempunyai pengetahuan asas terlebih dahulu tentang Format Titik Terapung dan Kuantiti Titik Terapung Pertama, Nombor Titik Terapung boleh dinyatakan dengan formula berikut:
s mewakili bit tanda ), m mewakili bit mantissa, dan e mewakili bit eksponen. p ialah nilai antara 0 dan 2^e - 1, digunakan untuk menunjukkan selang eksponen mana nombor semasa harus dibahagikan, d mengambil nilai 0 atau 1, digunakan untuk menunjukkan bit mantissa ke-i. b ialah pincang, nilai integer yang digunakan untuk melaraskan selang eksponen.
Dalam bahagian seterusnya, kami akan menerangkan cara pengkuantitian titik terapung berfungsi. Pertama, nilai input mesti melalui langkah yang dipanggil "skala dan klip." Langkah ini mula-mula menjepit nilai input kepada julat maksimum yang boleh diwakili oleh nombor titik terapung (±Qmaks. Formula pengiraan khusus adalah seperti berikut:
Anda boleh melihatnya serupa dengan kuantisasi integer, FP). kuantisasi juga akan menambah -Faktor skala ketepatan penuh (faktor skala) untuk menskalakan input kepada selang yang sesuai. Apabila mengira pendaraban matriks, faktor penskalaan dikira secara berasingan daripada pendaraban matriks bit rendah, jadi ia tidak menyebabkan overhed yang besar. Selepas memasukkan faktor penskalaan ketepatan penuh ini, tensor terkuantisasi yang berbeza boleh dipotong kepada selang nilai maksimum dan minimum yang berbeza dengan sewajarnya. Dalam penggunaan sebenar, selang pengkuantitian yang diperlukan akan ditentukan berdasarkan julat nilai tensor input, dan kemudian bias yang sepadan akan diperoleh menggunakan formula (4). Ambil perhatian bahawa bias dalam persamaan (4) boleh digunakan sebagai faktor penskalaan untuk nilai sebenar, lihat persamaan (2)(3).
Langkah seterusnya dalam kuantifikasi titik terapung adalah untuk menetapkan nilai dalam selang kuantisasi yang ditentukan kepada selang kuantisasi yang sepadan Proses ini dipanggil perbandingan dan kuantisasi:
menggambarkan rajah di atas. secara intuitif Dalam proses pengkuantitian, nilai input semasa dikuantisasi ke dalam selang pengkuantitian yang berbeza selepas dibandingkan dengan Formula 5.
Selepas mendapat pengaktifan dan berat terkuantisasi, faktor penskalaan di sini dikira terlebih dahulu seperti yang dinyatakan di atas, dan pendaraban matriks cekap berikut dicapai untuk melengkapkan pecutan pendaraban matriks:
ini artikel menunjukkan Ketepatan pengkuantitian FP berkait rapat dengan penetapan bit eksponen dan selang pengkuantitian.
Dalam kertas sebelum ini, telah disahkan bahawa terdapat perbezaan besar dalam ralat pengkuantitian antara format FP yang berbeza (iaitu, tetapan bit eksponen/bit mantissa bagi nombor titik terapung). Hanya apabila format FP yang sesuai dipilih, kuantisasi FP boleh mewakili taburan long-tail lebih baik daripada kuantisasi INT
Artikel ini mencadangkan penyelesaian, iaitu menggunakan algoritma pengkuantitian titik terapung berasaskan carian untuk menentukan tetapan bit eksponen dan bit mantissa yang paling sesuai bagi nombor titik terapung dan selang pengkuantitian sepadan
dalam cara carian yang komprehensif. Di samping itu, dalam pelbagai jenis model Transformer (Bert, LLaMA, ViT), terdapat satu lagi fenomena yang memberi kesan serius kepada kesukaran kuantifikasi: iaitu, susunan perbezaan magnitud antara saluran yang berbeza dalam pengaktifan model adalah sangat besar, dan saluran yang sama Susunan magnitud adalah sangat konsisten. Kajian terdahulu LLM.int8 dan SmoothQuant juga menemui fenomena yang sama, tetapi artikel ini menunjukkan bahawa fenomena ini bukan sahaja wujud dalam LLM, tetapi juga menemui pengagihan pengaktifan yang serupa dalam model Transformer lain (ditunjukkan di bawah, LLaMA, BERT dan DeIT-S) Fenomena:
Seperti yang anda lihat dari gambar, saluran yang luar biasa besar itu jauh lebih besar daripada saluran yang selebihnya, jadi dalam proses pengiraan tensor pengaktifan, ketepatan pengkuantitian akan ditentukan sebahagian besarnya oleh outlier ini menekan selang pengkuantitian nilai saluran lain, akhirnya mengurangkan kesan keseluruhan ke atas ketepatan pengkuantitian. Ini akan menyebabkan keputusan akhir pengkuantitian runtuh, terutamanya apabila bilangan bit menurun ke tahap tertentu. Perlu diingat bahawa hanya pengkuantitian dari segi tensor dan dari segi token boleh mengekstrak faktor penskalaan semasa pendaraban matriks yang cekap, manakala pengkuantitian mengikut saluran tidak menyokong pendaraban matriks yang cekap, seperti yang ditunjukkan dalam rajah di bawah.
Untuk menyelesaikan masalah dan mengekalkan pendaraban matriks yang cekap pada masa yang sama, artikel ini menggunakan sejumlah kecil set data pembetulan untuk pra-pengiraan nilai maksimum setiap saluran yang diaktifkan dan mengira penskalaan faktor. Faktor penskalaan kemudiannya dibahagikan kepada nombor nyata untuk setiap tensor didarab dengan kuasa 2 untuk setiap saluran. Kuasa 2 ini boleh diwakili oleh sisihan eksponen dalam FP. Keseluruhan proses boleh dinyatakan dengan formula berikut:
Selanjutnya, selepas penentukuran selesai, bias eksponen setiap saluran tidak akan berubah lagi, jadi ia boleh dikira bersama dengan pengkuantitian berat. , integrasikan bias eksponen setiap saluran ini ke dalam pemberat terkuantasi untuk meningkatkan ketepatan pengkuantitian. Proses lengkapnya adalah seperti berikut:
Selepas pra-offset, dapat diperhatikan bahawa kedudukan offset ketepatan penuh setiap saluran dalam fungsi pengaktifan asal menjadi faktor penskalaan sebenar berasaskan tensor, Pada masa yang sama, pincang integer terurai dialihkan ke kedudukan pincang integer asal dalam pemberat Untuk butiran, lihat formula 4
Oleh itu, kaedah ini (pre-shifted exponent bias) boleh mencapai hasil yang lebih baik mengekalkan prinsip pendaraban matriks yang cekap. Untuk meningkatkan ketepatan pengkuantitian, paparan intuitif kaedah ditunjukkan dalam rajah di bawah:
Akhir sekali, artikel ini menunjukkan kaedah Kuantisasi Titik Terapung (FPQ) Pada LLaMA , model BERT dan ViTs, pengkuantitian 4-bit telah mencapai lebih banyak daripada hasil SOTA. Khususnya, artikel ini menunjukkan bahawa model LLaMA-13B terkuantisasi 4-bit mencapai skor purata 63.1 pada tugas inferens sampel sifar, iaitu hanya 5.8 mata lebih rendah daripada model ketepatan penuh dan mempunyai jumlah pelicinan yang lebih tinggi daripada sebelumnya. Kaedah SOTA 12.7, yang kini merupakan salah satu daripada beberapa skim pengkuantitian 4-bit yang boleh dilaksanakan.
Atas ialah kandungan terperinci LLM pertama yang menyokong pengkuantitian titik terapung 4-bit ada di sini, menyelesaikan masalah penggunaan LLaMA, BERT, dsb.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
