65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar-AI-php.cn

Jadual Kandungan

Rumah

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

王林

Jun 20, 2023 pm 03:57 PM

Model sains dan teknologi

Ke arah model besar, gergasi teknologi melatih model yang lebih besar, manakala ahli akademik memikirkan cara untuk mengoptimumkannya. Baru-baru ini, kaedah mengoptimumkan kuasa pengkomputeran telah meningkat ke tahap yang baru.

Model bahasa berskala besar (LLM) telah merevolusikan bidang pemprosesan bahasa semula jadi (NLP), menunjukkan keupayaan luar biasa seperti kemunculan dan epiphany. Walau bagaimanapun, jika anda ingin membina model dengan keupayaan umum tertentu, berbilion parameter diperlukan, yang sangat meningkatkan ambang untuk penyelidikan NLP. Proses penalaan model LLM biasanya memerlukan sumber GPU yang mahal, seperti peranti GPU 8×80GB, yang menyukarkan makmal dan syarikat kecil untuk mengambil bahagian dalam penyelidikan dalam bidang ini.

Baru-baru ini, orang ramai sedang mengkaji teknik penalaan halus parameter cekap (PEFT), seperti LoRA dan penalaan Awalan, yang menyediakan penyelesaian untuk penalaan LLM dengan sumber terhad. Walau bagaimanapun, kaedah ini tidak menyediakan penyelesaian praktikal untuk penalaan halus parameter penuh, yang telah diiktiraf sebagai kaedah yang lebih berkuasa daripada penalaan halus cekap parameter.

Dalam kertas kerja "Penalaan Halus Parameter Penuh untuk Model Bahasa Besar dengan Sumber Terhad" yang dikemukakan oleh pasukan Qiu Xipeng di Universiti Fudan minggu lepas, penyelidik mencadangkan pengoptimuman baharu Pengoptimuman Memori RENDAH ( LOMO).

Dengan menyepadukan LOMO dengan teknik penjimatan memori sedia ada, pendekatan baharu mengurangkan penggunaan memori kepada 10.8% berbanding pendekatan standard (Penyelesaian Kelajuan Dalam). Hasilnya, pendekatan baharu ini membolehkan penalaan halus parameter penuh model 65B pada mesin dengan 8×RTX 3090s, setiap satu dengan memori 24GB.

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Pautan kertas: https://arxiv.org/abs/2306.09782

Dalam karya ini, penulis menganalisis empat aspek penggunaan memori dalam LLM: pengaktifan, keadaan pengoptimum, tensor dan parameter kecerunan, dan mengoptimumkan proses latihan dalam tiga aspek:

Memikirkan semula fungsi pengoptimum dari perspektif algoritma dan mendapati bahawa SGD adalah alternatif yang baik dalam memperhalusi parameter lengkap LLM. Ini membolehkan pengarang memadamkan keseluruhan bahagian keadaan pengoptimum, kerana SGD tidak menyimpan sebarang keadaan perantaraan.
Lomo pengoptimum yang baru dicadangkan mengurangkan penggunaan memori tensor kecerunan kepada O(1), yang bersamaan dengan penggunaan memori tensor kecerunan terbesar.
Untuk menstabilkan latihan ketepatan campuran menggunakan LOMO, penulis menyepadukan penormalan kecerunan, penskalaan kerugian dan menukar pengiraan tertentu kepada ketepatan penuh semasa latihan.

Teknologi baharu menjadikan penggunaan memori sama dengan penggunaan parameter ditambah pengaktifan dan tensor kecerunan maksimum. Penggunaan memori penalaan halus parameter penuh ditolak ke tahap yang melampau, yang hanya bersamaan dengan penggunaan inferens. Ini kerana jejak ingatan proses ke hadapan+belakang seharusnya tidak kurang daripada proses ke hadapan sahaja. Perlu diingat bahawa apabila menggunakan LOMO untuk menyimpan memori, kaedah baharu memastikan proses penalaan halus tidak terjejas, kerana proses kemas kini parameter masih bersamaan dengan SGD.

Kajian ini menilai memori dan prestasi pemprosesan LOMO dan menunjukkan bahawa dengan LOMO, penyelidik boleh melatih model parameter 65B pada 8 RTX 3090 GPU. Selain itu, untuk mengesahkan prestasi LOMO pada tugas hiliran, mereka menggunakan LOMO untuk menala semua parameter LLM pada koleksi set data SuperGLUE. Hasilnya menunjukkan keberkesanan LOMO untuk mengoptimumkan LLM dengan berbilion parameter.

Pengenalan kaedah

Dalam bahagian kaedah, artikel ini memperkenalkan LOMO (OPTIMISASI INGATAN RENDAH) secara terperinci. Secara umumnya, tensor kecerunan mewakili kecerunan tensor parameter, dan saiznya adalah sama dengan parameter, yang menghasilkan overhed memori yang lebih besar. Rangka kerja pembelajaran mendalam sedia ada seperti tensor kecerunan kedai PyTorch untuk semua parameter. Pada masa ini, terdapat dua sebab untuk menyimpan tensor kecerunan: mengira keadaan pengoptimum dan menormalkan kecerunan.

Memandangkan kajian ini menggunakan SGD sebagai pengoptimum, tiada keadaan pengoptimuman yang bergantung kepada kecerunan, dan mereka mempunyai beberapa alternatif kepada penormalan kecerunan.

Mereka mencadangkan LOMO, seperti yang ditunjukkan dalam Algoritma 1, yang menggabungkan pengiraan kecerunan dan kemas kini parameter dalam satu langkah, dengan itu mengelakkan penyimpanan tensor kecerunan.

Rajah berikut menunjukkan perbandingan antara SGD dan LOMO dalam perambatan belakang dan peringkat kemas kini parameter. Pi ialah parameter model, dan Gi ialah kecerunan yang sepadan dengan Pi. LOMO menyepadukan pengiraan kecerunan dan kemas kini parameter ke dalam satu langkah untuk meminimumkan tensor kecerunan.

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

LOMO algoritma pseudokod sepadan:

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Secara khusus, kajian ini mewakili keturunan kecerunan vanila sebagai

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

, iaitu proses dua langkah, pertama ialah mengira kecerunan dan kemudian kemas kini parameter. Versi bersatu ialah

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Idea utama penyelidikan ini adalah untuk mengemas kini parameter serta-merta apabila mengira kecerunan, supaya tensor kecerunan adalah tidak disimpan dalam ingatan. Langkah ini boleh dicapai dengan menyuntik fungsi cangkuk ke dalam perambatan belakang. PyTorch menyediakan API berkaitan untuk menyuntik fungsi cangkuk, tetapi adalah mustahil untuk mencapai kemas kini segera yang tepat dengan API semasa. Sebaliknya, kajian ini menyimpan kecerunan paling banyak satu parameter dalam ingatan dan mengemas kini setiap parameter satu demi satu dengan perambatan belakang. Kaedah ini mengurangkan penggunaan memori kecerunan daripada menyimpan kecerunan semua parameter kepada kecerunan hanya satu parameter.

Kebanyakan penggunaan memori LOMO adalah konsisten dengan penggunaan memori kaedah penalaan halus yang cekap parameter, menunjukkan bahawa menggabungkan LOMO dengan kaedah ini hanya menghasilkan sedikit peningkatan dalam penggunaan memori kecerunan. Ini membolehkan lebih banyak parameter ditala untuk kaedah PEFT.

Hasil eksperimen

Dalam bahagian eksperimen, penyelidik menilai kaedah cadangan mereka dari tiga aspek iaitu penggunaan memori, daya pemprosesan dan prestasi hiliran. Tanpa penjelasan lanjut, semua eksperimen telah dilakukan menggunakan model LLaMA 7B hingga 65B.

Penggunaan memori

Para penyelidik mula-mula menganalisis status model dan penggunaan memori yang diaktifkan. Seperti yang ditunjukkan dalam Jadual 1, berbanding dengan pengoptimum AdamW, penggunaan pengoptimum LOMO menghasilkan pengurangan ketara dalam penggunaan memori, daripada 102.20GB kepada 14.58GB berbanding dengan SGD, apabila melatih model LLaMA-7B, penggunaan memori berkurangan daripada 51.99GB dikurangkan kepada 14.58GB. Pengurangan ketara dalam penggunaan memori adalah disebabkan terutamanya oleh pengurangan keperluan memori untuk keadaan kecerunan dan pengoptimum. Oleh itu, semasa proses latihan, memori kebanyakannya diduduki oleh parameter, yang bersamaan dengan penggunaan memori semasa inferens.

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Seperti yang ditunjukkan dalam Rajah 2, jika pengoptimum AdamW digunakan untuk latihan LLaMA-7B, sebahagian besar memori ( 73.7%) diberikan kepada keadaan pengoptimum. Menggantikan pengoptimum AdamW dengan pengoptimum SGD secara berkesan mengurangkan peratusan memori yang diduduki oleh keadaan pengoptimum, sekali gus mengurangkan penggunaan memori GPU (daripada 102.20GB kepada 51.99GB). Jika LOMO digunakan, kemas kini parameter dan ke belakang digabungkan menjadi satu langkah, seterusnya menghapuskan keperluan memori untuk keadaan pengoptimum.

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Throughput

Penyelidik membandingkan prestasi throughput LOMO, AdamW dan SGD. Eksperimen telah dijalankan pada pelayan yang dilengkapi dengan 8 RTX 3090 GPU.

Untuk model 7B, daya pengeluaran LOMO menunjukkan kelebihan yang ketara, melebihi AdamW dan SGD sebanyak kira-kira 11 kali. Peningkatan ketara ini boleh dikaitkan dengan keupayaan LOMO untuk melatih model 7B pada satu GPU, yang mengurangkan overhed komunikasi antara GPU. Daya pengeluaran SGD yang lebih tinggi sedikit berbanding dengan AdamW boleh dikaitkan dengan fakta bahawa SGD tidak termasuk pengiraan momentum dan varians.

Bagi model 13B, kerana had memori, ia tidak boleh dilatih dengan AdamW pada 8 RTX 3090 GPU sedia ada. Dalam kes ini, model selari diperlukan untuk LOMO, yang masih mengatasi prestasi SGD dari segi daya pemprosesan. Kelebihan ini dikaitkan dengan sifat LOMO yang cekap memori dan fakta bahawa hanya dua GPU diperlukan untuk melatih model dengan tetapan yang sama, sekali gus mengurangkan kos komunikasi dan meningkatkan daya pemprosesan. Selain itu, SGD menghadapi isu kehabisan memori (OOM) pada 8 RTX 3090 GPU semasa melatih model 30B, manakala LOMO berprestasi baik dengan hanya 4 GPU.

Akhirnya, penyelidik berjaya melatih model 65B menggunakan 8 RTX 3090 GPU, mencapai daya pemprosesan sebanyak 4.93 TGS. Dengan konfigurasi pelayan dan LOMO ini, proses latihan model pada 1000 sampel (setiap sampel mengandungi 512 token) mengambil masa lebih kurang 3.6 jam.

Prestasi Hilir

Untuk menilai keberkesanan LOMO dalam memperhalusi model bahasa besar, penyelidik menjalankan Satu siri eksperimen yang meluas. Mereka membandingkan LOMO dengan dua kaedah lain, satu ialah Zero-shot, yang tidak memerlukan penalaan halus, dan satu lagi ialah LoRA, teknik penalaan halus cekap parameter yang popular.

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Jadual 3 keputusan menunjukkan:

LOMO menunjukkan prestasi yang lebih baik daripada Zero-shot ;
Dalam kebanyakan eksperimen, LOMO secara umumnya mengatasi prestasi LoRA
LOMO boleh menskalakan secara berkesan kepada model 65 bilion parameter.

LOMO dan LoRA pada asasnya bebas antara satu sama lain. Untuk mengesahkan kenyataan ini, penyelidik menjalankan eksperimen pada set data BoolQ dan MultiRC menggunakan LLaMA-13B. Keputusan ditunjukkan dalam Rajah 3.

Mereka mendapati bahawa LOMO terus meningkatkan prestasi LoRA, tidak kira berapa tinggi keputusan yang dicapai LoRA. Ini menunjukkan bahawa kaedah penalaan halus berbeza yang digunakan oleh LOMO dan LoRA adalah saling melengkapi. Khususnya, LOMO memfokuskan pada memperhalusi berat model pra-latihan, manakala LoRA melaraskan modul lain. Oleh itu, LOMO tidak menjejaskan prestasi LoRA sebaliknya, ia memudahkan penalaan model yang lebih baik untuk tugas hiliran.

65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar

Lihat kertas asal untuk butiran lanjut.

Atas ialah kandungan terperinci 65 bilion parameter, 8 GPU boleh memperhalusi semua parameter: Pasukan Qiu Xipeng telah menurunkan ambang untuk model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7458

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 | Apr 29, 2024 pm 04:55 PM

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu

See all articles