Jadual Kandungan
Kaedah percanggahan
Soalan Lazim
Rumah Peranti teknologi AI Parameter model ChatGPT ≠ 175 bilion, seseorang membuktikannya menggunakan bukti dengan percanggahan

Parameter model ChatGPT ≠ 175 bilion, seseorang membuktikannya menggunakan bukti dengan percanggahan

Apr 08, 2023 am 11:51 AM
ai chatgpt

Kepopularan ChatGPT berterusan sehingga hari ini, dengan berita tergempar dan tafsiran teknikal yang mengelilinginya sentiasa muncul. Mengenai nombor parameternya, terdapat andaian biasa bahawa ChatGPT mempunyai bilangan parameter yang sama seperti model parameter 175 bilion yang diperkenalkan dalam kertas GPT-3. Walau bagaimanapun, orang yang bekerja secara mendalam dalam bidang model bahasa besar tahu bahawa ini tidak benar. Dengan menganalisis lebar jalur memori GPU A100, kami mendapati bahawa kelajuan inferens sebenar API ChatGPT jauh lebih pantas daripada kelajuan inferens teori maksimum bagi model bersamaan Padat 175 bilion.

Artikel ini akan menggunakan bukti dengan percanggahan untuk membuktikan dan menyokong hujah di atas, hanya menggunakan beberapa pengetahuan teori yang dipelajari di kolej. Juga ambil perhatian bahawa terdapat juga masalah yang bertentangan, iaitu sesetengah orang mendakwa bahawa ChatGPT hanya mempunyai parameter X bilion (X jauh lebih rendah daripada 1750). Walau bagaimanapun, dakwaan ini tidak dapat disahkan kerana orang yang membuatnya biasanya bercakap daripada khabar angin.

Berikut ialah proses penghujahan terperinci.

Kaedah percanggahan

Mula-mula andaikan bahawa model ChatGPT mempunyai 175 bilion parameter, dan format INT8 biasanya digunakan untuk menyimpan pemberat LLM untuk inferens kependaman yang lebih rendah dan saiz pemprosesan yang lebih tinggi dan keperluan memori yang lebih rendah (dua kali kurang memori daripada menyimpan dalam format float16). Setiap parameter INT8 memerlukan 1 bait untuk penyimpanan. Pengiraan mudah menunjukkan bahawa model memerlukan 175GB ruang storan.

Parameter model ChatGPT ≠ 175 bilion, seseorang membuktikannya menggunakan bukti dengan percanggahan

Gambar daripada kertas INT8 SmoothQuant, alamat: https://arxiv.org/abs/2211.10438

Dari segi inferens, model bahasa gaya GPT adalah "autoregresif" pada setiap hantaran hadapan, meramalkan token kemungkinan besar seterusnya (untuk sesuatu seperti model RLHF ChatGPT, yang meramalkan token seterusnya yang diutamakan oleh anotasi manusianya). Ini bermakna 200 token dijana, jadi 200 hantaran hadapan perlu dilakukan. Untuk setiap hantaran ke hadapan, kita perlu memuatkan semua berat model daripada memori lebar jalur tinggi (HBM) ke dalam unit pengkomputeran matriks (teras pengkomputeran tensor GPU), yang bermaksud bahawa kita perlu memuatkan 175GB berat untuk setiap hantaran ke hadapan.

Pada platform Microsoft Azure, bilangan maksimum A100 yang boleh diperuntukkan pada nod ialah 8. Ini bermakna selari tensor maksimum bagi setiap contoh model ialah 8. Jadi daripada memuatkan 175GB pemberat setiap pas ke hadapan, anda hanya perlu memuatkan 21.87GB setiap GPU setiap pas ke hadapan kerana keselarian tensor boleh menyelaraskan pemberat dan pengiraan pada semua GPU.

Parameter model ChatGPT ≠ 175 bilion, seseorang membuktikannya menggunakan bukti dengan percanggahan

Gambar adalah daripada kertas Megatron-LM, alamat: https://arxiv.org/ abs/1909.08053

Pada versi A100 80GB SXM, lebar jalur memori maksimum ialah 2TB/s. Ini bermakna dengan saiz batch=1 (terhad oleh lebar jalur memori), kelajuan hantaran hadapan teori maksimum ialah 91 kali/saat. Selain itu, kebanyakan masa dihabiskan untuk memuatkan pemberat dan bukannya mengira pendaraban matriks.

Parameter model ChatGPT ≠ 175 bilion, seseorang membuktikannya menggunakan bukti dengan percanggahan

NOTA: Untuk fp16/bfloat16, hantaran hadapan teori maksimum apabila dihadkan oleh jalur lebar memori Kelajuan mencapai 45.5 kali/saat.

Apakah kependaman sebenar ChatGPT?

Jalankan skrip yang ditulis dalam Python pada waktu malam (overhead larian pada waktu malam adalah lebih rendah) untuk menguji kependaman penggunaan ChatGPT melalui OpenAI API Kelajuan empirikal maksimum yang dicapai oleh hadapan lulus ialah 101 kali / Saat. Kertas kerja ini menggunakan keputusan empirikal maksimum bagi eksperimen kerana keperluan untuk mendapatkan overhed terendah daripada bahagian belakang OpenAI dan sistem pemprosesan kelompok dinamik.

Kesimpulan

Menurut andaian dan hujah sebelum ini, kita dapati terdapat percanggahan, kerana hasilnya adalah berdasarkan bukti empirikal Jauh lebih cepat daripada hasil teori maksimum berdasarkan lebar jalur memori platform A100. Oleh itu boleh disimpulkan bahawa model ChatGPT yang digunakan oleh OpenAI untuk inferens pastinya tidak bersamaan dengan model padat 175 bilion parameter.

Soalan Lazim

1 Mengapa meramalkan bilangan parameter model inferens ChatGPT dan bukannya bilangan parameter model latihan?

Menggunakan kaedah lebar jalur memori untuk menganggar bilangan parameter model, yang hanya digunakan pada model inferens. Kami tidak tahu pasti sama ada OpenAI menggunakan teknik seperti penyulingan untuk menjadikan model inferensnya lebih kecil daripada model latihannya.

Banyak serangga mempunyai bentuk larva yang dioptimumkan untuk mengekstrak tenaga dan nutrien daripada persekitaran, dan bentuk dewasa yang berbeza sama sekali dengan keperluan yang sangat berbeza untuk pengoptimuman perjalanan dan pembiakan. ——Dari Geoffrey Hinton, Oriol Vinyals, Jeff Dean, 2015.

2. Adakah andaian lain?

Buktinya sebenarnya merangkumi 3 andaian:

  • Anggapkan bahawa masa yang diperlukan untuk mengira pendaraban matriks yang besar adalah relatif kepada Setiap hantaran hadapan mengambil masa 0 untuk memuatkan parameter; Jika masa yang diperlukan untuk komunikasi dan pendaraban matriks antara GPU tidak diandaikan sebagai 0, token teori maksimum sesaat daripada 175 bilion model parameter akan dikurangkan
  • Anggapkan ChatGPT ialah; berdasarkan varian Seni Bina Transformer.
  • 3. Apakah maksud Setara Padat?

Sejak beberapa tahun kebelakangan ini, penyelidik telah menjalankan penyelidikan ke atas LLM pakar hibrid jarang seperti Switch Transformer. Setara padat menunjukkan bilangan parameter yang digunakan dalam setiap hantaran hadapan. Dengan menggunakan kaedah yang diterangkan dalam artikel ini, tidak ada cara untuk membuktikan bahawa ChatGPT bukanlah model KPM jarang parameter 175 bilion.

4. Adakah anda mempertimbangkan pengoptimuman inferens Transformer cache KV?

Walaupun dengan pengoptimuman cache KV, setiap pas hadapan masih perlu memuatkan keseluruhan model cache KV hanya menjimatkan FLOP, tetapi tidak mengurangkan penggunaan lebar jalur memori (sebenarnya Ia meningkat kerana cache KV perlu dimuatkan pada setiap hantaran hadapan).

5.

Walaupun Flash Attention berprestasi lebih baik dari segi kecekapan jalur lebar memori dan kelajuan masa nyata, setiap hantaran hadapan masih memerlukan pemuatan keseluruhan model, jadi hujah sebelumnya masih berlaku.

6. Pernahkah anda mempertimbangkan paralelisme saluran paip/strategi selari yang lebih halus?

Menggunakan paralelisme saluran paip menghasilkan bilangan hantaran hadapan maksimum yang sama. Walau bagaimanapun, dengan menggunakan kumpulan mikro dan saiz kumpulan yang lebih besar, daya pemprosesan (jumlah token/saat) boleh ditingkatkan.

7. Pernahkah anda mempertimbangkan untuk meningkatkan selari tensor melebihi 8?

Platform A100 menyokong 16 A100 setiap nod, tetapi Azure tidak menyokong ciri ini. Hanya Google Cloud menyokong ciri ini, tetapi hampir tiada siapa yang menggunakannya. Tidak mungkin Azure akan membuat nod tersuai dengan 16 A100 untuk OpenAI dan tidak mengeluarkannya sebagai versi GA awam untuk melunaskan kos mereka bentuk atau mengekalkan nod baharu. Berkenaan selari tensor antara nod, itu hanya satu kemungkinan, tetapi ini adalah cara yang kurang kos efektif untuk membuat inferens pada A100. Malah NVIDIA tidak mengesyorkan pemprosesan selari tensor antara nod.

8 Pernahkah anda mempertimbangkan untuk menggunakan INT4?

Walaupun menggunakan INT4 telah terbukti berkesan, Pengkompil Kernel GPU OpenAI tidak menyokong pemuatan, penyimpanan atau pendaraban matriks INT4, dan tiada rancangan untuk menambah INT pada peta jalan teknologi mereka . Memandangkan tiada sokongan untuk pemuatan atau stor INT4, anda tidak boleh menyimpan pemberat sebagai INT4 dan kemudian mengukur kembali kepada format ketepatan tinggi (seperti INT8, bfloat16, dsb.).

Atas ialah kandungan terperinci Parameter model ChatGPT ≠ 175 bilion, seseorang membuktikannya menggunakan bukti dengan percanggahan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Apr 07, 2025 pm 09:39 PM

Apabila menukar rentetan ke objek dalam vue.js, json.parse () lebih disukai untuk rentetan json standard. Untuk rentetan JSON yang tidak standard, rentetan boleh diproses dengan menggunakan ungkapan biasa dan mengurangkan kaedah mengikut format atau url yang dikodkan. Pilih kaedah yang sesuai mengikut format rentetan dan perhatikan isu keselamatan dan pengekodan untuk mengelakkan pepijat.

Cara Menggunakan MySQL Selepas Pemasangan Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Vue.js Bagaimana untuk menukar pelbagai jenis rentetan ke dalam pelbagai objek? Vue.js Bagaimana untuk menukar pelbagai jenis rentetan ke dalam pelbagai objek? Apr 07, 2025 pm 09:36 PM

Ringkasan: Terdapat kaedah berikut untuk menukar array rentetan vue.js ke dalam tatasusunan objek: Kaedah asas: Gunakan fungsi peta yang sesuai dengan data yang diformat biasa. Permainan lanjutan: Menggunakan ungkapan biasa boleh mengendalikan format yang kompleks, tetapi mereka perlu ditulis dengan teliti dan dipertimbangkan. Pengoptimuman Prestasi: Memandangkan banyak data, operasi tak segerak atau perpustakaan pemprosesan data yang cekap boleh digunakan. Amalan Terbaik: Gaya Kod Jelas, Gunakan nama dan komen pembolehubah yang bermakna untuk memastikan kod ringkas.

Cara menetapkan masa tamat vue axios Cara menetapkan masa tamat vue axios Apr 07, 2025 pm 10:03 PM

Untuk menetapkan masa untuk Vue Axios, kita boleh membuat contoh Axios dan menentukan pilihan masa tamat: dalam tetapan global: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dalam satu permintaan: ini. $ axios.get ('/api/pengguna', {timeout: 10000}).

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Cara menyelesaikan MySQL tidak dapat dimulakan Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Apr 08, 2025 am 11:36 AM

Pengoptimuman prestasi MySQL perlu bermula dari tiga aspek: konfigurasi pemasangan, pengindeksan dan pengoptimuman pertanyaan, pemantauan dan penalaan. 1. Selepas pemasangan, anda perlu menyesuaikan fail my.cnf mengikut konfigurasi pelayan, seperti parameter innodb_buffer_pool_size, dan tutup query_cache_size; 2. Buat indeks yang sesuai untuk mengelakkan indeks yang berlebihan, dan mengoptimumkan pernyataan pertanyaan, seperti menggunakan perintah menjelaskan untuk menganalisis pelan pelaksanaan; 3. Gunakan alat pemantauan MySQL sendiri (ShowProcessList, ShowStatus) untuk memantau kesihatan pangkalan data, dan kerap membuat semula dan mengatur pangkalan data. Hanya dengan terus mengoptimumkan langkah -langkah ini, prestasi pangkalan data MySQL diperbaiki.

See all articles