Tugas latihan model bahasa besar berdasarkan GPT-3 mencipta rekod baharu: kad pemecut NVIDIA H100 hanya mengambil masa 11 minit

PHPz
Lepaskan: 2023-06-28 21:02:02
ke hadapan
1223 orang telah melayarinya

Menurut berita pada 28 Jun, perkembangan pesat teknologi AI telah menjadikan kad grafik NVIDIA sebagai produk yang dinanti-nantikan dan popular di pasaran. Terutamanya kad pemecut H100 mewah, yang dijual dengan harga lebih daripada 250,000 yuan, kekurangan bekalan di pasaran. Prestasi kad pemecut ini juga sangat menakjubkan Keputusan ujian AI terkini menunjukkan bahawa tugas latihan model bahasa besar berdasarkan GPT-3 telah mencatat rekod baharu, dengan masa penyiapan hanya 11 minit.

基于GPT-3的大语言模型训练任务刷新记录:NVIDIA H100加速卡仅用11分钟

Seperti yang difahami oleh editor, MLCommons, pakatan industri terbuka dalam bidang pembelajaran mesin dan kecerdasan buatan, telah mengeluarkan penilaian penanda aras MLPerf terkini. Ia termasuk 8 ujian beban, termasuk ujian model bahasa besar LLM berdasarkan model sumber terbuka GPT-3, yang mengemukakan keperluan tinggi untuk menilai prestasi AI platform.

Platform NVIDIA yang mengambil bahagian dalam ujian ini terdiri daripada 896 pemproses Intel Xeon 8462Y+ dan kad pemecut 3584 H100 Ia adalah satu-satunya antara semua platform yang mengambil bahagian yang boleh menyelesaikan semua ujian. Selain itu, platform NVIDIA mencipta rekod baharu. Dalam tugas latihan model bahasa besar utama berdasarkan GPT-3, platform H100 hanya mengambil masa 10.94 minit Sebagai perbandingan, platform Intel yang dibina dengan 96 pemproses Xeon 8380 dan 96 cip Habana Gaudi2 menyelesaikan ujian yang sama minit.

Prestasi platform H100 hampir 30 kali ganda daripada platform Intel Sudah tentu, terdapat perbezaan besar dalam skala kedua-dua platform. Tetapi walaupun hanya 768 kad pemecut H100 digunakan untuk latihan, masa yang diperlukan masih hanya 45.6 minit, jauh lebih lama daripada cip AI menggunakan platform Intel.

Kad pemecut H100 menggunakan teras GPU GH100, dihasilkan dengan proses TSMC 4nm tersuai, dan mempunyai 80 bilion transistor. Ia menyepadukan 18432 teras CUDA, 576 teras tensor dan 60MB cache sekunder, dan menyokong memori jalur lebar tinggi HBM 6144-bit dan antara muka PCIe 5.0.

基于GPT-3的大语言模型训练任务刷新记录:NVIDIA H100加速卡仅用11分钟

Kad pengkomputeran H100 tersedia dalam gaya SXM dan PCIe 5.0. Versi SXM mempunyai 15,872 teras CUDA dan 528 teras Tensor, manakala versi PCIe 5.0 mempunyai 14,952 teras CUDA dan 456 teras Tensor. Penggunaan kuasa kad boleh mencapai sehingga 700W.

Dari segi prestasi, kad pemecut H100 boleh mencapai 60 trilion pengiraan sesaat dalam pengiraan FP64/FP32, dan 2000 trilion kali sesaat dalam pengiraan FP16. Selain itu, ia juga menyokong pengiraan TF32, yang boleh mencapai 1000 trilion kali sesaat, iaitu tiga kali ganda daripada A100. Dari segi pengkomputeran FP8, prestasi kad pemecut H100 boleh mencapai 4,000 trilion operasi sesaat, iaitu enam kali ganda daripada A100.

Atas ialah kandungan terperinci Tugas latihan model bahasa besar berdasarkan GPT-3 mencipta rekod baharu: kad pemecut NVIDIA H100 hanya mengambil masa 11 minit. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:itbear.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan