Berita pada 13 Julai, Semianalysis media asing baru-baru ini mendedahkan model besar GPT-4 yang dikeluarkan oleh OpenAI pada Mac tahun ini, termasuk seni bina model GPT-4, infrastruktur latihan dan inferens, volum parameter dan set Data latihan, bilangan token, kos, Campuran Pakar dan parameter dan maklumat khusus lain.
▲ Sumber gambar Semianalysis
Media asing menyatakan bahawa GPT-4 mengandungi sejumlah 1.8 trilion parameter dalam 120 lapisan, manakala GPT-3 hanya mempunyai kira-kira 175 bilion parameter. Untuk memastikan kos berpatutan, OpenAI menggunakan model pakar hibrid untuk membina.
IT Home Nota: Mixture of Experts ialah sejenis rangkaian saraf Sistem memisahkan dan melatih berbilang model berdasarkan data Selepas output setiap model, sistem menyepadukan dan mengeluarkan model ini ke dalam satu tugas. ▲ Sumber gambar SemianalysisDilaporkan bahawaGPT-4 menggunakan 16 model pakar campuran (campuran pakar), setiap satu dengan 111 bilion parameter, dan setiap laluan laluan hadapan melalui dua model pakar .
Selain itu, ia mempunyai 55 bilion parameter perhatian yang dikongsi dan dilatih menggunakan set data yang mengandungi 13 trilion token tidak unik dan dikira sebagai lebih banyak token berdasarkan bilangan lelaran. Panjang konteks peringkat pra-latihan GPT-4 ialah 8k, dan versi 32k adalah hasil penalaan halus 8k Kos latihan agak tinggi kelajuan 33.33 Token sesaat model Parametrik, jadi latihan model ini memerlukan kos inferens yang sangat tinggi Dikira pada AS$1 sejam untuk mesin fizikal H100, kos satu latihan adalah setinggi AS$63 juta (kira-kira 451 juta yuan. ). Dalam hal ini,
OpenAI memilih untuk menggunakan GPU A100 dalam awan untuk melatih model, mengurangkan kos latihan akhir kepada kira-kira AS$21.5 juta (kira-kira 154 juta yuan), yang mengambil masa lebih lama untuk mengurangkan kos latihan.
Atas ialah kandungan terperinci Seni bina model GPT-4 bocor: mengandungi 1.8 trilion parameter dan menggunakan model pakar hibrid. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!