Model sulingan Deepseek, yang juga dilihat pada ollama dan awan Groq, adalah versi LLM yang lebih kecil, lebih cekap, yang direka untuk memadankan prestasi model yang lebih besar sambil menggunakan sumber yang lebih sedikit. Proses "penyulingan" ini, satu bentuk pemampatan model, diperkenalkan oleh Geoffrey Hinton pada tahun 2015.
Jadual Kandungan:
Faedah model suling:
Berkaitan: Membina Sistem Rag untuk Penalaran AI dengan Model Sulingan DeepSeek R1
Asal Model Suling:
Kertas 2015 Hinton, "Menyuling Pengetahuan dalam Rangkaian Neural," meneroka memampatkan rangkaian saraf yang besar ke dalam versi yang lebih kecil dan memelihara pengetahuan. Model "guru" yang lebih besar melatih model "pelajar" yang lebih kecil, yang bertujuan untuk pelajar meniru berat badan yang dipelajari oleh guru.
Pelajar belajar dengan meminimumkan kesilapan terhadap dua sasaran: kebenaran tanah (sasaran keras) dan ramalan guru (sasaran lembut).
Komponen Kerugian Dual:
Jumlah kerugian adalah jumlah berat kerugian ini, dikawal oleh parameter λ (lambda). Fungsi softmax, yang diubahsuai dengan parameter suhu (T), melembutkan taburan kebarangkalian, meningkatkan pembelajaran. Kerugian lembut didarabkan oleh T² untuk mengimbangi ini.
Distilbert dan Distillgpt2:
Distilbert menggunakan kaedah Hinton dengan kehilangan embedding kosinus. Ia jauh lebih kecil daripada Bert-base tetapi dengan pengurangan ketepatan yang sedikit. DistillGPT2, manakala lebih cepat daripada GPT-2, menunjukkan kebingungan yang lebih tinggi (prestasi yang lebih rendah) pada dataset teks besar.
Melaksanakan penyulingan LLM:
Ini melibatkan penyediaan data, pemilihan model guru, dan proses penyulingan menggunakan rangka kerja seperti memeluk transformer muka, pengoptimuman model tensorflow, penyuling pytorch, atau deepspeed. Metrik penilaian termasuk ketepatan, kelajuan kesimpulan, saiz model, dan penggunaan sumber.
Memahami Penyulingan Model:
Model pelajar boleh menjadi model guru yang dipermudahkan atau mempunyai seni bina yang berbeza. Proses penyulingan melatih pelajar untuk meniru tingkah laku guru dengan meminimumkan perbezaan antara ramalan mereka.
Cabaran dan batasan:
Arah masa depan dalam penyulingan model:
Aplikasi dunia nyata:
Kesimpulan:
Model suling menawarkan keseimbangan antara prestasi dan kecekapan. Walaupun mereka tidak dapat melepasi model asal, keperluan sumber yang dikurangkan menjadikan mereka sangat bermanfaat dalam pelbagai aplikasi. Pilihan antara model sulingan dan asal bergantung kepada prestasi yang boleh diterima dan sumber pengiraan yang tersedia.
Atas ialah kandungan terperinci Apakah model sulingan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!