Model kecil menjadi trend?
Minggu ini, OpenAI melancarkan model kecil GPT-4o-mini, dan trek model kecil dilancarkan secara rasmi. Baru-baru ini menyertai lagu ini ialah Apple.
Baru-baru ini, Apple, sebagai salah satu institusi penyelidikan projek DataComp-LM (DCLM), mengeluarkan model sumber terbuka DCLM-7B pada Hugging Face. Prestasi model telah mengatasi Mistral-7B dan mendekati model sumber terbuka terkemuka lain, termasuk Llama 3 dan Gemma. Pautan kertas: https://arxiv.org/pdf/2406.11794 One, Vaishaal Shankar daripada pasukan pembelajaran mesin Apple, menyifatkan model DCLM sebagai "model terbaik yang benar-benar sumber terbuka" kerana DCLM bukan sahaja sumber terbuka pemberat model, tetapi juga sumber terbuka kod latihan dan set data pra-latihan.
Pengenalan Penyelidikan
Menggunakan DCLM, pasukan penyelidik membina set data DCLM-BASELINE berkualiti tinggi dan menggunakan set data ini untuk melatih model parameter 7B dari awal - DCLM-7B. Perincian model DCLM-7B.
DCLM-7B menggunakan penyelesaian pra-latihan berdasarkan rangka kerja OpenLM, dan ketepatan 5 pukulan mencapai 64% pada penanda aras MMLU, yang setanding dengan Mistral-7B-v0.3 (63%) dan Llama 3 8B (66%) Ia setanding dengan Mistral-7B-v0.3 dan Llama 3 8B, dan prestasi purata pada 53 tugas pemahaman bahasa semula jadi juga setanding dengan Mistral-7B-v0.3 dan Llama 3 8B, manakala jumlah pengiraan yang diperlukan hanyalah 1/6 daripada Llama 3 8B.
Berikut ialah keputusan penilaian DCLM-7B ke atas pelbagai tugasan (bahagian):
Hasil perbandingan DCLM-7B dengan model lain yang sama saiz ditunjukkan dalam jadual di bawah:Terkemuka Ya, kebanyakan model lain mempunyai pemberat terbuka tetapi data tertutup. Inilah sebabnya Vaishaal Shankar menerangkan model DCLM sebagai "sumber terbuka yang sebenarnya."
Pautan rujukan: https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/
Atas ialah kandungan terperinci Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!