Tahun ini, model bahasa padat (CLMS) seperti Openai's O1 telah menarik perhatian yang ketara, menunjukkan keupayaan pemprosesan bahasa semula jadi yang mengagumkan. Walau bagaimanapun, banyak aplikasi tidak memerlukan sumber yang besar dari model yang lebih besar. Masukkan Model Bahasa Kecil (SLMs)-Penyelesaian yang cekap dan efisien yang sesuai untuk aplikasi yang sedar bajet dan persekitaran pengiraan yang terhad.
SLMS mengimbangi prestasi dan kecekapan. Senibina dan saiz yang dioptimumkan menjadikannya sempurna untuk peranti kelebihan, sistem yang terkawal sumber, dan aplikasi yang memerlukan kesimpulan yang cepat. Daripada menggerakkan aplikasi mudah alih untuk menyediakan fungsi NLP luar talian, model -model ini mendemokrasikan teknologi bahasa canggih.
Blog ini meneroka 13 SLM yang berprestasi tinggi. Sama ada anda seorang pemaju yang mencari penyelesaian ringan atau penyelidik yang menyiasat NLP yang cekap, senarai ini mempamerkan bahawa lebih kecil boleh menjadi lebih baik. Mari kita meneroka bagaimana model -model padat ini memberi impak yang signifikan.
Untuk menyelam yang lebih mendalam ke SLMS, lihat: Apakah model bahasa kecil (SLMS)? Sekarang, mari kita periksa 13 SLM utama ini.
T5 Penyelidikan Google (Transformer Pemindahan Teks ke Teks) adalah model serba boleh menggunakan rangka kerja teks-ke-teks bersatu untuk pelbagai tugas NLP (Terjemahan, Ringkasan, Q & A).
T5 menawarkan pelbagai saiz, dari T5-Small (60 juta parameter) hingga T5-11b (11 bilion parameter), memenuhi keperluan sumber yang pelbagai.
Senibina Transformer T5 menggunakan komponen pengekod dan penyahkod, menekankan fleksibiliti dengan membingkai semua tugas sebagai masalah teks-ke-teks. Pra-latihan pada dataset yang besar meningkatkan pemahamannya.
T5 adalah sumber terbuka (lesen Apache 2.0), boleh diakses melalui Tensorflow dan muka yang memeluk.
QWEN-2 adalah CLM yang cekap dalam penjanaan teks, klasifikasi, dan ringkasan, sesuai untuk pelbagai aplikasi. Reka bentuk modularnya sesuai untuk perkakasan yang terkawal.
Qwen-2 datang dalam versi 3 bilion, 7 bilion, dan 13 bilion parameter, yang menawarkan skalabilitas untuk aplikasi yang berbeza.
Senibina Transformer Advanced Qwen-2 menggunakan teknik-teknik seperti embeddings kedudukan berputar dan pra-normalisasi penyesuaian untuk kelajuan dan kestabilan. Modularitasnya memastikan kebolehsuaian.
Qwen-2 adalah sumber terbuka, dengan beberapa ciri canggih yang tersedia melalui langganan.
Llama 3.2 mengutamakan prestasi tinggi dengan kecekapan sumber, menjadikannya sesuai untuk aplikasi dengan overhead pengiraan yang lebih rendah.
Llama 3.2 menawarkan versi antara 1.3 bilion hingga 13 bilion parameter, membolehkan pengguna memilih berdasarkan keperluan mereka.
Llama 3.2 menggunakan perhatian pertanyaan yang dikelompokkan, embedding posisional berputar (tali), dan pengaktifan Swiglu untuk kecekapan dan prestasi.
Llama 3.2 adalah sumber terbuka, dengan pilihan dan pilihan berbayar percuma untuk ciri dan sokongan lanjutan.
Mistral Nemo adalah CLM yang padat dan cekap yang direka untuk pemahaman bahasa dan generasi yang berkualiti tinggi, menekankan prestasi dan kemudahan integrasi.
Mistral Nemo boleh didapati dalam versi 1.3 bilion, 7 bilion, dan 13 bilion parameter.
Senibina berasaskan pengubah Nemo Mistral menggunakan mekanisme perhatian yang dioptimumkan dan peningkatan token yang dipertingkatkan untuk penggunaan memori yang cekap dan throughput.
Mistral Nemo adalah sumber terbuka.
Mistral Small 3 mengendalikan kira -kira 80% tugas AI generatif dengan keperluan perkakasan yang sederhana.
Mistral Small 3 mempunyai 24 bilion parameter, menawarkan prestasi yang setanding dengan model yang lebih besar. Ia boleh digunakan pada GPU mewah tunggal atau komputer riba yang kuat.
Mistral Small 3 menggunakan lapisan yang lebih sedikit daripada model bersaing untuk prestasi rendah. Ia boleh didapati dalam versi pra-terlatih dan arahan.
Mistral Small 3 adalah sumber terbuka (lesen Apache 2.0), yang boleh didapati di muka pelukan, ollama, dan kaggle.
O3-Mini adalah model padat yang mencapai prestasi tinggi walaupun kiraan parameternya yang dikurangkan, menjadikannya sesuai untuk peranti yang dikendalikan oleh sumber.
Kiraan parameter yang dikurangkan dengan ketara O3-mini membolehkan operasi yang cekap pada peranti dengan sumber yang terhad.
Sebagai sebahagian daripada Siri Model Penalaran Openai, O3-Mini menyokong input/output teks dan tahap penalaran laras.
O3-Mini boleh diakses melalui CHATGPT, Openai API, Microsoft Azure Openai Service, dan Router Open.
PHI-4 (14 bilion parameter) Microsoft cemerlang dalam tugas pemikiran sambil mengekalkan kecekapan pengiraan.
Parameter 14 bilion PHI-4 dioptimumkan untuk kecekapan penalaran dan mengurangkan tuntutan pengiraan.
Proses seni bina dan latihan Phi-4, termasuk teknik penjanaan data sintetik dan penghalusan, meningkatkan keupayaan penalarannya.
PHI-4 kini proprietari.
DistilGPT-2 adalah versi GPT-2 yang lebih kecil, lebih cekap, mengekalkan kebanyakan keupayaannya sambil mengurangkan saiznya dengan ketara.
DistilGPT-2 biasanya mempunyai sekitar 82 juta parameter, pengurangan ketara dari GPT-2.
DistilGPT-2 menggunakan seni bina pengubah yang sama kepada GPT-2 tetapi dengan lapisan yang lebih sedikit, dicapai melalui penyulingan pengetahuan.
DistilGPT-2 adalah sumber terbuka (memeluk muka).
SMOLLM adalah model ringan yang direka untuk NLP yang cekap dengan jejak pengiraan yang dikurangkan.
Smollm menawarkan pelbagai saiz, dari 10 juta hingga 300 juta parameter.
SMOLLM menggunakan reka bentuk berasaskan pengubah dengan pemangkasan, kuantisasi, dan kaedah pengiraan penyesuaian untuk kecekapan.
Smollm adalah sumber terbuka, dengan pilihan bebas dan pilihan berbayar.
Minilm Microsoft adalah model yang padat dan cekap menggunakan teknik penyulingan pengetahuan.
Minilm menawarkan pelbagai saiz, dari 22 juta hingga 384 juta parameter.
Minilm menggunakan mekanisme perhatian diri yang mendalam, menggabungkan penyulingan pengetahuan untuk memindahkan prestasi dari model yang lebih besar.
Minilm adalah sumber terbuka (memeluk muka, github).
Mobilebert adalah penyesuaian ringan Bert, yang direka untuk peranti yang terkawal sumber.
Mobilebert mempunyai kira -kira 25 juta parameter.
Mobilebert menggunakan struktur kesesakan, lapisan kesesakan terbalik, dan rangkaian feed-forward empat kali ganda untuk kecekapan.
Mobilebert adalah sumber terbuka.
Microsoft Phi 3.5 Baki Mini Kecekapan dan prestasi untuk pemahaman bahasa semulajadi yang mantap dengan sumber yang terhad.
PHI 3.5 Mini datang dalam versi parameter 1.3 bilion dan 3 bilion.
PHI 3.5 Senibina Transformer Mini menggunakan mekanisme perhatian yang dioptimumkan untuk kecekapan.
Microsoft PHI 3.5 Mini adalah proprietari, disatukan ke Microsoft Azure AI Services (Free and Dibayar).
Gemma 2 direka untuk tugas NLU dan generasi yang cekap, mengimbangi ketepatan dan kelajuan.
Gemma 2 menawarkan versi dengan 125 juta, 350 juta, dan 1.2 bilion parameter.
Gemma 2 menggunakan seni bina pengubah yang diselaraskan dengan kepala perhatian dinamik dan peningkatan normalisasi lapisan.
Gemma 2 adalah sumber terbuka (lesen permisif), dengan pilihan percuma dan premium.
Tinybert adalah versi suling Bert, mengurangkan kerumitan komputasi dan jejak memori.
Versi terkecil Tinybert mempunyai sekitar 14 juta parameter, manakala versi yang lebih besar mempunyai kira -kira 66 juta.
Tinybert menggunakan seni bina pengubah yang sama kepada Bert tetapi dengan lapisan yang lebih sedikit dan dimensi yang dikurangkan.
Tinybert adalah sumber terbuka (Lesen Apache 2.0), boleh diakses melalui Transformers Face Hugging.
Distilbert adalah versi Bert yang lebih kecil, lebih cepat, dan lebih ringan, mengekalkan kebanyakan prestasi Bert.
Distilbert mempunyai kira -kira 66 juta parameter.
Distilbert memudahkan seni bina Bert dengan mengurangkan bilangan lapisan dan menggunakan penyulingan pengetahuan.
Distilbert adalah sumber terbuka (memeluk transformer muka).
SLM merevolusi NLP dengan menawarkan keseimbangan prestasi, kecekapan, dan kebolehaksesan. Kesesuaian mereka untuk persekitaran yang terkawal sumber menjadikan mereka sesuai untuk pelbagai aplikasi. Model sumber terbuka dan proprietari sama-sama memacu inovasi dan memperluaskan akses kepada teknologi bahasa canggih. Apabila penggunaan AI berkembang, SLM akan menjadi penting untuk skala NLP dengan cekap dan inklusif.
Q1. Bolehkah model bahasa kecil digunakan di luar talian? A. Ya, sifat ringan mereka membolehkan penggunaan luar talian pada pelbagai peranti.
S2. Bagaimana model bahasa kecil disesuaikan? A. Penalaan halus menyesuaikan model pra-terlatih kepada tugas tertentu menggunakan dataset yang lebih kecil.
Q3. Adakah model bahasa kecil selamat dan peribadi? A. Penempatan tempatan boleh meningkatkan keselamatan dan privasi, tetapi butiran pelaksanaan adalah penting.
Atas ialah kandungan terperinci 13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!