Rumah > Peranti teknologi > AI > 13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Joseph Gordon-Levitt
Lepaskan: 2025-03-15 09:53:07
asal
468 orang telah melayarinya

Tahun ini, model bahasa padat (CLMS) seperti Openai's O1 telah menarik perhatian yang ketara, menunjukkan keupayaan pemprosesan bahasa semula jadi yang mengagumkan. Walau bagaimanapun, banyak aplikasi tidak memerlukan sumber yang besar dari model yang lebih besar. Masukkan Model Bahasa Kecil (SLMs)-Penyelesaian yang cekap dan efisien yang sesuai untuk aplikasi yang sedar bajet dan persekitaran pengiraan yang terhad.

SLMS mengimbangi prestasi dan kecekapan. Senibina dan saiz yang dioptimumkan menjadikannya sempurna untuk peranti kelebihan, sistem yang terkawal sumber, dan aplikasi yang memerlukan kesimpulan yang cepat. Daripada menggerakkan aplikasi mudah alih untuk menyediakan fungsi NLP luar talian, model -model ini mendemokrasikan teknologi bahasa canggih.

Blog ini meneroka 13 SLM yang berprestasi tinggi. Sama ada anda seorang pemaju yang mencari penyelesaian ringan atau penyelidik yang menyiasat NLP yang cekap, senarai ini mempamerkan bahawa lebih kecil boleh menjadi lebih baik. Mari kita meneroka bagaimana model -model padat ini memberi impak yang signifikan.

Jadual Kandungan

  • Prestasi pelbagai tugas serba boleh (terjemahan, ringkasan, Q & A)
    • T5
    • Qwen-2
    • Llama 3.2
    • Mistral Nemo
    • Mistral kecil 3
  • Tugas-tugas yang berfokus pada alasan
    • O3-Mini
    • PHI-4
  • Penjanaan teks
    • DistilGPT-2
    • Smollm
  • Umum NLU (Klasifikasi Teks, Analisis Sentimen, Pengiktirafan Entiti Dinamakan)
    • Minilm
    • Mobilebert
    • Microsoft Phi 3.5 Mini
    • Gemma 2
    • Tinybert
    • Distilbert
  • Soalan yang sering ditanya

Untuk menyelam yang lebih mendalam ke SLMS, lihat: Apakah model bahasa kecil (SLMS)? Sekarang, mari kita periksa 13 SLM utama ini.

Prestasi pelbagai tugas serba boleh (terjemahan, ringkasan, Q & A)

T5

T5 Penyelidikan Google (Transformer Pemindahan Teks ke Teks) adalah model serba boleh menggunakan rangka kerja teks-ke-teks bersatu untuk pelbagai tugas NLP (Terjemahan, Ringkasan, Q & A).

Saiz parameter

T5 menawarkan pelbagai saiz, dari T5-Small (60 juta parameter) hingga T5-11b (11 bilion parameter), memenuhi keperluan sumber yang pelbagai.

Seni bina

Senibina Transformer T5 menggunakan komponen pengekod dan penyahkod, menekankan fleksibiliti dengan membingkai semua tugas sebagai masalah teks-ke-teks. Pra-latihan pada dataset yang besar meningkatkan pemahamannya.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

T5 adalah sumber terbuka (lesen Apache 2.0), boleh diakses melalui Tensorflow dan muka yang memeluk.

Qwen-2

QWEN-2 adalah CLM yang cekap dalam penjanaan teks, klasifikasi, dan ringkasan, sesuai untuk pelbagai aplikasi. Reka bentuk modularnya sesuai untuk perkakasan yang terkawal.

Saiz parameter

Qwen-2 datang dalam versi 3 bilion, 7 bilion, dan 13 bilion parameter, yang menawarkan skalabilitas untuk aplikasi yang berbeza.

Seni bina

Senibina Transformer Advanced Qwen-2 menggunakan teknik-teknik seperti embeddings kedudukan berputar dan pra-normalisasi penyesuaian untuk kelajuan dan kestabilan. Modularitasnya memastikan kebolehsuaian.

Adanya

Qwen-2 adalah sumber terbuka, dengan beberapa ciri canggih yang tersedia melalui langganan.

Llama 3.2

Llama 3.2 mengutamakan prestasi tinggi dengan kecekapan sumber, menjadikannya sesuai untuk aplikasi dengan overhead pengiraan yang lebih rendah.

Saiz parameter

Llama 3.2 menawarkan versi antara 1.3 bilion hingga 13 bilion parameter, membolehkan pengguna memilih berdasarkan keperluan mereka.

Seni bina

Llama 3.2 menggunakan perhatian pertanyaan yang dikelompokkan, embedding posisional berputar (tali), dan pengaktifan Swiglu untuk kecekapan dan prestasi.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

Llama 3.2 adalah sumber terbuka, dengan pilihan dan pilihan berbayar percuma untuk ciri dan sokongan lanjutan.

Mistral Nemo

Mistral Nemo adalah CLM yang padat dan cekap yang direka untuk pemahaman bahasa dan generasi yang berkualiti tinggi, menekankan prestasi dan kemudahan integrasi.

Saiz parameter

Mistral Nemo boleh didapati dalam versi 1.3 bilion, 7 bilion, dan 13 bilion parameter.

Seni bina

Senibina berasaskan pengubah Nemo Mistral menggunakan mekanisme perhatian yang dioptimumkan dan peningkatan token yang dipertingkatkan untuk penggunaan memori yang cekap dan throughput.

Adanya

Mistral Nemo adalah sumber terbuka.

Mistral kecil 3

Mistral Small 3 mengendalikan kira -kira 80% tugas AI generatif dengan keperluan perkakasan yang sederhana.

Saiz parameter

Mistral Small 3 mempunyai 24 bilion parameter, menawarkan prestasi yang setanding dengan model yang lebih besar. Ia boleh digunakan pada GPU mewah tunggal atau komputer riba yang kuat.

Seni bina

Mistral Small 3 menggunakan lapisan yang lebih sedikit daripada model bersaing untuk prestasi rendah. Ia boleh didapati dalam versi pra-terlatih dan arahan.

Adanya

Mistral Small 3 adalah sumber terbuka (lesen Apache 2.0), yang boleh didapati di muka pelukan, ollama, dan kaggle.

Tugas-tugas yang berfokus pada alasan

O3-Mini

O3-Mini adalah model padat yang mencapai prestasi tinggi walaupun kiraan parameternya yang dikurangkan, menjadikannya sesuai untuk peranti yang dikendalikan oleh sumber.

Saiz parameter

Kiraan parameter yang dikurangkan dengan ketara O3-mini membolehkan operasi yang cekap pada peranti dengan sumber yang terhad.

Seni bina

Sebagai sebahagian daripada Siri Model Penalaran Openai, O3-Mini menyokong input/output teks dan tahap penalaran laras.

Adanya

O3-Mini boleh diakses melalui CHATGPT, Openai API, Microsoft Azure Openai Service, dan Router Open.

PHI-4

PHI-4 (14 bilion parameter) Microsoft cemerlang dalam tugas pemikiran sambil mengekalkan kecekapan pengiraan.

Saiz parameter

Parameter 14 bilion PHI-4 dioptimumkan untuk kecekapan penalaran dan mengurangkan tuntutan pengiraan.

Senibina dan Latihan

Proses seni bina dan latihan Phi-4, termasuk teknik penjanaan data sintetik dan penghalusan, meningkatkan keupayaan penalarannya.

Adanya

PHI-4 kini proprietari.

Penjanaan teks

DistilGPT-2

DistilGPT-2 adalah versi GPT-2 yang lebih kecil, lebih cekap, mengekalkan kebanyakan keupayaannya sambil mengurangkan saiznya dengan ketara.

Saiz parameter

DistilGPT-2 biasanya mempunyai sekitar 82 juta parameter, pengurangan ketara dari GPT-2.

Seni bina

DistilGPT-2 menggunakan seni bina pengubah yang sama kepada GPT-2 tetapi dengan lapisan yang lebih sedikit, dicapai melalui penyulingan pengetahuan.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

DistilGPT-2 adalah sumber terbuka (memeluk muka).

Smollm

SMOLLM adalah model ringan yang direka untuk NLP yang cekap dengan jejak pengiraan yang dikurangkan.

Saiz parameter

Smollm menawarkan pelbagai saiz, dari 10 juta hingga 300 juta parameter.

Seni bina

SMOLLM menggunakan reka bentuk berasaskan pengubah dengan pemangkasan, kuantisasi, dan kaedah pengiraan penyesuaian untuk kecekapan.

Adanya

Smollm adalah sumber terbuka, dengan pilihan bebas dan pilihan berbayar.

Umum NLU (Klasifikasi Teks, Analisis Sentimen, Pengiktirafan Entiti Dinamakan)

Minilm

Minilm Microsoft adalah model yang padat dan cekap menggunakan teknik penyulingan pengetahuan.

Saiz parameter

Minilm menawarkan pelbagai saiz, dari 22 juta hingga 384 juta parameter.

Seni bina

Minilm menggunakan mekanisme perhatian diri yang mendalam, menggabungkan penyulingan pengetahuan untuk memindahkan prestasi dari model yang lebih besar.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

Minilm adalah sumber terbuka (memeluk muka, github).

Mobilebert

Mobilebert adalah penyesuaian ringan Bert, yang direka untuk peranti yang terkawal sumber.

Saiz parameter

Mobilebert mempunyai kira -kira 25 juta parameter.

Seni bina

Mobilebert menggunakan struktur kesesakan, lapisan kesesakan terbalik, dan rangkaian feed-forward empat kali ganda untuk kecekapan.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

Mobilebert adalah sumber terbuka.

Microsoft Phi 3.5 Mini

Microsoft Phi 3.5 Baki Mini Kecekapan dan prestasi untuk pemahaman bahasa semulajadi yang mantap dengan sumber yang terhad.

Saiz parameter

PHI 3.5 Mini datang dalam versi parameter 1.3 bilion dan 3 bilion.

Seni bina

PHI 3.5 Senibina Transformer Mini menggunakan mekanisme perhatian yang dioptimumkan untuk kecekapan.

Adanya

Microsoft PHI 3.5 Mini adalah proprietari, disatukan ke Microsoft Azure AI Services (Free and Dibayar).

Gemma 2

Gemma 2 direka untuk tugas NLU dan generasi yang cekap, mengimbangi ketepatan dan kelajuan.

Saiz parameter

Gemma 2 menawarkan versi dengan 125 juta, 350 juta, dan 1.2 bilion parameter.

Seni bina

Gemma 2 menggunakan seni bina pengubah yang diselaraskan dengan kepala perhatian dinamik dan peningkatan normalisasi lapisan.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

Gemma 2 adalah sumber terbuka (lesen permisif), dengan pilihan percuma dan premium.

Tinybert

Tinybert adalah versi suling Bert, mengurangkan kerumitan komputasi dan jejak memori.

Saiz parameter

Versi terkecil Tinybert mempunyai sekitar 14 juta parameter, manakala versi yang lebih besar mempunyai kira -kira 66 juta.

Seni bina

Tinybert menggunakan seni bina pengubah yang sama kepada Bert tetapi dengan lapisan yang lebih sedikit dan dimensi yang dikurangkan.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

Tinybert adalah sumber terbuka (Lesen Apache 2.0), boleh diakses melalui Transformers Face Hugging.

Distilbert

Distilbert adalah versi Bert yang lebih kecil, lebih cepat, dan lebih ringan, mengekalkan kebanyakan prestasi Bert.

Saiz parameter

Distilbert mempunyai kira -kira 66 juta parameter.

Seni bina

Distilbert memudahkan seni bina Bert dengan mengurangkan bilangan lapisan dan menggunakan penyulingan pengetahuan.

13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya

Adanya

Distilbert adalah sumber terbuka (memeluk transformer muka).

Kesimpulan

SLM merevolusi NLP dengan menawarkan keseimbangan prestasi, kecekapan, dan kebolehaksesan. Kesesuaian mereka untuk persekitaran yang terkawal sumber menjadikan mereka sesuai untuk pelbagai aplikasi. Model sumber terbuka dan proprietari sama-sama memacu inovasi dan memperluaskan akses kepada teknologi bahasa canggih. Apabila penggunaan AI berkembang, SLM akan menjadi penting untuk skala NLP dengan cekap dan inklusif.

Soalan yang sering ditanya

Q1. Bolehkah model bahasa kecil digunakan di luar talian? A. Ya, sifat ringan mereka membolehkan penggunaan luar talian pada pelbagai peranti.

S2. Bagaimana model bahasa kecil disesuaikan? A. Penalaan halus menyesuaikan model pra-terlatih kepada tugas tertentu menggunakan dataset yang lebih kecil.

Q3. Adakah model bahasa kecil selamat dan peribadi? A. Penempatan tempatan boleh meningkatkan keselamatan dan privasi, tetapi butiran pelaksanaan adalah penting.

Atas ialah kandungan terperinci 13 model bahasa kecil (SLMS) untuk 2025 - Analytics Vidhya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan