Model bahasa besar (LLM) muncul dengan keluaran Open AI's ChatGPT. Sejak itu, beberapa syarikat juga telah melancarkan LLM mereka, tetapi lebih banyak syarikat kini cenderung kepada model bahasa kecil (SLM).
SLM semakin mendapat momentum, tetapi apakah itu, dan bagaimana ia berbeza daripada LLM?
Model bahasa kecil (SLM) ialah sejenis model kecerdasan buatan dengan parameter yang lebih sedikit (anggap ini sebagai nilai dalam model yang dipelajari semasa latihan). Seperti rakan sejawat mereka yang lebih besar, SLM boleh menjana teks dan melaksanakan tugas lain. Walau bagaimanapun, SLM menggunakan lebih sedikit set data untuk latihan, mempunyai parameter yang lebih sedikit dan memerlukan kurang kuasa pengiraan untuk melatih dan menjalankan.
SLM memfokuskan pada fungsi utama, dan jejak kecilnya bermakna ia boleh digunakan pada peranti yang berbeza, termasuk peranti tersebut yang tidak mempunyai perkakasan mewah seperti peranti mudah alih. Contohnya, Nano Google ialah SLM pada peranti yang dibina dari bawah ke atas yang berjalan pada peranti mudah alih. Oleh kerana saiznya yang kecil, Nano boleh berjalan secara tempatan dengan atau tanpa sambungan rangkaian, menurut syarikat itu.
Pilihan lain juga tersedia, yang mungkin anda anggap sebagai LLM tetapi SLM. Ini benar terutamanya memandangkan kebanyakan syarikat mengambil pendekatan berbilang model untuk mengeluarkan lebih daripada satu model bahasa dalam portfolio mereka, menawarkan kedua-dua LLM dan SLM. Satu contoh ialah GPT-4, yang mempunyai pelbagai model, termasuk
GPT-4, GPT-4o (Omni) dan GPT-4o mini.
Semasa membincangkan SLM, kita tidak boleh mengabaikan rakan sejawat besar mereka: LLM. Kunci perbezaan antara SLM dan LLM ialah saiz model, yang diukur dari segi parameter.
Sehingga artikel ini ditulis, tiada konsensus dalam industri AI mengenai bilangan maksimum daripada parameter model tidak boleh melebihi untuk dianggap sebagai SLM atau bilangan minimum yang diperlukan untuk dianggap sebagai LLM. Walau bagaimanapun, SLM biasanya mempunyai berjuta-juta hingga beberapa bilion parameter, manakala LLM mempunyai lebih banyak, mencecah setinggi trilion.
Sebagai contoh, GPT-3, yang dikeluarkan pada 2020, mempunyai 175 bilion parameter (dan Model GPT-4 dikhabarkan mempunyai sekitar 1.76 trilion), manakala 2024 Phi-3-mini Microsoft, Phi-3-small dan Phi-3-medium SLM masing-masing mengukur 3.8, 7 dan 14 bilion parameter.
Satu lagi faktor pembezaan antara SLM dan LLM ialah jumlah data yang digunakan untuk latihan. SLM dilatih pada jumlah data yang lebih kecil, manakala LLM menggunakan set data yang besar. Perbezaan ini juga mempengaruhi keupayaan model untuk menyelesaikan tugas yang rumit.
Disebabkan oleh data yang besar yang digunakan dalam latihan, LLM lebih sesuai untuk menyelesaikan pelbagai jenis tugasan kompleks yang memerlukan penaakulan lanjutan, manakala SLM lebih sesuai untuk lebih mudah. tugasan. Tidak seperti LLM, SLM menggunakan kurang data latihan, tetapi data yang digunakan mestilah berkualiti tinggi untuk mencapai banyak keupayaan yang terdapat dalam LLM dalam pakej yang kecil.
Bagi kebanyakan kes penggunaan, SLM berada pada kedudukan yang lebih baik untuk menjadi model arus perdana yang digunakan oleh syarikat dan pengguna untuk melaksanakan pelbagai jenis tugas. Pasti, LLM mempunyai kelebihannya dan lebih sesuai untuk kes penggunaan tertentu, seperti menyelesaikan tugas yang rumit. Walau bagaimanapun, SLM adalah masa depan untuk kebanyakan kes penggunaan disebabkan oleh sebab berikut.
SLM memerlukan lebih sedikit data untuk latihan berbanding LLM, yang menjadikannya pilihan paling berdaya maju untuk individu dan syarikat kecil hingga sederhana dengan data latihan, kewangan atau kedua-duanya terhad. LLM memerlukan sejumlah besar data latihan dan, secara lanjutan, memerlukan sumber pengiraan yang besar untuk melatih dan menjalankan.
Untuk meletakkan ini dalam perspektif, Ketua Pegawai Eksekutif OpenAI, Sam Altman, mengesahkan mereka mengambil masa lebih daripada $100 juta untuk berlatih GPT-4 semasa bercakap pada acara di MIT (seperti Berwayar). Contoh lain ialah OPT-175B LLM Meta. Meta berkata ia telah dilatih menggunakan 992 NVIDIA A100 80GB GPU, yang berharga kira-kira $10,000 seunit, mengikut CNBC. Ini menjadikan kos kira-kira $9 juta, tanpa memasukkan perbelanjaan lain seperti tenaga, gaji dan banyak lagi.
Dengan angka sedemikian, syarikat kecil dan sederhana tidak berdaya maju untuk melatih LLM. Sebaliknya, SLM mempunyai halangan yang lebih rendah untuk kemasukan dari segi sumber dan kos yang lebih rendah untuk dijalankan, dan oleh itu, lebih banyak syarikat akan menerimanya.
Prestasi ialah satu lagi bidang di mana SLM mengalahkan LLM kerana saiznya yang padat. SLM mempunyai kurang kependaman dan lebih sesuai untuk senario yang memerlukan respons yang lebih pantas, seperti dalam aplikasi masa nyata. Sebagai contoh, respons yang lebih pantas diutamakan dalam sistem respons suara seperti pembantu digital.
Menjalankan pada peranti (lebih lanjut mengenai perkara ini kemudian) juga bermakna permintaan anda tidak perlu membuat perjalanan ke pelayan dalam talian dan kembali ke balas pertanyaan anda, yang membawa kepada respons yang lebih pantas.
SLM juga boleh diperhalusi lagi dengan latihan tertumpu pada tugas atau domain tertentu, yang membawa kepada ketepatan yang lebih baik dalam kawasan berbanding model yang lebih besar dan lebih umum.
SLM memerlukan kurang kuasa pengiraan berbanding LLM dan oleh itu sesuai untuk kes pengkomputeran tepi. Ia boleh digunakan pada peranti tepi seperti telefon pintar dan kenderaan autonomi, yang tidak mempunyai kuasa atau sumber pengiraan yang besar. Model Nano Google boleh dijalankan pada peranti, membolehkan ia berfungsi walaupun anda tidak mempunyai sambungan internet yang aktif.
Keupayaan ini memberikan situasi menang-menang untuk kedua-dua syarikat dan pengguna. Pertama, ini adalah kemenangan untuk privasi kerana data pengguna diproses secara tempatan dan bukannya dihantar ke awan, yang penting kerana lebih banyak AI disepadukan ke dalam telefon pintar kami, yang mengandungi hampir setiap butiran tentang kami. Ia juga merupakan satu kemenangan bagi syarikat kerana mereka tidak perlu menggunakan dan menjalankan pelayan yang besar untuk mengendalikan tugas AI.
SLM semakin mendapat momentum, dengan pemain industri terbesar, seperti Open AI, Google, Microsoft, Anthropic, dan Meta, mengeluarkan model sedemikian. Model-model ini lebih sesuai untuk tugasan yang lebih mudah, yang mana kebanyakan kita menggunakan LLM; oleh itu, mereka adalah masa depan.
Tetapi LLM tidak akan ke mana-mana. Sebaliknya, ia akan digunakan untuk aplikasi lanjutan yang menggabungkan maklumat merentas domain yang berbeza untuk mencipta sesuatu yang baharu, seperti dalam penyelidikan perubatan.
Atas ialah kandungan terperinci Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!