Mengapakah model bahasa kecil merupakan perkara besar seterusnya dalam dunia AI?-AI-php.cn

Penterjemah |.

Model bahasa, sekarang mempunyai trend baharu yang mengejutkan

: keciladalah

besar. Apabila kemajuan dalam model bahasa besar (LLM) menunjukkan tanda-tanda stagnan , penyelidik dan pembangun semakin beralih perhatian kepada model bahasa kecil (SLM) Model ini jenis padat, cekap, boleh disesuaikan AI ini mencabar konsep lebih besar lebih baik", dan dijangka mengubah cara kita merawat AI. Adakah LLM mula bertakung? Hasil perbandingan prestasi yang dikeluarkan baru-baru ini bagi Vellum dan HuggingFace menunjukkan bahawa jurang prestasi antara LLM semakin rapat. Trend ini amat ketara

dalam tugasan tertentu Mengapakah model bahasa kecil merupakan perkara besar seterusnya dalam dunia AI?

seperti soalan aneka pilihan, penaakulan dan masalah matematik

PrestasiPerbezaan adalah minimum. Sebagai contoh

dalam soalan aneka pilihan, ketepatan daripada Claude 3 Opus, GPT-4 semuanya dan 83% Di atas, manakala dalam tugasan inferens, ketepatan Claude 3 Opus, GPT-4 dan Gemini 1.5 Pro melebihi 92% . )dalam beberapa Aspek juga menunjukkan keputusan yang mengejutkan, seperti penaakulan dan soalan aneka pilihan ; Dalam aspek ini, model kecil besar berprestasi besar model. Ini menunjukkan bahawa saiz model mungkin bukan satu-satunya faktor yang menentukan prestasi , tetapi aspek lain seperti seni bina, data latihan dan teknik penalaan halus mungkin memainkan peranan penting. Uber

bekas ketua AI

dan pengarang buku "Rebooting AI"Gary Marcus berkata Jika lihat: sedozen artikel terbaru, ia secara amnya pada tahap yang sama seperti GPT-4""Memulakan semula Kecerdasan Buatan🜎" Menjelaskan bagaimana Kecerdasan Buatan🜎🜎. . Marcus telah ditemu bual oleh IT media asing "VentureBeat" pada hari Khamis. . 3.5 Ia adalah satu kemajuan yang besar " terus ke mengecil dengan jurang prestasi,

Lebih banyak model menunjukkan agak hasil yang kompetitif, yang menimbulkan persoalan sama ada LLM benar-benar mula . Jika trend ini berterusan, ia mungkin memberi impak yang ketara kepada pembangunan dan penggunaan model bahasa pada masa hadapan, dan tumpuan orang mungkin beralih daripada secara membuta tuli meningkatkan saiz model kepada meneroka dengan lebih berkesan lebih khusus berpagar seni bina . Kelemahan kaedah

LLM

Walaupun tidak dapat dinafikan bahawa fungsi LLM adalah berkuasa, ia juga mempunyai kelemahan yang jelas. Pertama, latihan LLM memerlukan sejumlah besar data, memerlukan berbilion atau bahkan trilion parameter. Ini menjadikan proses latihan sangat sumber intensif, dan kuasa dan penggunaan tenaga diperlukan untuk berlatih dan berlari LLM juga mengejutkan. Ini telah mengakibatkan kos tinggi, menyukarkan organisasi atau individu kecil untuk mengambil bahagian dalam pembangunan teras LLM. Pada acara anjuran oleh MIT tahun lepas, OpenAI CEO Sam Altman menyatakan bahawa latihan akan menelan kos sekurang-kurangnya 4 T- GP bilion dolar AS. Kerumitan alatan dan teknik yang diperlukan untuk mengendalikan LLM juga

meletakkan lengkung pembelajaran yang curam di hadapan pembangun lagi mengehadkan akses Daripada latihan model kepada pembinaan dan penggunaan, pembangun menghadapi kitaran yang panjang, yang melambatkan pembangunan dan percubaan. Kertas kerja terbaru dari University of Cambridge menunjukkan bahawa syarikat menggunakan satu pembelajaran mesin model sahaja boleh mengambil masa 90 90 masa lebih lama atau lebih lama. Satu lagi masalah penting dengan LLM ialah mereka cenderung berhalusinasi - menjana

output yang kelihatan munasabah tetapi sebenarnya tidak nyata. Ini berpunca daripada cara LLM dilatih untuk meramal perkataan yang paling berkemungkinan seterusnya berdasarkan corak dalam data latihan, dan bukannya

benar-benar mengetahui maklumat . Oleh itu, LLM dengan yakin boleh membuat kenyataan palsu, mencipta fakta atau menggabungkan konsep yang tidak berkaitan dengan cara yang tidak masuk akal. Mengesan dan mengurangkan ilusifenomena ini adalah masalah lama yang dihadapi dalam membangunkan model bahasa yang boleh dipercayai. Marcus memberi amaran: “Jika anda menggunakan LLM untuk menyelesaikan penting masalah,

anda tidak mahu masalah pelanggan anda

, dapatkan perubatan yang salah maklumat , atau penggunaan Ia datang dengan memandu kereta Ini masih menjadi masalah adalah penting untuk membina kepercayaan . Bias dalam data latihan dan algoritma boleh membawa kepada output yang tidak adil, tidak tepat atau malah berbahaya. Seperti yang kita lihat dalam Google Gemini, teknologi yang sama yang menjadikan LLM " selamat " dan

boleh dipercayai juga mengurangkan keberkesanannya. Selain itu, alam semula jadi yang tertumpu LLM menimbulkan kebimbangan tentang penumpuan kuasa dan kawalan di tangan beberapa syarikat teknologi besar. Model bahasa kecil(SLM) muncul di tempat kejadianKali ini model bahasa kecil muncul di tempat kejadian SLM ialah versi diperkemas LLM, dengan parameter yang lebih sedikit dan reka bentuk yang lebih ringkas. Masa dan

latihan yang diperlukan oleh mereka adalah lebih singkat, hanya beberapa minit atau jam, manakala LLM mengambil masa beberapa hari. Ini menjadikan penggunaan

SLM pada peranti tempatan atau kecil lebih lebih cekap dan ringkas. Salah satu kelebihan utama SLM ialah ia sesuai untuk aplikasi tertentu persekitaran. Oleh kerana mereka memfokuskan pada skop yang lebih sempit dan memerlukan lebih sedikit data, lebih mudah untuk diperhalusi untuk domain atau model yang lebih besar daripada Penyesuaian ini membolehkan syarikat mencipta SLM yang sangat berkesan untuk keperluan khusus mereka , seperti analisis sentimen

, pengiktirafan entiti bernama atau menjawab soalan khusus domain. Berbanding dengan menggunakan model tujuan umum, ciri khusus SLM boleh

meningkatkan prestasi dan kecekapannya dalam persekitaran aplikasi sasaran ini .

Satu lagi faedah SLM ialah janji privasi dan keselamatan yang dipertingkatkan. Dengan asas kod yang lebih kecil dan seni bina yang lebih ringkas, SLM lebih mudah untuk diaudit dan kurang berkemungkinan untuk memperkenalkan kelemahan yang tidak dijangka. Ini menjadikan mereka menarik untuk aplikasi persekitaran yang mengendalikan data sensitif, seperti dalam penjagaan kesihatan atau kewangan, di mana pelanggaran data boleh membawa kepada akibat yang serius. Selain itu, SLM telah mengurangkan keperluan pengiraan, menjadikannya lebih sesuai untuk dijalankan pada peranti tempatan atau pelayan tempatan daripada bergantung pada infrastruktur awan. Pemprosesan tempatan ini boleh meningkatkan lagi keselamatan data, dan mengurangkan risiko data terdedah semasa penghantaran.

Berbanding dengan

LLM, SLM kurang terdedah kepada halusinasi yang tidak dapat dikesan di kawasan tertentu. SLM lazimnya dilatih menggunakan lebih sempit, set data yang lebih disasarkan yang unik kepada domain atau aplikasi yang dimaksudkan persekitaran, yang membantu model mempelajari corak, perbendaharaan kata yang paling relevan dengan tugas dan maklumatnya. Ini mengurangkan peluang menjana output yang tidak relevan, tidak dijangka atau tidak konsisten. Disebabkan menggunakan parameter yang lebih sedikit dan seni bina yang lebih kurus, SLM kurang terdedah kepada menangkap dan menguatkan bunyi atau ralat dalam data latihan. Clem Delangue, Ketua Pegawai Eksekutif HuggingFace, pemula AI peringkat awal, berkata sehingga 99% kes penggunaan boleh diselesaikan menggunakan SLM, dan meramalkan bahawa 2024 akan menjadi tahun SLM. Platform HuggingFace membolehkan pembangun

membina, melatih dan menggunakan model pembelajaran mesin, dan syarikat itu mengumumkan perkongsian strategik dengan Google awal tahun ini. Kedua-dua syarikat itu kemudiannya menyepadukan HuggingFace ke dalam Vertex AI Google, membolehkan pembangun menggunakan beribu-ribu model dengan pantas melalui

Vertex Model Garden Google. . Peluang SLM. Kembali pada bulan Februari, Google melancarkan Gemma, sebuah keluarga baharu model bahasa kecil yang direka untuk meningkatkan kecekapan dan kemesraan pengguna. Seperti SLM lain, model Gemma boleh dijalankan pada pelbagai peranti biasa, seperti telefon pintar, tablet atau komputer riba, tanpa memerlukan perkakasan khas atau pengoptimuman komprehensif. . Projek yang menarik

. Contohnya, Cerule ialah ciri

model imej dan bahasa berkuasa yang menggabungkan Gemma 2B dan SigLIP Google, dilatih menggunakan set data imej dan teks yang luas. Cerule memanfaatkan teknik pemilihan data yang cekap untuk mencapai prestasi tinggi tanpa memerlukan jumlah data atau pengiraan yang banyak. Ini bermakna Cerule mungkin sesuai untuk kes penggunaan pengkomputeran yang baru muncul. Contoh lain ialah CodeGemma, iaitu versi khusus Gemma yang memfokuskan pada pengekodanpengaturcaraan dan penaakulan matematik. CodeGemma menyediakan tiga model berbeza untuk pelbagai aktiviti berkaitan pengaturcaraan, menjadikan alat pengaturcaraan lanjutan lebih mudah diakses dan banyak lagi cekap untuk pembangun. Potensi

besar Memandangkan komuniti AI terus menerokai potensi pembangunan yang lebih kecil kemampuan kepada Kelebihan seperti menyesuaikan model kepada keperluan khusus semakin ketara. SLM dijangka membawa kos efektif , penyelesaian disasarkan melalui

, mempopularkan AI akses dan memacu inovasi industri Menggunakan SLM di pinggir membawa kemungkinan baharu untuk aplikasi masa nyata dan selamat dalam industri seperti kewangan, hiburan, sistem automotif, pendidikan, e-dagang dan penjagaan kesihatan.

Dengan memproses data secara setempat dan mengurangkan pergantungan pada infrastruktur awan, pengkomputeran tepi digabungkan dengan SLM boleh meningkatkan masa tindak balas, meningkatkan privasi pengguna . Pendekatan AI terpencar ini menjanjikan untuk mengubah cara perniagaan dan pengguna berinteraksi dengan teknologi , mencipta lebih banyak pengalaman intuitif dalam dunia yang lebih nyata Memandangkan LLM menghadapi cabaran yang berkaitan dengan sumber pengkomputeran dan mungkin menghadapi kesesakan prestasi, peningkatan LLM dijangka membolehkan AI ekosistem untuk terus membangun untuk membangunkan astonishing .

Tajuk asal: Mengapa model bahasa kecil adalah perkara besar seterusnya dalam AI, pengarang: James Thomason

Atas ialah kandungan terperinci Mengapakah model bahasa kecil merupakan perkara besar seterusnya dalam dunia AI?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!