Dengan kurang daripada 10 baris kod, keupayaan matematik model besar (GSM8k) boleh dipertingkatkan sebanyak 20%!
Beberapa sarjana bebas telah mencadangkan penambahbaikan kepada pensampelan model besar, yang telah menarik perhatian komuniti sumber terbuka.
Pada masa ini, kaedah ini telah mencapai keputusan pada Mistral-7B, dan ujian pada Llama3-70B juga sedang dijalankan.
Kaedah ini dipanggil pensampelan min-p, yang bertujuan untuk mengimbangi kesepaduan dan kepelbagaian teks yang dihasilkan.
Ringkasnya, ia membolehkan model menggunakan ciri yang berbeza dalam situasi berbeza, seperti mengekalkan prestasi yang stabil dalam isu fakta dan menjadi kreatif dalam senario seperti penulisan.
Pada masa ini, kaedah ini telah mencapai keputusan pada Mistral-7B, dan ujian pada Llama-70B akan bermula.
Dalam kertas kerja, penulis menyebut bahawa kaedah ini telah digunakan secara meluas oleh komuniti sumber terbuka.
Pada masa yang sama, penulis juga mendedahkan bahawa pengeluar model sumber tertutup seperti Anthropic dan Google juga telah menguji atau sedang menguji min-p.
Berita itu juga telah disahkan oleh Google Logan Kilpatrick, ketua komuniti pembangun yang beralih daripada OpenAI kepada Google, telah menjawab "On it".
Abram Jackson, seorang penyelidik di Microsoft Copilot, berkata selepas membacanya bahawa ini adalah peningkatan pertama yang dilihatnya mengenai pensampelan token dalam proses inferens, dan masih terdapat banyak ruang untuk penambahbaikan pada masa hadapan.
Perlu dinyatakan bahawa pengarang utama kajian yang ditonton secara meluas ini, Minh Nhat Nguyen, tidak pernah belajar CS secara sistematik sama sekali, tetapi diajar sendiri.
Dengan bantuan organisasi penyelidikan keselamatan AI yang dipanggil Apart Research, Minh dan ahli pasukan lain menyelesaikan projek itu.
Pelarasan dinamik ambang pensampelan
min-p ialah kaedah pensampelan pemotongan dinamik Terasnya adalah untuk menskalakan ambang kebarangkalian minimum mengikut kebarangkalian maksimum pengedaran token pada setiap langkah.
Tujuan ini adalah untuk mengimbangi keselarasan dan kepelbagaian teks yang dijana, terutamanya dalam keadaan suhu yang lebih tinggi.
Secara khusus, min-p memperkenalkan ambang kebarangkalian asas p_base, yang mewakili keperluan kebarangkalian minimum untuk memasuki kumpulan pensampelan.
Apabila menjana token pada setiap langkah, min-p akan mendarab p_base dengan p_maks kebarangkalian token terbesar dalam taburan kebarangkalian semasa untuk mendapatkan ambang mutlak berskala p_skala.
Hanya token dengan kebarangkalian lebih besar daripada atau sama dengan p_scaled boleh memasuki kumpulan pensampelan.
Apabila kebarangkalian ramalan model untuk token tertentu adalah sangat tinggi (iaitu, p_max adalah sangat besar), nilai p_scaled juga akan menjadi sangat tinggi, menyebabkan kumpulan pensampelan akan berkurangan dengan banyak, dan sebahagian besar rendah- token kebarangkalian ditapis, meninggalkan hanya beberapa dengan keyakinan yang tinggi Pemilihan memastikan ketekalan output
Apabila kebarangkalian ramalan model untuk semua token adalah hampir (p_max lebih rendah), nilai p_scaled juga akan; menjadi lebih rendah dengan sewajarnya, melonggarkan keperluan untuk kumpulan pensampelan, menggabungkan lebih banyak token kebarangkalian sederhana memberikan model lebih ruang untuk menjana kandungan yang lebih pelbagai.
Selepas menentukan kumpulan pensampelan, min-p akan menskalakan taburan kebarangkalian token mengikut suhu.
Ia membahagikan kebarangkalian logaritma token dengan parameter suhu τ, dan selepas normalisasi, taburan kebarangkalian berskala suhu diperolehi.
Nilai τ lebih besar daripada 1 akan menjadikan pengedaran kebarangkalian lebih rata, meningkatkan peluang token berkemungkinan rendah dipilih apabila
τ kurang daripada 1, ia akan menjadikan pengedaran lebih tajam, mengukuhkan kelebihan token berkemungkinan tinggi; .
Akhir sekali, min-p secara rawak memilih token seterusnya daripada kumpulan pensampelan berskala mengikut taburan kebarangkalian yang diselaraskan.
Kestabilan dan kreativiti, "Saya mahu semuanya"
Apakah kesan kaedah min-p? Penulis menggunakan Mistral-7B sebagai model asas untuk ujian Mari kita lihat keputusan mengikut senario.
Dalam tugas inferens, pengarang menggunakan set data GPQA. Apabila suhu ialah 1, anda dapat melihat bahawa min-p mempunyai sedikit kelebihan berbanding atas-p yang lalu.
Apabila suhu meningkat, skor GPQA menunjukkan aliran menurun secara keseluruhan, tetapi boleh diperhatikan bahawa min-p menurun dengan ketara lebih perlahan daripada atas-p.
Arah aliran menurun min-p tidak menjadi jelas sehingga suhu mencapai 3, apabila skor atas-p menghampiri 0.
Dalam erti kata lain, berbanding top-p, min-p lebih baik mengekalkan kestabilan yang diperlukan dalam tugasan inferens.
Tugasan matematik juga perlu mengekalkan prestasi yang stabil Di sini penulis menggunakan set data GSM8K untuk ujian.
Hasilnya ialah skor yang sepadan dengan min-p berkurangan dengan suhu lebih cepat daripada dalam GPQA, tetapi masih lebih perlahan daripada kaedah top-p.
Tugas yang ketiga ialah penulisan kreatif Pada masa ini, keperluan untuk kestabilan tidak begitu tinggi, tetapi modelnya perlu lebih kreatif.
Ujian ini dilakukan menggunakan set data AlpacaEval dan data percubaan diperoleh daripada penilai bebas dalam komuniti sumber terbuka.
Hasil eksperimen menunjukkan bahawa di bawah tetapan suhu=1.5 dan min-p=0.1, prestasi min-p adalah sangat cemerlang dan boleh menjana kandungan penulisan kreatif yang sukar dijana dengan kaedah top-p.
Di bawah parameter ini, teks yang diperoleh melalui kaedah min-p mencapai kadar keutamaan penghakiman manusia sebanyak 58.12%, yang jauh lebih tinggi daripada prestasi kaedah lain di bawah tetapan yang serupa.
Alamat kertas:
https://arxiv.org/abs/2407.01082
GitHub:
https://github.com/menhguin/minp_paper
pautanhttps://
x.com/menhguin/status/1826132708508213629Atas ialah kandungan terperinci 10 baris kod meningkatkan matematik model besar sebanyak 20%. Penyelidikan tentang 'Yeluzi' juga telah diuji oleh Google.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!