10 baris kod meningkatkan matematik model besar sebanyak 20%. Penyelidikan tentang 'Yeluzi' juga telah diuji oleh Google.

WBOY
Lepaskan: 2024-08-27 15:31:33
asal
830 orang telah melayarinya

Dengan kurang daripada 10 baris kod, keupayaan matematik model besar (GSM8k) boleh dipertingkatkan sebanyak 20%!

Beberapa sarjana bebas telah mencadangkan penambahbaikan kepada pensampelan model besar, yang telah menarik perhatian komuniti sumber terbuka.

Pada masa ini, kaedah ini telah mencapai keputusan pada Mistral-7B, dan ujian pada Llama3-70B juga sedang dijalankan.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Kaedah ini dipanggil pensampelan min-p, yang bertujuan untuk mengimbangi kesepaduan dan kepelbagaian teks yang dihasilkan.

Ringkasnya, ia membolehkan model menggunakan ciri yang berbeza dalam situasi berbeza, seperti mengekalkan prestasi yang stabil dalam isu fakta dan menjadi kreatif dalam senario seperti penulisan.

Pada masa ini, kaedah ini telah mencapai keputusan pada Mistral-7B, dan ujian pada Llama-70B akan bermula.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Dalam kertas kerja, penulis menyebut bahawa kaedah ini telah digunakan secara meluas oleh komuniti sumber terbuka.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Pada masa yang sama, penulis juga mendedahkan bahawa pengeluar model sumber tertutup seperti Anthropic dan Google juga telah menguji atau sedang menguji min-p.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Berita itu juga telah disahkan oleh Google Logan Kilpatrick, ketua komuniti pembangun yang beralih daripada OpenAI kepada Google, telah menjawab "On it".

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Abram Jackson, seorang penyelidik di Microsoft Copilot, berkata selepas membacanya bahawa ini adalah peningkatan pertama yang dilihatnya mengenai pensampelan token dalam proses inferens, dan masih terdapat banyak ruang untuk penambahbaikan pada masa hadapan.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Perlu dinyatakan bahawa pengarang utama kajian yang ditonton secara meluas ini, Minh Nhat Nguyen, tidak pernah belajar CS secara sistematik sama sekali, tetapi diajar sendiri.

Dengan bantuan organisasi penyelidikan keselamatan AI yang dipanggil Apart Research, Minh dan ahli pasukan lain menyelesaikan projek itu.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Pelarasan dinamik ambang pensampelan

min-p ialah kaedah pensampelan pemotongan dinamik Terasnya adalah untuk menskalakan ambang kebarangkalian minimum mengikut kebarangkalian maksimum pengedaran token pada setiap langkah.

Tujuan ini adalah untuk mengimbangi keselarasan dan kepelbagaian teks yang dijana, terutamanya dalam keadaan suhu yang lebih tinggi.

Secara khusus, min-p memperkenalkan ambang kebarangkalian asas p_base, yang mewakili keperluan kebarangkalian minimum untuk memasuki kumpulan pensampelan.

Apabila menjana token pada setiap langkah, min-p akan mendarab p_base dengan p_maks kebarangkalian token terbesar dalam taburan kebarangkalian semasa untuk mendapatkan ambang mutlak berskala p_skala.

Hanya token dengan kebarangkalian lebih besar daripada atau sama dengan p_scaled boleh memasuki kumpulan pensampelan.

Apabila kebarangkalian ramalan model untuk token tertentu adalah sangat tinggi (iaitu, p_max adalah sangat besar), nilai p_scaled juga akan menjadi sangat tinggi, menyebabkan kumpulan pensampelan akan berkurangan dengan banyak, dan sebahagian besar rendah- token kebarangkalian ditapis, meninggalkan hanya beberapa dengan keyakinan yang tinggi Pemilihan memastikan ketekalan output

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Apabila kebarangkalian ramalan model untuk semua token adalah hampir (p_max lebih rendah), nilai p_scaled juga akan; menjadi lebih rendah dengan sewajarnya, melonggarkan keperluan untuk kumpulan pensampelan, menggabungkan lebih banyak token kebarangkalian sederhana memberikan model lebih ruang untuk menjana kandungan yang lebih pelbagai.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Selepas menentukan kumpulan pensampelan, min-p akan menskalakan taburan kebarangkalian token mengikut suhu.

Ia membahagikan kebarangkalian logaritma token dengan parameter suhu τ, dan selepas normalisasi, taburan kebarangkalian berskala suhu diperolehi.

Nilai τ lebih besar daripada 1 akan menjadikan pengedaran kebarangkalian lebih rata, meningkatkan peluang token berkemungkinan rendah dipilih apabila

τ kurang daripada 1, ia akan menjadikan pengedaran lebih tajam, mengukuhkan kelebihan token berkemungkinan tinggi; .

Akhir sekali, min-p secara rawak memilih token seterusnya daripada kumpulan pensampelan berskala mengikut taburan kebarangkalian yang diselaraskan.

Kestabilan dan kreativiti, "Saya mahu semuanya"

Apakah kesan kaedah min-p? Penulis menggunakan Mistral-7B sebagai model asas untuk ujian Mari kita lihat keputusan mengikut senario.

Dalam tugas inferens, pengarang menggunakan set data GPQA. Apabila suhu ialah 1, anda dapat melihat bahawa min-p mempunyai sedikit kelebihan berbanding atas-p yang lalu.

Apabila suhu meningkat, skor GPQA menunjukkan aliran menurun secara keseluruhan, tetapi boleh diperhatikan bahawa min-p menurun dengan ketara lebih perlahan daripada atas-p.

Arah aliran menurun min-p tidak menjadi jelas sehingga suhu mencapai 3, apabila skor atas-p menghampiri 0.

Dalam erti kata lain, berbanding top-p, min-p lebih baik mengekalkan kestabilan yang diperlukan dalam tugasan inferens.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Tugasan matematik juga perlu mengekalkan prestasi yang stabil Di sini penulis menggunakan set data GSM8K untuk ujian.

Hasilnya ialah skor yang sepadan dengan min-p berkurangan dengan suhu lebih cepat daripada dalam GPQA, tetapi masih lebih perlahan daripada kaedah top-p.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Tugas yang ketiga ialah penulisan kreatif Pada masa ini, keperluan untuk kestabilan tidak begitu tinggi, tetapi modelnya perlu lebih kreatif.

Ujian ini dilakukan menggunakan set data AlpacaEval dan data percubaan diperoleh daripada penilai bebas dalam komuniti sumber terbuka.

Hasil eksperimen menunjukkan bahawa di bawah tetapan suhu=1.5 dan min-p=0.1, prestasi min-p adalah sangat cemerlang dan boleh menjana kandungan penulisan kreatif yang sukar dijana dengan kaedah top-p.

Di bawah parameter ini, teks yang diperoleh melalui kaedah min-p mencapai kadar keutamaan penghakiman manusia sebanyak 58.12%, yang jauh lebih tinggi daripada prestasi kaedah lain di bawah tetapan yang serupa.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Alamat kertas:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menhguin/minp_paper

pautan

https://

x.com/menhguin/status/1826132708508213629

Atas ialah kandungan terperinci 10 baris kod meningkatkan matematik model besar sebanyak 20%. Penyelidikan tentang 'Yeluzi' juga telah diuji oleh Google.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:myzaker.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!