Rumah > Peranti teknologi > AI > Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

WBOY
Lepaskan: 2023-10-11 16:13:01
ke hadapan
993 orang telah melayarinya

Penaakulan matematik yang kompleks ialah penunjuk penting untuk menilai keupayaan penaakulan model bahasa besar Pada masa ini, set data penaakulan matematik yang biasa digunakan mempunyai saiz sampel yang terhad dan kepelbagaian masalah yang tidak mencukupi, mengakibatkan fenomena "pembalikan laknat" secara besar-besaran. model bahasa, iaitu model yang dilatih mengenai "A Model bahasa "ialah B" tidak boleh digeneralisasikan kepada "B ialah A" [1]. Bentuk khusus fenomena ini dalam tugasan penaakulan matematik ialah: memandangkan masalah matematik, model bahasa pandai menggunakan penaakulan hadapan untuk menyelesaikan masalah tetapi tidak mempunyai keupayaan untuk menyelesaikan masalah dengan penaakulan songsang. Penaakulan songsang adalah sangat biasa dalam masalah matematik, seperti yang ditunjukkan dalam 2 contoh berikut.

1. Soalan klasik - Ayam dan arnab dalam sangkar yang sama

  • Alasan ke hadapan: Terdapat 23 ekor ayam dan 12 ekor arnab di dalam sangkar itu? . Berapakah bilangan ayam dan arnab di dalam sangkar?
  • 2. : James membeli x pek daging lembu sebanyak 4 paun Harga daging lembu ialah $5.50 sekilo

Untuk meningkatkan keupayaan penaakulan ke hadapan dan belakang model, penyelidik dari Cambridge, Universiti Sains dan Teknologi Hong Kong dan Huawei mencadangkan set data MetaMathQA berdasarkan dua set data matematik yang biasa digunakan (GSM8K dan MATH) : satu dengan liputan luas dan set data penaakulan matematik berkualiti tinggi. MetaMathQA terdiri daripada 395K pasangan soalan matematik songsang hadapan yang dijana oleh model bahasa yang besar. Mereka memperhalusi LLaMA-2 pada set data MetaMathQA untuk mendapatkan MetaMath, model bahasa besar yang memfokuskan pada penaakulan matematik (ke hadapan dan songsang), yang mencapai SOTA pada set data penaakulan matematik. Dataset MetaMathQA dan model MetaMath pada skala yang berbeza telah dibuka sumbernya untuk digunakan oleh penyelidik.

  • Alamat projek: https://meta-math.github.io/
Alamat kertas: https://arxiv.org/abs/2309.12284

: https

: alamat //huggingface.co/datasets/meta-math/MetaMathQA

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

    Alamat model: https://huggingface.co/meta-math
  • Alamat kod: https://github.com/meta-math/ MetaMath
  • Dalam set data GSM8K-Backward, kami membina percubaan inferens songsang. Keputusan eksperimen menunjukkan bahawa berbanding dengan kaedah seperti SFT, RFT dan WizardMath, kaedah semasa berprestasi buruk pada masalah inferens songsang. Sebaliknya, model MetaMath mencapai prestasi cemerlang dalam kedua-dua inferens ke hadapan dan songsang
  • Kaedah

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besarKaedah

MetaMathQGA mengandungi empat kaedah pengukuhan 1. Pembesaran Jawapan:

    Diberikan soalan, rantaian pemikiran yang boleh mendapatkan hasil yang betul dijana melalui model bahasa yang besar sebagai penambahan data.
  • Soalan: James membeli 5 bungkus daging lembu sebanyak 4 paun setiap satu Harga daging lembu ialah $5.50 sekilo? setiap satu, jadi dia membeli sejumlah 5 * 4 = 20 paun daging lembu adalah $5.50 setiap paun, jadi dia membayar 20 * $5.50 = $110.

2 Soalan (peningkatan penulisan semula soalan): Diberi meta-soalan, tulis semula soalan melalui model bahasa yang besar dan jana rantai pemikiran yang mendapat hasil yang betul sebagai penambahan data.

  • Soalan: Berapakah jumlah yang James bayar apabila dia membeli 5 pek daging lembu, setiap satu seberat 4 paun, pada harga $5.50 setiap paun?
  • Jawapan: Setiap pek daging lembu seberat 4 paun, jadi 5 pek berat 4 * 5 = 20 paun jumlah harga setiap paun daging lembu ialah $5.50, jadi jumlah kos untuk 20 paun ialah 20 * $5.50 = $110. Oleh itu, James membayar sejumlah $110.

3. Soalan FOBAR (Peningkatan Soalan Songsang FOBAR): Diberi meta-soalan, nombor dalam keadaan topeng ialah x, diberi jawapan asal dan songsang x untuk menghasilkan soalan songsang, dan berdasarkan kepada Masalah songsang ini menjana rantaian pemikiran yang betul untuk melakukan penambahan data (contoh penyongsangan: "Jika kita tahu jawapan kepada soalan di atas ialah 110, apakah nilai pembolehubah x yang tidak diketahui?").

  • question: James membeli x pek daging lembu yang masing -masing 4 paun. pembolehubah yang tidak diketahui x?
  • Jawapan: James membeli x pek daging lembu yang 4 paun setiap satu, jadi dia membeli sejumlah 4x paun daging lembu Harga daging lembu ialah $5.50 setiap paun, jadi jumlah kos daging lembu itu ialah 5.50 * 4x = 22x Kami diberi bahawa jumlah kos ialah $110, jadi kita boleh menulis: 22x = 110. Membahagikan kedua-dua belah dengan 22, kita dapat: x = 5. Nilai x ialah 5.

4. Soalan Pengesahan Kendiri (Peningkatan soalan songsang Pengesahan Kendiri): Berdasarkan FOBAR, bahagian soalan songsang ditulis semula sebagai pernyataan yang dinyatakan melalui model bahasa yang besar untuk melakukan penambahan data (contoh yang ditulis semula: "Berapa banyak adakah dia membayar?” (dengan jawapan 110) ditulis semula sebagai “Dia membayar 110”). . masalah, kita perlu menentukan nilai x, yang mewakili bilangan pek daging lembu yang dibeli oleh James Setiap pek daging lembu seberat 4 paun dan berharga $5.50 setiap paun Jumlah yang dibayar oleh James ialah $110 seperti berikut: Bilangan pek daging lembu * Berat setiap pek * Harga setiap paun = Jumlah amaun yang dibayar; kita bahagikan kedua-dua belah persamaan dengan 22: 22x / 22 = $110 / 22 Nilai x ialah 5. Keputusan eksperimen pada set data penaakulan matematik (GSM8K dan MATH) menunjukkan bahawa MetaMath jauh lebih baik daripada yang sedia ada; model LLM sumber terbuka dalam prestasi, dan tidak memerlukan penggunaan alat luaran (seperti jurubahasa kod). Antaranya, model MetaMath-7B kami mencapai ketepatan 66.5% pada GSM8K dan 19.8% pada MATH, iaitu 11.6% dan 9.1% lebih tinggi daripada model terkini skala yang sama. Perlu dinyatakan secara khusus bahawa MetaMath-70B mencapai ketepatan 82.3% pada GSM8K, melebihi GPT-3.5-Turbo

  • Menurut "Hipotesis Penjajaran Permukaan" [2], keupayaan model bahasa besar datang dari pra- latihan, manakala data daripada tugasan hiliran mengaktifkan keupayaan sedia ada model bahasa yang dipelajari semasa pra-latihan. Oleh itu, ini menimbulkan dua persoalan penting: (i) jenis data yang manakah mengaktifkan pengetahuan terpendam dengan paling berkesan, dan (ii) mengapa satu set data lebih baik pada pengaktifan sedemikian daripada yang lain?
  • Mengapa MetaMathQA berguna? Meningkatkan kualiti (Perplexity) data rantai pemikiran

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Seperti yang ditunjukkan dalam rajah di atas, penyelidik mengira model LLaMA-2-7B dalam setiap bahagian data jawapan sahaja, GSM8K CoT dan data MetaMathQA menetapkan tahap kekeliruan. Kekeliruan set data MetaMathQA adalah jauh lebih rendah daripada dua set data lain, yang menunjukkan bahawa ia mempunyai kebolehpelajaran yang lebih tinggi dan mungkin lebih membantu dalam mendedahkan pengetahuan terpendam model

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Mengapa MetaMathQA berguna? Meningkatkan kepelbagaian data rantaian pemikiran

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Dengan membandingkan keuntungan kepelbagaian data dan keuntungan ketepatan model, penyelidik mendapati bahawa pengenalan perumusan semula, FOBAR dan SV meningkat sebanyak jumlah yang sama Pelbagai data telah membawa keuntungan kepelbagaian yang ketara dan meningkatkan ketepatan model dengan ketara. Sebaliknya, menggunakan penambahan jawapan sahaja menghasilkan ketepuan ketepatan yang ketara. Selepas ketepatan mencapai ketepuan, menambah data AnsAug hanya akan membawa peningkatan prestasi terhad

Atas ialah kandungan terperinci Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan