Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar-AI-php.cn

Jadual Kandungan

1. Soalan klasik - Ayam dan arnab dalam sangkar yang sama

Untuk meningkatkan keupayaan penaakulan ke hadapan dan belakang model, penyelidik dari Cambridge, Universiti Sains dan Teknologi Hong Kong dan Huawei mencadangkan set data MetaMathQA berdasarkan dua set data matematik yang biasa digunakan (GSM8K dan MATH) : satu dengan liputan luas dan set data penaakulan matematik berkualiti tinggi. MetaMathQA terdiri daripada 395K pasangan soalan matematik songsang hadapan yang dijana oleh model bahasa yang besar. Mereka memperhalusi LLaMA-2 pada set data MetaMathQA untuk mendapatkan MetaMath, model bahasa besar yang memfokuskan pada penaakulan matematik (ke hadapan dan songsang), yang mencapai SOTA pada set data penaakulan matematik. Dataset MetaMathQA dan model MetaMath pada skala yang berbeza telah dibuka sumbernya untuk digunakan oleh penyelidik.

Rumah

Peranti teknologi

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 11, 2023 pm 04:13 PM

ai Model

Penaakulan matematik yang kompleks ialah penunjuk penting untuk menilai keupayaan penaakulan model bahasa besar Pada masa ini, set data penaakulan matematik yang biasa digunakan mempunyai saiz sampel yang terhad dan kepelbagaian masalah yang tidak mencukupi, mengakibatkan fenomena "pembalikan laknat" secara besar-besaran. model bahasa, iaitu model yang dilatih mengenai "A Model bahasa "ialah B" tidak boleh digeneralisasikan kepada "B ialah A" [1]. Bentuk khusus fenomena ini dalam tugasan penaakulan matematik ialah: memandangkan masalah matematik, model bahasa pandai menggunakan penaakulan hadapan untuk menyelesaikan masalah tetapi tidak mempunyai keupayaan untuk menyelesaikan masalah dengan penaakulan songsang. Penaakulan songsang adalah sangat biasa dalam masalah matematik, seperti yang ditunjukkan dalam 2 contoh berikut.

1. Soalan klasik - Ayam dan arnab dalam sangkar yang sama

Alasan ke hadapan: Terdapat 23 ekor ayam dan 12 ekor arnab di dalam sangkar itu? . Berapakah bilangan ayam dan arnab di dalam sangkar?
2. : James membeli x pek daging lembu sebanyak 4 paun Harga daging lembu ialah $5.50 sekilo

Untuk meningkatkan keupayaan penaakulan ke hadapan dan belakang model, penyelidik dari Cambridge, Universiti Sains dan Teknologi Hong Kong dan Huawei mencadangkan set data MetaMathQA berdasarkan dua set data matematik yang biasa digunakan (GSM8K dan MATH) : satu dengan liputan luas dan set data penaakulan matematik berkualiti tinggi. MetaMathQA terdiri daripada 395K pasangan soalan matematik songsang hadapan yang dijana oleh model bahasa yang besar. Mereka memperhalusi LLaMA-2 pada set data MetaMathQA untuk mendapatkan MetaMath, model bahasa besar yang memfokuskan pada penaakulan matematik (ke hadapan dan songsang), yang mencapai SOTA pada set data penaakulan matematik. Dataset MetaMathQA dan model MetaMath pada skala yang berbeza telah dibuka sumbernya untuk digunakan oleh penyelidik.

Alamat projek: https://meta-math.github.io/

Alamat kertas: https://arxiv.org/abs/2309.12284

: https

: alamat //huggingface.co/datasets/meta-math/MetaMathQA

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Dalam set data GSM8K-Backward, kami membina percubaan inferens songsang. Keputusan eksperimen menunjukkan bahawa berbanding dengan kaedah seperti SFT, RFT dan WizardMath, kaedah semasa berprestasi buruk pada masalah inferens songsang. Sebaliknya, model MetaMath mencapai prestasi cemerlang dalam kedua-dua inferens ke hadapan dan songsang
Kaedah

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar Kaedah

MetaMathQGA mengandungi empat kaedah pengukuhan 1. Pembesaran Jawapan:

Soalan: James membeli 5 bungkus daging lembu sebanyak 4 paun setiap satu Harga daging lembu ialah $5.50 sekilo? setiap satu, jadi dia membeli sejumlah 5 * 4 = 20 paun daging lembu adalah $5.50 setiap paun, jadi dia membayar 20 * $5.50 = $110.

2 Soalan (peningkatan penulisan semula soalan): Diberi meta-soalan, tulis semula soalan melalui model bahasa yang besar dan jana rantai pemikiran yang mendapat hasil yang betul sebagai penambahan data.

Soalan: Berapakah jumlah yang James bayar apabila dia membeli 5 pek daging lembu, setiap satu seberat 4 paun, pada harga $5.50 setiap paun?
Jawapan: Setiap pek daging lembu seberat 4 paun, jadi 5 pek berat 4 * 5 = 20 paun jumlah harga setiap paun daging lembu ialah $5.50, jadi jumlah kos untuk 20 paun ialah 20 * $5.50 = $110. Oleh itu, James membayar sejumlah $110.

3. Soalan FOBAR (Peningkatan Soalan Songsang FOBAR): Diberi meta-soalan, nombor dalam keadaan topeng ialah x, diberi jawapan asal dan songsang x untuk menghasilkan soalan songsang, dan berdasarkan kepada Masalah songsang ini menjana rantaian pemikiran yang betul untuk melakukan penambahan data (contoh penyongsangan: "Jika kita tahu jawapan kepada soalan di atas ialah 110, apakah nilai pembolehubah x yang tidak diketahui?").

question: James membeli x pek daging lembu yang masing -masing 4 paun. pembolehubah yang tidak diketahui x?
Jawapan: James membeli x pek daging lembu yang 4 paun setiap satu, jadi dia membeli sejumlah 4x paun daging lembu Harga daging lembu ialah $5.50 setiap paun, jadi jumlah kos daging lembu itu ialah 5.50 * 4x = 22x Kami diberi bahawa jumlah kos ialah $110, jadi kita boleh menulis: 22x = 110. Membahagikan kedua-dua belah dengan 22, kita dapat: x = 5. Nilai x ialah 5.

4. Soalan Pengesahan Kendiri (Peningkatan soalan songsang Pengesahan Kendiri): Berdasarkan FOBAR, bahagian soalan songsang ditulis semula sebagai pernyataan yang dinyatakan melalui model bahasa yang besar untuk melakukan penambahan data (contoh yang ditulis semula: "Berapa banyak adakah dia membayar?” (dengan jawapan 110) ditulis semula sebagai “Dia membayar 110”). . masalah, kita perlu menentukan nilai x, yang mewakili bilangan pek daging lembu yang dibeli oleh James Setiap pek daging lembu seberat 4 paun dan berharga $5.50 setiap paun Jumlah yang dibayar oleh James ialah $110 seperti berikut: Bilangan pek daging lembu * Berat setiap pek * Harga setiap paun = Jumlah amaun yang dibayar; kita bahagikan kedua-dua belah persamaan dengan 22: 22x / 22 = $110 / 22 Nilai x ialah 5. Keputusan eksperimen pada set data penaakulan matematik (GSM8K dan MATH) menunjukkan bahawa MetaMath jauh lebih baik daripada yang sedia ada; model LLM sumber terbuka dalam prestasi, dan tidak memerlukan penggunaan alat luaran (seperti jurubahasa kod). Antaranya, model MetaMath-7B kami mencapai ketepatan 66.5% pada GSM8K dan 19.8% pada MATH, iaitu 11.6% dan 9.1% lebih tinggi daripada model terkini skala yang sama. Perlu dinyatakan secara khusus bahawa MetaMath-70B mencapai ketepatan 82.3% pada GSM8K, melebihi GPT-3.5-Turbo

Menurut "Hipotesis Penjajaran Permukaan" [2], keupayaan model bahasa besar datang dari pra- latihan, manakala data daripada tugasan hiliran mengaktifkan keupayaan sedia ada model bahasa yang dipelajari semasa pra-latihan. Oleh itu, ini menimbulkan dua persoalan penting: (i) jenis data yang manakah mengaktifkan pengetahuan terpendam dengan paling berkesan, dan (ii) mengapa satu set data lebih baik pada pengaktifan sedemikian daripada yang lain?
Mengapa MetaMathQA berguna? Meningkatkan kualiti (Perplexity) data rantai pemikiran

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Seperti yang ditunjukkan dalam rajah di atas, penyelidik mengira model LLaMA-2-7B dalam setiap bahagian data jawapan sahaja, GSM8K CoT dan data MetaMathQA menetapkan tahap kekeliruan. Kekeliruan set data MetaMathQA adalah jauh lebih rendah daripada dua set data lain, yang menunjukkan bahawa ia mempunyai kebolehpelajaran yang lebih tinggi dan mungkin lebih membantu dalam mendedahkan pengetahuan terpendam model

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Mengapa MetaMathQA berguna? Meningkatkan kepelbagaian data rantaian pemikiran

Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar

Dengan membandingkan keuntungan kepelbagaian data dan keuntungan ketepatan model, penyelidik mendapati bahawa pengenalan perumusan semula, FOBAR dan SV meningkat sebanyak jumlah yang sama Pelbagai data telah membawa keuntungan kepelbagaian yang ketara dan meningkatkan ketepatan model dengan ketara. Sebaliknya, menggunakan penambahan jawapan sahaja menghasilkan ketepuan ketepatan yang ketara. Selepas ketepatan mencapai ketepuan, menambah data AnsAug hanya akan membawa peningkatan prestasi terhad

Atas ialah kandungan terperinci Pemikiran terbalik: Model bahasa penaakulan matematik baharu MetaMath melatih model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7510

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Apr 13, 2025 am 09:06 AM

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Cara Mengoptimumkan Prestasi Debian Readdir Apr 13, 2025 am 08:48 AM

Dalam sistem Debian, panggilan sistem Readdir digunakan untuk membaca kandungan direktori. Jika prestasinya tidak baik, cuba strategi pengoptimuman berikut: Memudahkan bilangan fail direktori: Split direktori besar ke dalam pelbagai direktori kecil sebanyak mungkin, mengurangkan bilangan item yang diproses setiap panggilan readdir. Dayakan Caching Kandungan Direktori: Bina mekanisme cache, kemas kini cache secara teratur atau apabila kandungan direktori berubah, dan mengurangkan panggilan kerap ke Readdir. Cafh memori (seperti memcached atau redis) atau cache tempatan (seperti fail atau pangkalan data) boleh dipertimbangkan. Mengamalkan struktur data yang cekap: Sekiranya anda melaksanakan traversal direktori sendiri, pilih struktur data yang lebih cekap (seperti jadual hash dan bukannya carian linear) untuk menyimpan dan mengakses maklumat direktori

Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Apr 13, 2025 am 09:42 AM

Fungsi Readdir dalam sistem Debian adalah panggilan sistem yang digunakan untuk membaca kandungan direktori dan sering digunakan dalam pengaturcaraan C. Artikel ini akan menerangkan cara mengintegrasikan Readdir dengan alat lain untuk meningkatkan fungsinya. Kaedah 1: Menggabungkan Program Bahasa C dan Pipeline Pertama, tulis program C untuk memanggil fungsi Readdir dan output hasilnya:#termasuk#termasuk#includeintMain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Petua Konfigurasi Firewall Pelayan Mel Debian Apr 13, 2025 am 11:42 AM

Mengkonfigurasi firewall pelayan Mail Debian adalah langkah penting dalam memastikan keselamatan pelayan. Berikut adalah beberapa kaedah konfigurasi firewall yang biasa digunakan, termasuk penggunaan iptables dan firewalld. Gunakan iptables untuk mengkonfigurasi firewall untuk memasang iptables (jika belum dipasang): sudoapt-getupdateudoapt-getinstalliplesview peraturan iptables semasa: konfigurasi sudoiptable-l

Cara Belajar Debian Syslog Apr 13, 2025 am 11:51 AM

Panduan ini akan membimbing anda untuk belajar cara menggunakan syslog dalam sistem Debian. SYSLOG adalah perkhidmatan utama dalam sistem Linux untuk sistem pembalakan dan mesej log aplikasi. Ia membantu pentadbir memantau dan menganalisis aktiviti sistem untuk mengenal pasti dan menyelesaikan masalah dengan cepat. 1. Pengetahuan asas syslog Fungsi teras syslog termasuk: mengumpul dan menguruskan mesej log secara terpusat; menyokong pelbagai format output log dan lokasi sasaran (seperti fail atau rangkaian); Menyediakan fungsi tontonan log dan penapisan masa nyata. 2. Pasang dan konfigurasikan syslog (menggunakan rsyslog) Sistem Debian menggunakan rsyslog secara lalai. Anda boleh memasangnya dengan arahan berikut: sudoaptupdatesud

Cara Mengkonfigurasi Peraturan Firewall Untuk Debian Syslog Apr 13, 2025 am 06:51 AM

Artikel ini menerangkan cara mengkonfigurasi peraturan firewall menggunakan iptables atau UFW dalam sistem debian dan menggunakan syslog untuk merakam aktiviti firewall. Kaedah 1: Gunakan IPTableSiptable adalah alat firewall baris perintah yang kuat dalam sistem Debian. Lihat peraturan yang ada: Gunakan arahan berikut untuk melihat peraturan iptables semasa: sudoiptables-l-n-v membolehkan akses IP tertentu: sebagai contoh, membenarkan alamat IP 192.168.1.100 untuk mengakses port 80: sudoiptables-ainput-pTCP-Dport80-S192.16

Cara Menetapkan Tahap Log Debian Apache Apr 13, 2025 am 08:33 AM

Artikel ini menerangkan cara menyesuaikan tahap pembalakan pelayan Apacheweb dalam sistem Debian. Dengan mengubah suai fail konfigurasi, anda boleh mengawal tahap maklumat log yang direkodkan oleh Apache. Kaedah 1: Ubah suai fail konfigurasi utama untuk mencari fail konfigurasi: Fail konfigurasi apache2.x biasanya terletak di direktori/etc/apache2/direktori. Nama fail mungkin apache2.conf atau httpd.conf, bergantung pada kaedah pemasangan anda. Edit Fail Konfigurasi: Buka Fail Konfigurasi dengan Kebenaran Root Menggunakan Editor Teks (seperti Nano): Sudonano/ETC/APACHE2/APACHE2.CONF

Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Apr 13, 2025 am 10:30 AM

Dalam sistem Debian, OpenSSL adalah perpustakaan penting untuk pengurusan penyulitan, penyahsulitan dan sijil. Untuk mengelakkan serangan lelaki-dalam-pertengahan (MITM), langkah-langkah berikut boleh diambil: Gunakan HTTPS: Pastikan semua permintaan rangkaian menggunakan protokol HTTPS dan bukannya HTTP. HTTPS menggunakan TLS (Protokol Keselamatan Lapisan Pengangkutan) untuk menyulitkan data komunikasi untuk memastikan data tidak dicuri atau diganggu semasa penghantaran. Sahkan Sijil Pelayan: Sahkan secara manual Sijil Pelayan pada klien untuk memastikan ia boleh dipercayai. Pelayan boleh disahkan secara manual melalui kaedah perwakilan urlSession

See all articles