Rumah > Peranti teknologi > AI > teks badan

ICLR 2024 Spotlight |. Tidak perlu risau tentang langkah perantaraan, MUSTARD boleh menjana data inferens matematik berkualiti tinggi

王林
Lepaskan: 2024-07-12 16:07:14
asal
927 orang telah melayarinya
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mencapai kemajuan besar dalam tugasan seperti masalah aplikasi matematik dan pembuktian teorem matematik. Penaakulan matematik memerlukan proses penaakulan pelbagai langkah yang ketat dan formal dan oleh itu merupakan peristiwa penting dalam kemajuan keupayaan penaakulan LLM, tetapi ia masih menghadapi cabaran penting.

Kerja penyelidikan terdahulu, seperti Chain of Thoughts (CoT), mendedahkan keberkesanan langkah perantaraanbimbingan. Walau bagaimanapun, menganotasi langkah perantaraan sedemikian secara manual memerlukan banyak tenaga kerja dan kos masa, dan data yang disintesis secara automatik juga terdedah kepada masalah dalam ketepatan dan kebolehbacaan manusia.

Dalam artikel ini, penyelidik dari City University of Hong Kong, Sun Yat-sen University, Huawei Noah's Ark Laboratory dan institusi lain mencadangkan rangka kerja sintesis data penaakulan matematik bersatuMUSTARD, yang boleh menjana sejumlah besar yang betul dan manusia Data penaakulan matematik berkualiti tinggi yang boleh dibaca dan difahami.
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据
  • Tajuk kertas: MUSTARD: Menguasai Sintesis Seragam Teorem dan Data Bukti
  • Pautan kertas: https://openreview.net/forum?id=8xliOUg9EW
  • pautan // /github.com/Eleanor-H/MUSTARD
  • Pautan set data: https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
  • halaman utama pengarang
  • - h.github.io/

Rangka kerja sintesis data berkualiti tinggi menggunakan prover formal

1 rangka kerja MUSTARD terdiri daripada tiga fasa:
Pha
Pemerolehan konsep
: Pertama, perpustakaan konsep matematik ditakrifkan dan diwujudkan, meliputi konsep dalam empat peringkat pendidikan sekolah rendah, sekolah menengah rendah, sekolah menengah dan pendidikan tinggi Setiap peringkat pendidikan mempunyai 5 hingga 9 bidang matematik, meliputi pelbagai jenis masalah matematik seperti sebagai algebra dan geometri. Setiap kawasan mengandungi pecahan konsep matematik, seperti operasi polinomial atau pemfaktoran. Kemudian satu atau lebih konsep matematik diekstrak daripada perpustakaan konsep matematik sebagai benih untuk menentukan kategori soalan yang dihasilkan.
Peringkat kedua,
penjanaan data
: Mendorong model bahasa besar untuk menjana masalah matematik dan proses penyelesaian pelbagai langkah berdasarkan konsep matematik. Secara khusus, MUSTARD memanfaatkan keupayaan model bahasa besar untuk menjana bahasa dan kod semula jadi, mendorong model bahasa besar untuk menyelesaikan tiga tugas: (T1) Menjana masalah matematik yang berkaitan dengan konsep yang diberikan (T2) Memberi penyelesaian kepada masalah dalam bahasa semula jadi; (T3) Pemformalisasi automatik, menukar penyelesaian bahasa semula jadi kepada penyelesaian formal Lean 3.
Peringkat ketiga,
Pengesahan rasmi
: Gunakan pengesahan prover teorem formal interaktif untuk menapis proses penyelesaian yang tepat. Selepas MUSTARD menyampaikan penyelesaian rasmi Lean 3 kepada pengesah formal Lean, jika prover teorem tidak mengembalikan maklumat ralat, data yang sepadan akan dikumpulkan ke dalam set yang sah. Jika tidak, MUSTARD mengumpul mesej ralat daripada prover teorem dan menggesa model bahasa untuk mengubah suai penyelesaian formal. MUSTARD melakukan beberapa pusingan pengesahan dan pembetulan diri sehingga penyelesaian rasmi yang sah diperolehi. Rangka kerja MUSTARD terdiri daripada tiga peringkat: pengumpulan konsep, penjanaan data dan pengesahan rasmi.

Penilaian manusia terhadap kualiti data

Untuk meneroka kualiti data yang dijana oleh MUSTARD, pasukan penyelidik meminta profesional yang menguasai bahasa matematik dan Lean yang berkualiti. pada data. Mereka memilih 200 item secara rawak daripada data yang dijana, yang mana 100 item melepasi pengesahan teorem Lean prover (kumpulan sah) dan 100 item tidak melepasi pengesahan (kumpulan tidak sah). Semakan kualiti meliputi empat bahagian setiap bahagian data (iaitu, huraian masalah bahasa semula jadi, penyelesaian bahasa semula jadi, huraian masalah formal dan penyelesaian formal), termasuk pemeriksaan untuk ketepatan dan ketekalan. Khususnya, data berkualiti tinggi harus mempunyai huraian masalah bahasa semula jadi yang betul (D1) dan penyelesaian masalah yang betul (D4). Huraian dan penyelesaian masalah formal hendaklah konsisten dengan huraian dan penyelesaian masalah bahasa semula jadi (D5, D6). Di samping itu, data hendaklah mematuhi konsep matematik yang ditentukan (D2) dan jenis masalah (D3). Jadual 3 menunjukkan enam dimensi dan keperluan pemeriksaan ini. Jika data memenuhi keperluan, ia mendapat skor 1 dalam dimensi, jika tidak, ia mendapat skor 0.
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据
Jadual 3 menunjukkan ketepatan dan nilai p yang sepadan bagi kumpulan berkesan dan kumpulan tidak sah dalam setiap dimensi. Perbezaan ketara antara (D1) dan (D4) menggambarkan ketepatan soalan dan jawapan yang dijana oleh MUSTARD. Perbezaan ketara dalam (D6) menunjukkan ketekalan yang tinggi antara huraian bahasa semula jadi dan huraian formal data yang dihasilkan.

Keberkesanan data pada keupayaan penaakulan matematik model

Untuk menilai kesan MUSTARDSAUCE dalam meningkatkan keupayaan penaakulan matematik, pasukan penyelidik menggunakan data ini dengan skala yang lebih halus. model dan dilakukan Ia dinilai pada Masalah Kata Matematik (MWP) dan Pembuktian Teorem Automatik (ATP). Artikel ini membandingkan keberkesanan data gabungan berikut bagi set data MUSTARDSAUCE:

  • MUSTARDSAUCE-sah: 5866 keping data yang disahkan oleh prover rasmi Lean
  • lulus lean MUSTARDS
  • ke MUSTARDSAUCE; 5866 keping data disahkan oleh prover rasmi;
  • MUSTARDSAUCE-rawak: 5866 keping data rawak;

Pasukan penyelidik menggunakan LoRA [1] untuk memperhalusi sumber terbuka GPT2-large [2], Llama 2-7B dan Llama 2-70B [3] pada setiap data gabungan. Untuk tugasan masalah perkataan matematik, mereka menggunakan set data GSM8K [4] dan MATH [5][6] untuk penilaian. Apabila menilai pembuktian teorem automatik, pasukan penyelidik menggunakan tanda aras Mathlib [8] dan miniF2F [7]. Tambahan pula, mereka juga dinilai pada ujian MUSTARDSAUCE.

Secara amnya, penalaan halus model pada MUSTARDSAUCE meningkatkan keupayaan penaakulan matematik model. Dalam pembuktian teorem automatik (Jadual 5 di bawah) dan penyelesaian masalah aplikasi matematik (Jadual 4 di bawah), menggunakan MUSTARDSAUCE-sah untuk penalaan halus berbanding dengan menggunakan rawak MUSTARDSAUCE untuk penalaan halus, prestasi relatif purata meningkat sebanyak 18.15% (Jadual 5 bawah) dan 11.01% % (Jadual 4 di bawah).

Untuk pembuktian teorem automatik, purata peningkatan prestasi Llama 2-7B yang ditala halus ialah 15.41%, dan purata peningkatan prestasi GPT 2-large yang ditala halus ialah 20.89%.
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据Untuk menyelesaikan masalah aplikasi matematik, prestasi purata Llama 2-7B yang ditala halus dipertingkatkan sebanyak 8.18%, dan prestasi purata GPT 2-besar yang ditala halus dipertingkatkan sebanyak 15.41%. Di samping itu, walaupun model yang diperhalusi dengan MUSTARDSAUCE-tt mempunyai kelebihan mutlak dalam jumlah data yang diperhalusi, prestasinya tidak sebaik model yang diperhalusi dengan MUSTARDSAUCE-sah. Lagi keputusan untuk
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据Llama 2-70B. Data MUSTARDSAUCE kekal sah apabila memperhalusi model bahasa yang lebih besar.
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据
Set data MUSTARDSAUCE

Artikel ini bersumberkan set data MUSTARDSAUCE. Setiap data mengandungi penerangan masalah dan penyelesaian berbilang langkah dalam bahasa semula jadi, serta penerangan masalah dan penyelesaian berbilang langkah dalam bahasa formal dwi Lean 3. Data MUSTARDSAUCE termasuk soalan aplikasi matematik dan soalan pembuktian teorem, meliputi tahap kesukaran dari sekolah rendah hingga pendidikan tinggi. Bilangan langkah penaakulan bagi soalan bertambah dengan kesukaran soalan. Soalan yang paling sukar memerlukan kira-kira 30 langkah untuk diselesaikan, dan kira-kira 20 taktik Lean 3.

Muat turun set data: https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据
Cabaran Pembentukan Maklumat Automatik
Penyelidikan Pasukan ini juga membuka satu pemformalan automatik (autoformalisasi) dan cabaran pemformalan automatik (autopemakluman) berdasarkan data dwi bahasa semula jadi dan bahasa formal Lean dalam set data MUSTARDSAUCE. Selain itu, pasukan penyelidik telah membuka dua landasan cabaran secara serentak: penjanaan teorem automatik dan penyelesaian masalah pengoptimuman automatik pembuktian serta kod dengan kod. Pertandingan ini bermula dari 3 April – 27 Mei 2024. Pasukan yang menang akan berpeluang menyertai bengkel ICML 2024 AI for Math pada 26 Julai di Vienna, Austria.

  • Track 1-1 (pemformalkan automatik): https://www.codabench.org/competitions/2436/
  • Track 1-2 (pemformalkan automatik): https: //www.codabench .org/competitions/2484/
  • Track 2 (penjanaan teorem automatik dan bukti): https://www.codabench.org/competitions/2437/
  • Track 3 (kod penyelesaian automatik pengoptimuman penyelidikan operasi masalah): https://www.codabench.org/competitions/2438/

Rujukan:
[1] Edward J Hu, Phillip Wallis Shen , Phillip Wallis Shen . Zhu, Yuanzhi Li, Shean Wang, Lu Wang dan Weizhu Chen: Penyesuaian peringkat rendah bagi model bahasa besar arXiv arXiv:2106.09685, 2021.
[2] Alec Radford. Model kanak-kanak, David Luan, Dario Amodei, Ilya Sutskever, et al ialah pelajar berbilang tugas tanpa pengawasan, 1 (8):9, 2019. , Peter Albert, Amjad Almahairi, Yasmine Babaei, Niko-lay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton-Ferrer, Moya Chen, Guillem Cucurull, David Esiobu , Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux , Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang , Aure ́lien Rodriguez, Robert Stojnic , Sergey Edunov, dan Thomas Scialom. .
[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse dan John Schulman Pengesah Latihan kepada selesaikan masalah perkataan matematik menyelesaikan dengan set data MATH. Dalam Joaquin Vanschoren dan Sai-Kit Yeung (eds.), Prosiding Sistem Pemprosesan Maklumat Neural pada Set Data dan Penanda Aras 1, Set Data dan Penanda Aras NeurIPS 2021, Disember 2021 , maya, 2021.
[6] Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, dan Karl Cobbe Mari sahkan langkah demi langkah arXiv .
[7] Kunhao Zheng, Jesse Michael Han, dan Stanislas Polu. Acara, 25-29 April 2022. OpenReview.net, 2022.
[8] https://github.com/leanprover-community/mathlib

Atas ialah kandungan terperinci ICLR 2024 Spotlight |. Tidak perlu risau tentang langkah perantaraan, MUSTARD boleh menjana data inferens matematik berkualiti tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!