Rumah Peranti teknologi AI Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Mar 15, 2024 pm 12:07 PM
projek

Data sintetik terus membuka kunci potensi penaakulan matematik model besar!

Keupayaan menyelesaikan masalah matematik sentiasa dianggap sebagai penunjuk penting tahap kecerdasan model bahasa. Biasanya hanya model atau model yang sangat besar yang telah menjalani pra-latihan matematik yang meluas mempunyai peluang untuk berprestasi baik dalam masalah matematik.

Baru-baru ini, kerja penyelidikan Xwin yang dibuat oleh pasukan Swin-Transformer dan disiapkan bersama oleh sarjana dari Universiti Xi'an Jiaotong, Universiti Sains dan Teknologi China, Universiti Tsinghua dan Microsoft Research Asia telah mematahkan persepsi ini dan mendedahkan The 7B (iaitu 7 bilion parameter) model bahasa berskala (LLaMA-2-7B) di bawah pra-latihan am telah menunjukkan potensi yang kuat dalam menyelesaikan masalah matematik, dan boleh menggunakan kaedah penalaan halus diselia berdasarkan data sintetik untuk menjadikan model semakin banyak. cekap. Rangsangan mantap kebolehan matematik.

Kajian ini diterbitkan di arXiv, bertajuk "Model Bahasa 7B Biasa Sudah Memiliki Keupayaan Matematik yang Kuat".

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

  • Pautan kertas: https://arxiv.org/pdf/2403.04706.pdf
  • Pautan kod: https://github.com/Xwin-LM/Xwin-LM

Pasukan penyelidik mula-mula menggunakan hanya 7.5K data untuk memperhalusi arahan model LLaMA-2-7B, dan kemudian menilai prestasi model dalam GSM8K dan MATH. Keputusan eksperimen menunjukkan bahawa apabila memilih jawapan terbaik daripada 256 jawapan yang dihasilkan untuk setiap soalan dalam set ujian, ketepatan ujian masing-masing boleh mencapai 97.7% dan 72.0% Keputusan ini menunjukkan bahawa walaupun di bawah pra-latihan umum, tahap 7B Penemuan bahawa walaupun model kecil mempunyai potensi untuk menjana jawapan berkualiti tinggi mencabar pandangan sebelumnya bahawa potensi untuk penaakulan matematik yang berkuasa tidak terhad kepada model pra-latihan berskala besar dan berkaitan dengan matematik.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Walau bagaimanapun, penyelidikan juga menunjukkan bahawa walaupun mempunyai potensi penaakulan matematik yang kuat, masalah utama model bahasa semasa ialah sukar untuk secara konsisten merangsang keupayaan matematik yang wujud. Sebagai contoh, jika hanya satu jawapan yang dijana bagi setiap soalan dipertimbangkan dalam percubaan sebelumnya, ketepatan pada penanda aras GSM8K dan MATH akan turun kepada 49.5% dan 7.9%, masing-masing. Ini mencerminkan ketidakstabilan keupayaan matematik model. Untuk menyelesaikan masalah ini, pasukan penyelidik menggunakan kaedah mengembangkan set data penalaan halus yang diselia (SFT) dan mendapati bahawa dengan peningkatan data SFT, kebolehpercayaan model dalam menjana jawapan yang betul telah bertambah baik dengan ketara.

Kajian itu juga menyebut bahawa dengan menggunakan data sintetik, set data SFT boleh diperbesarkan dengan berkesan, dan kaedah ini hampir sama berkesan dengan data sebenar. Pasukan penyelidik menggunakan API Turbo GPT-4 untuk menjana soalan matematik sintetik dan proses penyelesaian masalah, dan memastikan kualiti soalan melalui kata gesaan pengesahan mudah. Melalui kaedah ini, pasukan itu berjaya mengembangkan set data SFT daripada 7.5K kepada kira-kira satu juta sampel, mencapai undang-undang penskalaan yang hampir sempurna. Model Xwin-Math-7B yang dihasilkan masing-masing mencapai ketepatan 82.6% dan 40.6% pada GSM8K dan MATH, dengan ketara mengatasi model SOTA sebelumnya malah mengatasi beberapa model 70B, mencapai peningkatan lonjakan. Model Xwin-Math-70B mencapai keputusan 52.8% pada set penilaian MATH, dengan ketara mengatasi versi awal GPT-4. Ini adalah kali pertama penyelidikan berdasarkan siri LLaMA model asas telah mengatasi GPT-4 pada MATH.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Para penyelidik juga mentakrifkan penunjuk penilaian Pass@N dan PassRatio@N, berhasrat untuk menilai sama ada model boleh mengeluarkan jawapan yang betul (menunjukkan potensi keupayaan matematik model) dan perkadaran jawapan yang betul antara N keluaran model Skala (menunjukkan kestabilan keupayaan matematik model). Apabila jumlah data SFT adalah kecil, Pass@256 model sudah sangat tinggi Selepas mengembangkan lagi skala data SFT, Pass@256 model meningkat dengan sangat sedikit, manakala PassRatio@256 meningkat dengan ketara. Ini menunjukkan bahawa penalaan halus diselia berdasarkan data sintetik adalah cara yang berkesan untuk meningkatkan kestabilan keupayaan matematik model.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Selain itu, kajian ini memberikan cerapan tentang tingkah laku penskalaan di bawah kerumitan penaakulan dan jenis ralat yang berbeza. Sebagai contoh, apabila saiz set data SFT bertambah, ketepatan model dalam menyelesaikan masalah matematik mengikuti perhubungan undang-undang kuasa dengan bilangan langkah inferens. Dengan meningkatkan perkadaran langkah inferens panjang dalam sampel latihan, ketepatan model dalam menyelesaikan masalah sukar boleh dipertingkatkan dengan ketara. Pada masa yang sama, kajian juga mendapati bahawa kesilapan pengiraan lebih mudah dikurangkan daripada kesilapan penaakulan.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Dalam Peperiksaan Matematik Sekolah Menengah Hungary, yang menyatakan keupayaan generalisasi penaakulan matematik model, Xwin-Math juga mendapat markah 65%, kedua selepas GPT-4. Ini menunjukkan bahawa cara data disintesis dalam kajian tidak terlalu sesuai dengan set penilaian dan menunjukkan keupayaan generalisasi yang baik.

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik

Kajian ini bukan sahaja menunjukkan keberkesanan data sintetik dalam mengembangkan data SFT, tetapi juga memberikan perspektif baharu tentang penyelidikan model bahasa besar dalam keupayaan penaakulan matematik. Pasukan penyelidik menyatakan bahawa kerja mereka meletakkan asas untuk penerokaan dan kemajuan masa depan dalam bidang ini, dan berharap untuk mempromosikan kecerdasan buatan untuk mencapai kejayaan yang lebih besar dalam menyelesaikan masalah matematik. Dengan kemajuan berterusan teknologi kecerdasan buatan, kami mempunyai sebab untuk menjangkakan bahawa AI akan menunjukkan prestasi yang lebih baik dalam bidang matematik dan memberikan lebih banyak bantuan kepada manusia untuk menyelesaikan masalah matematik yang kompleks.

Artikel ini juga merangkumi keputusan eksperimen ablasi dan penunjuk penilaian lain bagi kaedah sintesis data Sila rujuk teks penuh untuk butiran.

Atas ialah kandungan terperinci Had atas keupayaan matematik LLaMA-2-7B telah mencapai 97.7%? Xwin-Math membuka potensi dengan data sintetik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Jul 23, 2024 pm 02:05 PM

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/

See all articles