Model AI Mathematical Olympiad yang menang sudah keluar!
Beberapa hari lalu, dengan pengumuman senarai itu, jumlah perbincangan mengenai Anugerah Kemajuan AI Mathematics Olympiad (AIMO) Progress yang pertama di dunia kekal tinggi.
Sebanyak 5 pasukan memenangi pertandingan ini Pasukan Numina memenangi tempat pertama, CMU_MATH menduduki tempat kedua, selepas peperiksaan sementara menduduki tempat ketiga, pasukan codeinter dan Conor #2 masing-masing memenangi tempat keempat dan keempat. .
Pada masa itu, pihak rasmi hanya mengumumkan senarai pemenang dan tidak mendedahkan maklumat lanjut mengenai model di belakang mereka. Semua orang ingin tahu, model manakah yang digunakan oleh pasukan yang menang? Sebentar tadi, model di belakang empat teratas Anugerah Kemajuan AIMO telah diumumkan.
Model yang digunakan oleh pasukan kejuaraan ialah NuminaMath 7B TIR, yang merupakan versi deepseek-math-7b-base yang diperhalusi. Pasukan tempat kedua memperhalusi dua model DeepSeek-Math-7B-RL, satu sebagai model dasar (untuk menjana penyelesaian) dan satu sebagai model ganjaran (untuk undian majoriti wajaran) Penyelesaian dijaringkan).
Tempat ketiga juga menggunakan model DeepSeek-Math-7B-RL tanpa sebarang penalaan halus, dan menggunakan strategi undian majoriti untuk memilih jawapan yang betul melalui peraturan pemarkahan yang ditetapkan.
Pasukan peringkat keempat juga menggunakan deepseek-math-7b-rl, dengan suhu tetapan parameter 0.9, top_p 1.0 dan token maksimum 2048. Dipasangkan dengan alat pengekodan, model ini mencapai 58.8% pada penanda aras MATH. Tidak sukar untuk mendapati bahawa empat pasukan teratas semuanya memilih DeepSeekMath-7B sebagai model asas dan mencapai keputusan yang baik. Keupayaan penaakulan matematik model ini hampir dengan GPT-4, mengatasi beberapa model sumber terbuka 30B~70B pada senarai penanda aras MATH. Juara: NuminaMath 7B model TIR Seterusnya, mari kita lihat secara terperinci rancangan kejohanan untuk pertandingan ini.
NuminaMath ialah keluarga model bahasa yang dilatih untuk menyelesaikan masalah matematik menggunakan Alat Penaakulan Bersepadu (TIR).
NuminaMath 7B TIR ialah versi deepseek-math-7b-base yang diperhalusi dengan dua peringkat penyeliaan penalaan halus: Pemodelan besar-besaran masalah bahasa semula jadi 1: dan penyelesaian , model asas diperhalusi pada set data yang pelbagai, di mana setiap penyelesaian dibuat templat menggunakan Chains of Thoughts (CoT) untuk memudahkan inferens.
Fasa 2: Perhalusi model yang diperolehi dalam Fasa 1 pada set data sintetik daripada Tool Integrated Reasoning (TIR), di mana setiap masalah matematik diuraikan kepada satu siri prinsip asas, atur cara Python dan outputnya. Ini akan menggesa GPT-4 untuk menjana penyelesaian format ToRA (Microsoft) dengan maklum balas pelaksanaan kod. Penalaan halus pada data ini menghasilkan ejen penaakulan yang boleh menyelesaikan masalah matematik dengan menggabungkan penaakulan bahasa semula jadi dan pengiraan hasil perantaraan menggunakan Python REPL.Perlu ambil perhatian bahawa NuminaMath 7B TIR dicipta khusus untuk menyelesaikan masalah matematik peringkat persaingan. Oleh itu, model ini tidak boleh digunakan dalam aplikasi sembang umum. Menggunakan penyahkodan tamak, pasukan yang menang mendapati model itu dapat menyelesaikan masalah tahap 12 AMC, tetapi secara amnya bergelut untuk menjana penyelesaian yang cekap kepada masalah peringkat AIME dan Olimpik Matematik yang sukar. Model ini juga menghadapi kesukaran menyelesaikan masalah geometri, mungkin disebabkan kapasiti terhad dan kekurangan modaliti seperti penglihatan. Atas ialah kandungan terperinci Pelan pertandingan AI Mathematical Olympiad yang pertama diumumkan: empat pasukan yang menang semuanya memilih model domestik DeepSeekMath. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!