Bermula dengan qwen2.5-math
Sejak beberapa tahun kebelakangan ini, kemajuan yang ketara telah dibuat dalam meneliti dan meningkatkan keupayaan pemikiran model bahasa yang besar, dengan tumpuan yang kuat untuk meningkatkan kemahiran mereka dalam menyelesaikan
Masalah aritmetik dan matematik.
Model dengan penalaran aritmetik dan matematik yang baik dapat membantu dalam:
- Pembelajaran yang diperibadikan: Tutor berkuasa AI boleh menyesuaikan diri dengan keperluan pelajar individu, elping mereka memahami konsep matematik yang kompleks dengan lebih berkesan.
- Bantuan Penyelesaian Masalah: Mengaut automatik penjelasan langkah demi langkah untuk menyelesaikan masalah meningkatkan penglibatan dan pemahaman pelajar.
- Reka Bentuk Kurikulum: Mewujudkan modul pembelajaran adaptif dan progresif dalam subjek seperti algebra dan kalkulus.
Artikel ini menerangkan bagaimana kemajuan dalam penalaran matematik memacu inovasi dalam model AI seperti Qwen2.5-math dan aplikasinya dalam pembelajaran peribadi, penyelesaian masalah, dan reka bentuk kurikulum.
Objektif pembelajaran
- Memahami dan meneroka siri Qwen2.5-math dan komponennya.
- Ketahui mengenai seni bina model Qwen2.5-math.
- Dapatkan pendedahan tangan pada qwen2.5-math dengan contoh.
- Ketahui tentang prestasi Qwen2.5-math pada pelbagai tanda aras.
Jadual Kandungan
- Apa itu qwen2.5-math?
- Qwen2.5-math vs Qwen2-math
- Mengoptimumkan data latihan
- Latihan model yang cekap
- Mengoptimumkan prestasi model
- Demo berjalan
- Kesimpulan
- Soalan yang sering ditanya
Apa itu qwen2.5-math?
Siri Qwen2.5-Math adalah tambahan terbaru kepada siri QWEN Alibaba Cloud yang terbuka, model bahasa besar matematik. Ia mengikuti pelepasan awal Qwen2-Math, satu siri model bahasa matematik khusus berdasarkan LLM QWEN2. Model-model ini menunjukkan keupayaan matematik yang unggul, melampaui kedua-dua alternatif sumber terbuka dan juga beberapa model sumber tertutup seperti GPT-4O.
Siri ini menunjukkan peningkatan prestasi yang signifikan terhadap siri Qwen2-Math mengenai penanda aras matematik Cina dan Inggeris. Walaupun siri ini memohon rantaian (COT) untuk menyelesaikan masalah matematik khusus bahasa Inggeris, siri QWEN.5-MATH memperluaskan keupayaannya dengan menggabungkan kedua-dua COT dan Alat bersepadu (TIR), untuk menangani masalah matematik dalam bahasa Cina dan Inggeris dengan berkesan.
Qwen2.5-math vs Qwen2-math
Perbandingan antara Qwen2.5-Math dan Qwen2-Math menyoroti kemajuan dalam pemikiran matematik dan keupayaan penyelesaian masalah yang dicapai dalam lelaran terkini model bahasa matematik Alibaba Cloud.
Harta | Qwen2-math | Qwen2.5-math |
---|---|---|
Saiz data pra-latihan | Token 700B (dari Qwen Math Corpus v1) | Lebih dari 1T Token (dari Qwen Math Corpus v2) |
Bahasa disokong | Bahasa Inggeris | Bahasa Inggeris dan Cina |
Pendekatan | Rantai-of-Whought (COT) | Rantai-of-Thought (COT), Alat bersepadu (TIR) |
Skor penanda aras (GSM8K, Matematik, dan MMLU-STEM) | 89.1, 60.5, 79.1 | 90.8, 66.8, 82.8 |
Varian model | QWEN2-MATH-1.5B/7B/72B | QWEN.5-MATH-1.5B/7B/72B |
Mengoptimumkan data latihan
Siri Qwen2.5-math dilatih menggunakan Qwen Math Corpus V2, yang terdiri daripada lebih dari 1 trilion token data matematik berkualiti tinggi dalam bahasa Inggeris dan Cina. Dataset ini merangkumi data matematik sintetik yang dihasilkan menggunakan model QWEN2-MATH-72B-Instruct dan data matematik Cina yang diperoleh daripada kandungan web, buku, dan repositori kod melalui pelbagai kitaran ingat.
Dataset rantai (COT)
Dataset rantaian (COT) untuk QWEN.5-MATH adalah koleksi masalah matematik yang komprehensif yang bertujuan meningkatkan keupayaan pemikiran model. Ia termasuk:
- 580K Bahasa Inggeris dan 500K Masalah matematik, termasuk kedua -dua item anotasi dan disintesis.
- Data anotasi yang diperoleh daripada sumber seperti GSM8K, Matematik, dan Numinamath.
Dataset Alat Bersepadu (TIR)
Untuk menangani cabaran pengiraan dan algoritma yang dihadapi oleh COT yang mendorong-seperti menyelesaikan persamaan kuadratik atau pengkomputeran eigen-nilai-data yang bersepadu alat (TIR) diperkenalkan. Dataset ini meningkatkan kemahiran model dalam manipulasi simbolik dan pengiraan yang tepat dengan membolehkannya menggunakan penterjemah python untuk tugas -tugas pemikiran. Ia termasuk:
- Masalah 190K dari tanda aras seperti GSM8K, MATH, COLLEGEMATH, dan NUMINAMATH.
- Masalah 205K dibuat menggunakan teknik dari Mugglemath dan Dotamath untuk mengembangkan pertanyaan dalam set latihan GSM8K dan matematik.
Latihan model yang cekap
Oleh kerana model Qwen2.5-math adalah versi dinaik taraf model Qwen2-math sehingga latihannya diperolehi dari Qwen2-math seperti berikut:
- Model Qwen2-math melatih di Qwen Math Corpus v1, dataset berkualiti tinggi yang mengandungi kira-kira 700 bilion token kandungan matematik.
- Pemaju melatih model ganjaran khusus matematik, QWEN2-MATH-RM, yang diperolehi daripada model QWEN2-MATH-72B.
- Model asas siri Qwen2.5 berfungsi untuk inisialisasi parameter, meningkatkan pemahaman bahasa, penjanaan kod, dan keupayaan penalaran teks.
- Selepas melatih model Qwen2.5-math, pemaju melatih model ganjaran khusus matematik, QWEN.5-MATH-RM-72B, berdasarkan QWEN2.5-MATH-72B. Model ganjaran ini mengubah data SFT melalui pensampelan penolakan untuk model SFT (QWEN2.5-MATH-SFT).
- Model arahan (QWEN2.5-MATH-Instruct) dibina pada akhirnya untuk menggilap kualiti respons. Model ini dicipta melalui lelaran tambahan menggunakan model QWEN2-MATH-Instruct dan QWEN.5-MATH-RM-72B. Proses ini menggabungkan data penalaran alat (TIR) dan data SFT, ditapis melalui pengoptimuman dasar relatif kumpulan (GRPO), untuk menggilap prestasi model.
Mengoptimumkan prestasi model
Meningkatkan prestasi model adalah kunci untuk menyampaikan hasil yang lebih cepat, lebih tepat, memastikan kecekapan dan kebolehpercayaan dalam aplikasi.
Prestasi model asas
Model asas Qwen2.5-math-1.5b/7b/72b mencapai peningkatan yang signifikan terhadap penanda aras matematik bahasa Inggeris (GSM8K, matematik , dan mmlu-stem) dan penanda aras matematik Cina (cmath, gaokao matematik cloze, dan gaokao math qa)
Sebagai contoh, model QWEN.5-MATH-1.5B/7B/72B menunjukkan peningkatan yang ketara sebanyak 5.4, 5.0, 6.3 pada matematik, dan peningkatan skor 3.4, 12.2, 19.8 pada Gaokao Math Qa.
Prestasi model yang disesuaikan dengan arahan
Model QWEN.5-MATH-72B-Instruct mengatasi kedua-dua model sumber terbuka dan model sumber tertutup teratas, seperti GPT-4O dan Gemini matematik-khususnya 1.5 Pro.
Model QWEN.5-MATH-72B-Instruct melampaui pendahulunya (model QWEN2-MATH-72B-Instruct) dengan purata 4.4 mata dalam bahasa Inggeris dan 6.1 mata dalam bahasa Cina. Prestasi ini menandakan kedudukannya sebagai model matematik sumber terbuka yang tersedia hari ini.
Pada tanda aras yang sangat mencabar seperti AIME 2024 dan AMC23, model seperti Claude3 Opus, GPT-4 Turbo, dan Gemini 1.5 Pro menyelesaikan hanya 1 atau 2 daripada 30 masalah. Sebaliknya, QWEN2.5-MATH-72B-Instruct menunjukkan prestasi yang luar biasa, menyelesaikan 9 masalah dalam mod penyahkodan tamak dan 12 masalah dalam mod TIR. Selain itu, dengan bantuan model ganjaran (RM), QWEN.5-MATH-7B-Instruct mencapai 21 masalah yang diselesaikan, mempamerkan keupayaan menyelesaikan masalah matematiknya.
Demo berjalan
Mari lihat demo Qwen2.5-math menggunakan ruang Huggingface di sini.
Ruang ini menyediakan antara muka pengguna berasaskan web untuk memasukkan masalah matematik atau aritmetik dalam format imej atau teks untuk menguji keupayaan model.
Untuk menyokong pelbagai modaliti ruang ini menggunakan QWEN2-VL untuk OCR dan QWEN.5-Math untuk penalaran matematik.
Langkah1: Mengekstrak kandungan yang berkaitan dengan matematik menggunakan qwen-vl
Qwen-VL (model bahasa penglihatan besar Qwen) adalah model bahasa penglihatan multimodal yang menyokong imej, teks sebagai input. Ia secara semulajadi menyokong bahasa Inggeris dan Cina untuk melaksanakan pelbagai tugas generasi imej-ke-teks seperti tajuk imej, soal jawab visual, penalaran visual, pengiktirafan teks, dll.
Siri Qwen-VL mengandungi banyak model seperti QWEN-VL, QWEN-VL-CHAT, QWEN-VL-PLUS, QWEN-VL-MAX
dan lain-lain. Qwen-VL-Max adalah model bahasa visual yang paling berkebolehan Qwen untuk memberikan prestasi yang optimum pada pelbagai tugas yang lebih luas.
Sistem ini menggunakan model QWEN-VL-MAX-0809 untuk memahami, memproses, dan mengekstrak maklumat teks dari imej input. Fungsi Process_image () mula-mula menerima imej input dan mengekstrak kandungan yang berkaitan dengan matematik, memastikan transkripsi yang tepat bagi mana-mana formula lateks. Sistem itu kemudian menggunakan prompt standard berikut untuk mengekstrak kandungan tekstual, berkaitan dengan matematik dari imej.
Prompt mengarahkan: "Huraikan kandungan yang berkaitan dengan matematik dalam imej ini, memastikan transkripsi yang tepat bagi mana-mana formula lateks. Jangan terangkan butiran bukan matematik. "
Import OS os.system ('Pip Install Dashscope -u') import tempfile dari laluan import patlib Import Rahsia Import Dashscope Dari Dashscope Import Multimodalconversation, Generasi dari gambar import pil Your_api_token = os.getenv ('your_api_token') dashscope.api_key = your_api_token math_messages = [] def process_image (imej, conflonvert = false): Math_messages global math_messages = [] # tetapkan semula semasa memuat naik gambar uploaded_file_dir = os.environ.get ("gradio_temp_dir") atau str ( Jalan (tempfile.getTempdir ()) / "Vadio" ) os.makedirs (uploaded_file_dir, exist_ok = true) name = f "tmp {secrets.token_hex (20)}. jpg" nama fail = os.path.join (uploaded_file_dir, nama) Sekiranya harus menonjol: new_img = image.new ('rgb', size = (image.width, image.height), warna = (255, 255, 255)) new_img.paste (imej, (0, 0), topeng = imej) imej = new_img Image.save (nama fail) mesej = [{ 'Peranan': 'Sistem', 'Kandungan': [{'Text': 'Anda adalah pembantu yang membantu.'}] }, { 'peranan': 'pengguna', 'Kandungan': [ {'image': f'file: // {filename} '}, {'Text': 'Sila terangkan kandungan yang berkaitan dengan matematik dalam imej ini, memastikan bahawa mana-mana formula lateks ditranskripsikan dengan betul. Butiran bukan matematik tidak perlu diterangkan. '} ] }] respons = multimodalconversation.call (model = 'qwen-vl-max-0809', mesej = mesej) os.remove (nama fail) Kembali Response.Output.Choices [0] ["Mesej"] ["Kandungan"]#Import CSV
Langkah2: Penalaran Matematik Menggunakan Qwen2.5-Math
Langkah ini mengekstrak penerangan imej, yang kemudiannya diserahkan kepada model QWEN2.5 bersama -sama dengan soalan pengguna untuk menghasilkan respons. Model QWEN2.5-MATH-72B-Instruct melakukan penalaran matematik dalam proses ini.
def get_math_response (image_description, user_question): Math_messages global Sekiranya tidak math_messages: math_messages.append ({'Role': 'System', 'Content': 'Anda adalah pembantu matematik yang berguna.'}) math_messages = math_messages [: 1] Sekiranya image_description tidak ada: kandungan = f'image Description: {image_description} \ n \ n ' lain: kandungan = '' pertanyaan = f "{content} Soalan pengguna: {user_question}" math_messages.append ({'role': 'user', 'content': query}) respons = generasi.call ( Model = "QWEN.5-MATH-72B-Instruct", mesej = math_messages, result_format = 'Mesej', stream = benar ) Jawapan = Tiada untuk respon sebagai tindak balas: Sekiranya resp.output tidak ada: Teruskan jawapan = resp.output.choices [0] .message.content Hasil Jawapan.Replace ("\\", "\\\\") cetak (f'query: {query} \ nanswer: {answer} ') Sekiranya jawapannya tidak ada: math_messages.pop () lain: math_messages.append ('peranan': 'pembantu', 'kandungan': jawapan})
Setelah mengetahui tentang model yang digunakan di ruang ini, mari kita lihat beberapa contoh untuk
Menilai keupayaan model untuk menyelesaikan masalah matematik atau aritmetik.
Contoh1
Imej input yang mengandungi pernyataan masalah berikut -
Model ini mendapati nilai x sebagai 5 dan y sebagai 2. Ia juga menyediakan langkah demi langkah
Penalaran bahasa semulajadi sambil mencari nilai x dan y.
Contoh2
Imej input yang mengandungi pernyataan masalah berikut -
Model ini mengetahui nilai ungkapan terakhir sebagai 50.
Contoh3
Imej input yang mengandungi pernyataan masalah berikut -
Model ini mendapati nilai ungkapan di atas sebagai 5.
Kesimpulan
Dalam artikel ini, kami meneroka QWEN2.5-MATH-siri model matematik dengan keupayaan penalaran yang mantap. Kami mengkaji komponen, data latihan, seni bina, dan prestasi pada pelbagai tanda aras standard. Di samping itu, kami mengkaji semula demo, mengujinya dengan pelbagai contoh sederhana hingga kompleks.
Takeaways utama
- Model Qwen2.5-math menyokong kedua-dua Cina dan Bahasa Inggeris dan mempamerkan keupayaan penalaran matematik maju. Ia menggunakan teknik-teknik seperti rantaian (COT) dan pemikiran bersepadu alat (TIR).
- Siri Qwen2.5 termasuk pelbagai varian berdasarkan bilangan parameter, dengan model yang terdapat dalam parameter 1.5b, 7b, dan 72b.
- Model Qwen2.5-math memanfaatkan token 1 trilion untuk pra-latihan, peningkatan yang besar berbanding dengan 700 bilion token yang digunakan untuk Qwen2-math.
- Qwen2.5-Math melampaui qwen2-math di pelbagai tanda aras bahasa Inggeris dan Cina. Di samping itu, ia melebihi model seperti Claude3 Opus, GPT-4 Turbo, dan Gemini 1.5 Pro pada tanda aras yang mencabar seperti AIME 2024.
Soalan yang sering ditanya
Q1. Apakah perbezaan antara Qwen2.5-math dan Qwen2-math?A. Qwen2.5-Math adalah versi yang dinaik taraf Qwen2-Math, menawarkan prestasi yang lebih baik, ketepatan yang lebih baik dalam menyelesaikan masalah matematik yang kompleks, dan teknik latihan yang dipertingkatkan.
S2. Model mana yang lebih baik untuk tugas matematik yang kompleks, Qwen2.5-math atau Qwen2-math?A. Qwen2.5-math biasanya mengatasi qwen2-math pada tugas kompleks kerana latihan lanjutan dan keupayaan halus dalam penalaran matematik.
Q3. Bagaimanakah QWEN2.5-Math dan Qwen2-Math mengendalikan penalaran matematik?A. Kedua -dua model direka untuk penalaran matematik, tetapi Qwen2.5 menggunakan algoritma dan data latihan yang lebih canggih untuk menyelesaikan masalah yang mencabar dengan lebih berkesan.
Q4. Apakah kepentingan data latihan dalam QWEN.5-Math vs Qwen2-Math?A. Qwen2.5-math manfaat daripada dataset yang lebih besar dan lebih pelbagai, yang meningkatkan keupayaannya untuk umum dan menyelesaikan masalah matematik yang kompleks lebih tepat daripada Qwen2-math.
S5. Adakah terdapat perbezaan dalam kelajuan pemprosesan antara Qwen2.5-math dan Qwen2-math?A. QWEN2.5 mengoptimumkan pemprosesan yang lebih cepat dan memberikan respons yang lebih cepat berbanding dengan QWEN2-Math sambil mengekalkan ketepatan yang tinggi.
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.
Atas ialah kandungan terperinci Bermula dengan qwen2.5-math. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

Hei ada, pengekodan ninja! Apa tugas yang berkaitan dengan pengekodan yang anda telah merancang untuk hari itu? Sebelum anda menyelam lebih jauh ke dalam blog ini, saya ingin anda memikirkan semua kesengsaraan yang berkaitan dengan pengekodan anda-lebih jauh menyenaraikan mereka. Selesai? - Let ’

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

Memo CEO Shopify Tobi Lütke baru -baru ini dengan berani mengisytiharkan penguasaan AI sebagai harapan asas bagi setiap pekerja, menandakan peralihan budaya yang signifikan dalam syarikat. Ini bukan trend seketika; Ini adalah paradigma operasi baru yang disatukan ke p

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

Pengenalan OpenAI telah mengeluarkan model barunya berdasarkan seni bina "strawberi" yang sangat dijangka. Model inovatif ini, yang dikenali sebagai O1, meningkatkan keupayaan penalaran, yang membolehkannya berfikir melalui masalah MOR

Laporan Indeks Perisikan Buatan 2025 yang dikeluarkan oleh Stanford University Institute for Manusia Berorientasikan Kecerdasan Buatan memberikan gambaran yang baik tentang revolusi kecerdasan buatan yang berterusan. Mari kita menafsirkannya dalam empat konsep mudah: kognisi (memahami apa yang sedang berlaku), penghargaan (melihat faedah), penerimaan (cabaran muka), dan tanggungjawab (cari tanggungjawab kita). Kognisi: Kecerdasan buatan di mana -mana dan berkembang pesat Kita perlu menyedari betapa cepatnya kecerdasan buatan sedang berkembang dan menyebarkan. Sistem kecerdasan buatan sentiasa bertambah baik, mencapai hasil yang sangat baik dalam ujian matematik dan pemikiran kompleks, dan hanya setahun yang lalu mereka gagal dalam ujian ini. Bayangkan AI menyelesaikan masalah pengekodan kompleks atau masalah saintifik peringkat siswazah-sejak tahun 2023

Meta's Llama 3.2: Powerhouse AI Multimodal Model multimodal terbaru Meta, Llama 3.2, mewakili kemajuan yang ketara dalam AI, yang membanggakan pemahaman bahasa yang dipertingkatkan, ketepatan yang lebih baik, dan keupayaan penjanaan teks yang unggul. Keupayaannya t
