Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa 'sains' tanpa penalaan halus-AI-php.cn

Jadual Kandungan

Pengkhususan segera dalam matematik

MathPrompter

Hasil eksperimen

Rumah

Peranti teknologi

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa 'sains' tanpa penalaan halus

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 09:25 PM

chatgpt matematik

Kekurangan model bahasa besar yang paling banyak dikritik, selain daripada omong kosong yang serius, mungkin adalah "ketidakupayaan mereka untuk melakukan matematik".

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Sebagai contoh, untuk masalah matematik kompleks yang memerlukan penaakulan pelbagai langkah, model bahasa biasanya tidak dapat memberikan yang betul jawapan, walaupun ada Dengan berkat teknologi "rantai berfikir", kesilapan sering berlaku dalam langkah perantaraan.

Berbeza dengan tugas pemahaman bahasa semula jadi dalam seni liberal, soalan matematik biasanya hanya mempunyai satu jawapan yang betul, dan julat jawapan tidak begitu terbuka, menyukarkan tugas menjana penyelesaian yang tepat untuk model bahasa yang besar. Katakan ia lebih mencabar.

Tambahan pula, apabila melibatkan masalah matematik, model bahasa sedia ada biasanya tidak memberikan keyakinan untuk jawapan mereka, menyebabkan pengguna tidak dapat menilai kredibiliti jawapan yang dihasilkan.

Untuk menyelesaikan masalah ini, Microsoft Research mencadangkan teknologi MathPrompter, yang boleh meningkatkan prestasi LLM pada masalah aritmetik sambil meningkatkan pergantungannya pada ramalan.

Pautan kertas: https://arxiv.org/abs/2303.05398

MathPrompter menggunakan pemikiran Zero-shot Teknologi pembayang rantai menjana pelbagai ungkapan algebra atau fungsi Python untuk menyelesaikan masalah matematik yang sama dengan cara yang berbeza, sekali gus meningkatkan kredibiliti hasil keluaran.

Berbanding dengan kaedah CoT berasaskan petunjuk lain, MathPrompter juga menyemak kesahihan langkah perantaraan.

Berdasarkan parameter 175B GPT, kaedah MathPrompter telah digunakan untuk meningkatkan ketepatan set data MultiArith daripada 78.7% kepada 92.5%!

Pengkhususan segera dalam matematik

Dalam beberapa tahun kebelakangan ini, perkembangan pemprosesan bahasa semula jadi sebahagian besarnya dikaitkan dengan pengembangan berterusan dalam skala model bahasa besar (LLM) , yang menunjukkan keupayaan sifar pukulan dan beberapa pukulan yang menakjubkan, dan juga menyumbang kepada pembangunan teknologi dorongan Pengguna hanya perlu memasukkan beberapa contoh mudah ke dalam LLM dengan segera untuk meramalkan tugasan baharu.

prompt boleh dikatakan agak berjaya untuk tugasan satu langkah, tetapi dalam tugas yang memerlukan penaakulan berbilang langkah, prestasi teknologi segera masih tidak mencukupi.

Apabila manusia menyelesaikan masalah yang kompleks, mereka akan memecahkannya dan cuba menyelesaikannya langkah demi langkah Teknologi segera "Chain of Thought" (CoT) meluaskan intuisi ini kepada LLM , peningkatan prestasi telah dicapai merentas pelbagai tugasan NLP yang memerlukan inferens.

Kertas kerja ini terutamanya mengkaji kaedah Zero-shot-CoT "untuk menyelesaikan tugasan penaakulan matematik". kepada 78.7%, tetapi masih terdapat dua kelemahan utama:

1 Walaupun rantaian pemikiran yang diikuti oleh model meningkatkan keputusan, ia tidak memeriksa keberkesanan rantaian setiap langkah diikuti;

2. Tiada keyakinan diberikan untuk keputusan ramalan LLM.

MathPrompter

Untuk menangani jurang ini pada tahap tertentu, penyelidik mengambil inspirasi daripada "cara manusia menyelesaikan masalah matematik" dan menguraikan masalah kompleks kepada prosedur pelbagai langkah yang lebih mudah , dan menggunakan pelbagai kaedah untuk mengesahkan kaedah pada setiap langkah.

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Memandangkan LLM ialah model generatif, ia menjadi sangat sukar untuk memastikan jawapan yang dijana adalah tepat, terutamanya untuk tugasan penaakulan matematik.

Penyelidik memerhati proses pelajar menyelesaikan masalah aritmetik dan merumuskan beberapa langkah yang diambil pelajar untuk mengesahkan penyelesaian mereka:

Pematuhan dengan keputusan yang diketahui Dengan membandingkan penyelesaian dengan keputusan yang diketahui, anda boleh menilai ketepatannya dan membuat pelarasan yang diperlukan apabila masalahnya adalah Ini amat berguna apabila ia berkaitan dengan masalah standard; penyelesaian yang matang.

Pengesahan berbilang membantu mengesahkan keberkesanan penyelesaian dengan mendekati masalah dari pelbagai sudut dan membandingkan hasilnya, memastikan ia munasabah dan tepat.

Semakan silang Proses menyelesaikan masalah adalah seperti yang diperlukan sebagai jawapan akhir yang mengesahkan ketepatan langkah perantaraan dalam proses dapat memberikan pemahaman yang jelas daripada penyelesaian Proses pemikiran di belakangnya.

Pengesahan pengiraanMenggunakan kalkulator atau komputer untuk melakukan pengiraan aritmetik boleh membantu mengesahkan ketepatan jawapan akhir

Khususnya, diberikan soalan S,

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Di sebuah restoran, kos setiap hidangan dewasa Harga adalah $5, dan kanak-kanak makan percuma. Jika 15 orang masuk dan 8 daripadanya adalah kanak-kanak, berapakah kos untuk makan bagi golongan ini?

1 Menjana templat Algebra

Selesaikan masalah dahulu bentuk algebra, dengan menggantikan istilah berangka dengan pembolehubah menggunakan pemetaan nilai kunci, kami kemudian mendapat masalah yang diubah suai Qt

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

2 . Gesaan matematik

Berdasarkan gerak hati yang disediakan oleh proses pemikiran di atas bagi pengesahan berbilang dan semakan silang, dua kaedah berbeza digunakan untuk menjana Qt Analisis penyelesaian, secara algebra dan Pythonic, memberikan LLM petunjuk berikut untuk menjana konteks tambahan untuk Qt.

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Gesaan boleh menjadi "Terbitkan ungkapan algebra" atau "Tulis fungsi Python"

Model LLM boleh mengeluarkan ungkapan berikut selepas membalas gesaan.

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Pelan analisis yang dijana di atas menyediakan pengguna dengan petua tentang "proses pemikiran pertengahan" LLM Menambah petua tambahan boleh meningkatkan ketepatan keputusan . ketepatan dan ketekalan, yang seterusnya meningkatkan keupayaan MathPrompter untuk menjana penyelesaian yang lebih tepat dan cekap.

3 Pengiraan pengesahan

Gunakan berbilang pembolehubah input dalam kunci rawak Qt A-. peta nilai untuk menilai ungkapan yang dijana dalam langkah sebelumnya, menggunakan kaedah eval() Python untuk menilai ungkapan ini.

Kemudian bandingkan hasil output untuk melihat sama ada konsensus boleh ditemui dalam jawapan, yang juga boleh memberikan tahap keyakinan yang lebih tinggi bahawa jawapan itu betul dan boleh dipercayai.

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Setelah ungkapan bersetuju dengan output, gunakan nilai pembolehubah dalam input Q untuk mengira jawapan akhir .

4 Kepentingan statistik

Untuk memastikan konsensus dalam output pelbagai ungkapan, Ulang langkah 2 dan 3 lebih kurang 5 kali dalam eksperimen dan laporkan nilai jawapan yang paling kerap diperhatikan.

Jika tiada konsensus yang jelas, ulangi langkah 2, 3, dan 4.

Hasil eksperimen

Nilai MathPrompter pada set data MultiArith Soalan matematik di dalamnya digunakan secara khusus untuk menguji keupayaan model pembelajaran mesin untuk melaksanakan operasi dan penaakulan aritmetik yang kompleks. . Memerlukan penggunaan pelbagai operasi aritmetik dan penaakulan logik untuk berjaya diselesaikan.

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Hasil ketepatan pada dataset MultiArith menunjukkan bahawa MathPrompter berprestasi lebih baik daripada semua Zero-shot dan Zero -shot-CoT garis dasar, meningkatkan ketepatan daripada 78.7% kepada 92.5%

Ia boleh dilihat bahawa prestasi model MathPrompter berdasarkan parameter 175B GPT3 DaVinci adalah setanding dengan model parameter 540B dan Kaedah Few -shot-CoT SOTA yang setara.

Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa sains tanpa penalaan halus

Seperti yang dapat dilihat dari jadual di atas, reka bentuk MathPrompter boleh menampung masalah seperti "yang dihasilkan jawapan kadangkala mempunyai perbezaan satu langkah ” masalah boleh dielakkan dengan menjalankan model beberapa kali dan melaporkan hasil konsensus.

Selain itu, masalah bahawa langkah inferens mungkin terlalu panjang boleh diselesaikan dengan kaedah Pythonic atau Algebraic, yang biasanya memerlukan lebih sedikit token

Selain itu, langkah inferens mungkin betul, tetapi hasil pengiraan akhir adalah salah MathPrompter menyelesaikan masalah ini dengan menggunakan fungsi kaedah eval() Python.

Dalam kebanyakan kes, MathPrompter boleh menjana jawapan pertengahan dan akhir yang betul, tetapi terdapat beberapa kes, seperti soalan terakhir dalam jadual, di mana output algebra dan Pythonic adalah konsisten Ya , tetapi terdapat ralat.

Atas ialah kandungan terperinci Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa 'sains' tanpa penalaan halus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7467

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

ChatGPT kini membenarkan pengguna percuma menjana imej dengan menggunakan DALL-E 3 dengan had harian Aug 09, 2024 pm 09:37 PM

DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Gabungan sempurna ChatGPT dan Python: mencipta chatbot perkhidmatan pelanggan yang pintar Oct 27, 2023 pm 06:00 PM

Gabungan sempurna ChatGPT dan Python: Mencipta Perkhidmatan Pelanggan Pintar Chatbot Pengenalan: Dalam era maklumat hari ini, sistem perkhidmatan pelanggan pintar telah menjadi alat komunikasi yang penting antara perusahaan dan pelanggan. Untuk memberikan pengalaman perkhidmatan pelanggan yang lebih baik, banyak syarikat telah mula beralih kepada chatbots untuk menyelesaikan tugas seperti perundingan pelanggan dan menjawab soalan. Dalam artikel ini, kami akan memperkenalkan cara menggunakan bahasa ChatGPT dan Python model OpenAI yang berkuasa untuk mencipta bot sembang perkhidmatan pelanggan yang pintar untuk meningkatkan

Bagaimana untuk memasang chatgpt pada telefon bimbit Mar 05, 2024 pm 02:31 PM

Langkah pemasangan: 1. Muat turun perisian ChatGTP dari laman web rasmi ChatGTP atau kedai mudah alih 2. Selepas membukanya, dalam antara muka tetapan, pilih bahasa sebagai bahasa Cina 3. Dalam antara muka permainan, pilih permainan mesin manusia dan tetapkan Spektrum bahasa Cina; 4 Selepas memulakan, masukkan arahan dalam tetingkap sembang untuk berinteraksi dengan perisian.

Bagaimana untuk membangunkan chatbot pintar menggunakan ChatGPT dan Java Oct 28, 2023 am 08:54 AM

Dalam artikel ini, kami akan memperkenalkan cara membangunkan chatbot pintar menggunakan ChatGPT dan Java, dan menyediakan beberapa contoh kod khusus. ChatGPT ialah versi terkini Generative Pre-training Transformer yang dibangunkan oleh OpenAI, teknologi kecerdasan buatan berasaskan rangkaian saraf yang boleh memahami bahasa semula jadi dan menjana teks seperti manusia. Menggunakan ChatGPT kami boleh membuat sembang adaptif dengan mudah

Bolehkah chatgpt digunakan di China? Mar 05, 2024 pm 03:05 PM

chatgpt boleh digunakan di China, tetapi tidak boleh didaftarkan, begitu juga di Hong Kong dan Macao Jika pengguna ingin mendaftar, mereka boleh menggunakan nombor telefon mudah alih asing untuk mendaftar. Perhatikan bahawa semasa proses pendaftaran, persekitaran rangkaian mesti ditukar IP asing.

Cara menggunakan ChatGPT dan Python untuk melaksanakan fungsi pengecaman niat pengguna Oct 27, 2023 am 09:04 AM

Cara menggunakan ChatGPT dan Python untuk melaksanakan fungsi pengecaman niat pengguna Pengenalan: Dalam era digital hari ini, teknologi kecerdasan buatan secara beransur-ansur menjadi bahagian yang amat diperlukan dalam pelbagai bidang. Antaranya, pembangunan teknologi pemprosesan bahasa semula jadi (Natural Language Processing, NLP) membolehkan mesin memahami dan memproses bahasa manusia. ChatGPT (Chat-GeneratingPtrainedTransformer) ialah sejenis

Bagaimana untuk membina robot perkhidmatan pelanggan pintar menggunakan PHP ChatGPT Oct 28, 2023 am 09:34 AM

Cara menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar Pengenalan: Dengan perkembangan teknologi kecerdasan buatan, robot semakin digunakan dalam bidang perkhidmatan pelanggan. Menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar boleh membantu syarikat menyediakan perkhidmatan pelanggan yang lebih cekap dan diperibadikan. Artikel ini akan memperkenalkan cara menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar dan menyediakan contoh kod khusus. 1. Pasang ChatGPTPHP dan gunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar.

See all articles