


Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa 'sains' tanpa penalaan halus
Kekurangan model bahasa besar yang paling banyak dikritik, selain daripada omong kosong yang serius, mungkin adalah "ketidakupayaan mereka untuk melakukan matematik".
Sebagai contoh, untuk masalah matematik kompleks yang memerlukan penaakulan pelbagai langkah, model bahasa biasanya tidak dapat memberikan yang betul jawapan, walaupun ada Dengan berkat teknologi "rantai berfikir", kesilapan sering berlaku dalam langkah perantaraan.
Berbeza dengan tugas pemahaman bahasa semula jadi dalam seni liberal, soalan matematik biasanya hanya mempunyai satu jawapan yang betul, dan julat jawapan tidak begitu terbuka, menyukarkan tugas menjana penyelesaian yang tepat untuk model bahasa yang besar. Katakan ia lebih mencabar.
Tambahan pula, apabila melibatkan masalah matematik, model bahasa sedia ada biasanya tidak memberikan keyakinan untuk jawapan mereka, menyebabkan pengguna tidak dapat menilai kredibiliti jawapan yang dihasilkan.
Untuk menyelesaikan masalah ini, Microsoft Research mencadangkan teknologi MathPrompter, yang boleh meningkatkan prestasi LLM pada masalah aritmetik sambil meningkatkan pergantungannya pada ramalan.
Pautan kertas: https://arxiv.org/abs/2303.05398
MathPrompter menggunakan pemikiran Zero-shot Teknologi pembayang rantai menjana pelbagai ungkapan algebra atau fungsi Python untuk menyelesaikan masalah matematik yang sama dengan cara yang berbeza, sekali gus meningkatkan kredibiliti hasil keluaran.
Berbanding dengan kaedah CoT berasaskan petunjuk lain, MathPrompter juga menyemak kesahihan langkah perantaraan.
Berdasarkan parameter 175B GPT, kaedah MathPrompter telah digunakan untuk meningkatkan ketepatan set data MultiArith daripada 78.7% kepada 92.5%!
Pengkhususan segera dalam matematik
Dalam beberapa tahun kebelakangan ini, perkembangan pemprosesan bahasa semula jadi sebahagian besarnya dikaitkan dengan pengembangan berterusan dalam skala model bahasa besar (LLM) , yang menunjukkan keupayaan sifar pukulan dan beberapa pukulan yang menakjubkan, dan juga menyumbang kepada pembangunan teknologi dorongan Pengguna hanya perlu memasukkan beberapa contoh mudah ke dalam LLM dengan segera untuk meramalkan tugasan baharu.
prompt boleh dikatakan agak berjaya untuk tugasan satu langkah, tetapi dalam tugas yang memerlukan penaakulan berbilang langkah, prestasi teknologi segera masih tidak mencukupi.
Apabila manusia menyelesaikan masalah yang kompleks, mereka akan memecahkannya dan cuba menyelesaikannya langkah demi langkah Teknologi segera "Chain of Thought" (CoT) meluaskan intuisi ini kepada LLM , peningkatan prestasi telah dicapai merentas pelbagai tugasan NLP yang memerlukan inferens.
Kertas kerja ini terutamanya mengkaji kaedah Zero-shot-CoT "untuk menyelesaikan tugasan penaakulan matematik". kepada 78.7%, tetapi masih terdapat dua kelemahan utama:
1 Walaupun rantaian pemikiran yang diikuti oleh model meningkatkan keputusan, ia tidak memeriksa keberkesanan rantaian setiap langkah diikuti;
2. Tiada keyakinan diberikan untuk keputusan ramalan LLM.
MathPrompter
Untuk menangani jurang ini pada tahap tertentu, penyelidik mengambil inspirasi daripada "cara manusia menyelesaikan masalah matematik" dan menguraikan masalah kompleks kepada prosedur pelbagai langkah yang lebih mudah , dan menggunakan pelbagai kaedah untuk mengesahkan kaedah pada setiap langkah.
Memandangkan LLM ialah model generatif, ia menjadi sangat sukar untuk memastikan jawapan yang dijana adalah tepat, terutamanya untuk tugasan penaakulan matematik.
Penyelidik memerhati proses pelajar menyelesaikan masalah aritmetik dan merumuskan beberapa langkah yang diambil pelajar untuk mengesahkan penyelesaian mereka:
Pematuhan dengan keputusan yang diketahui Dengan membandingkan penyelesaian dengan keputusan yang diketahui, anda boleh menilai ketepatannya dan membuat pelarasan yang diperlukan apabila masalahnya adalah Ini amat berguna apabila ia berkaitan dengan masalah standard; penyelesaian yang matang.
Pengesahan berbilang membantu mengesahkan keberkesanan penyelesaian dengan mendekati masalah dari pelbagai sudut dan membandingkan hasilnya, memastikan ia munasabah dan tepat.
Semakan silang Proses menyelesaikan masalah adalah seperti yang diperlukan sebagai jawapan akhir yang mengesahkan ketepatan langkah perantaraan dalam proses dapat memberikan pemahaman yang jelas daripada penyelesaian Proses pemikiran di belakangnya.
Pengesahan pengiraanMenggunakan kalkulator atau komputer untuk melakukan pengiraan aritmetik boleh membantu mengesahkan ketepatan jawapan akhir
Khususnya, diberikan soalan S,
Di sebuah restoran, kos setiap hidangan dewasa Harga adalah $5, dan kanak-kanak makan percuma. Jika 15 orang masuk dan 8 daripadanya adalah kanak-kanak, berapakah kos untuk makan bagi golongan ini?
1 Menjana templat Algebra
Selesaikan masalah dahulu bentuk algebra, dengan menggantikan istilah berangka dengan pembolehubah menggunakan pemetaan nilai kunci, kami kemudian mendapat masalah yang diubah suai Qt
2 . Gesaan matematik
Berdasarkan gerak hati yang disediakan oleh proses pemikiran di atas bagi pengesahan berbilang dan semakan silang, dua kaedah berbeza digunakan untuk menjana Qt Analisis penyelesaian, secara algebra dan Pythonic, memberikan LLM petunjuk berikut untuk menjana konteks tambahan untuk Qt.
Gesaan boleh menjadi "Terbitkan ungkapan algebra" atau "Tulis fungsi Python"
Model LLM boleh mengeluarkan ungkapan berikut selepas membalas gesaan.
Pelan analisis yang dijana di atas menyediakan pengguna dengan petua tentang "proses pemikiran pertengahan" LLM Menambah petua tambahan boleh meningkatkan ketepatan keputusan . ketepatan dan ketekalan, yang seterusnya meningkatkan keupayaan MathPrompter untuk menjana penyelesaian yang lebih tepat dan cekap.
3 Pengiraan pengesahan
Gunakan berbilang pembolehubah input dalam kunci rawak Qt A-. peta nilai untuk menilai ungkapan yang dijana dalam langkah sebelumnya, menggunakan kaedah eval() Python untuk menilai ungkapan ini.
Kemudian bandingkan hasil output untuk melihat sama ada konsensus boleh ditemui dalam jawapan, yang juga boleh memberikan tahap keyakinan yang lebih tinggi bahawa jawapan itu betul dan boleh dipercayai.
Setelah ungkapan bersetuju dengan output, gunakan nilai pembolehubah dalam input Q untuk mengira jawapan akhir .
4 Kepentingan statistik
Untuk memastikan konsensus dalam output pelbagai ungkapan, Ulang langkah 2 dan 3 lebih kurang 5 kali dalam eksperimen dan laporkan nilai jawapan yang paling kerap diperhatikan.
Jika tiada konsensus yang jelas, ulangi langkah 2, 3, dan 4.
Hasil eksperimen
Nilai MathPrompter pada set data MultiArith Soalan matematik di dalamnya digunakan secara khusus untuk menguji keupayaan model pembelajaran mesin untuk melaksanakan operasi dan penaakulan aritmetik yang kompleks. . Memerlukan penggunaan pelbagai operasi aritmetik dan penaakulan logik untuk berjaya diselesaikan.
Hasil ketepatan pada dataset MultiArith menunjukkan bahawa MathPrompter berprestasi lebih baik daripada semua Zero-shot dan Zero -shot-CoT garis dasar, meningkatkan ketepatan daripada 78.7% kepada 92.5%
Ia boleh dilihat bahawa prestasi model MathPrompter berdasarkan parameter 175B GPT3 DaVinci adalah setanding dengan model parameter 540B dan Kaedah Few -shot-CoT SOTA yang setara.
Seperti yang dapat dilihat dari jadual di atas, reka bentuk MathPrompter boleh menampung masalah seperti "yang dihasilkan jawapan kadangkala mempunyai perbezaan satu langkah ” masalah boleh dielakkan dengan menjalankan model beberapa kali dan melaporkan hasil konsensus.
Selain itu, masalah bahawa langkah inferens mungkin terlalu panjang boleh diselesaikan dengan kaedah Pythonic atau Algebraic, yang biasanya memerlukan lebih sedikit token
Selain itu, langkah inferens mungkin betul, tetapi hasil pengiraan akhir adalah salah MathPrompter menyelesaikan masalah ini dengan menggunakan fungsi kaedah eval() Python.
Dalam kebanyakan kes, MathPrompter boleh menjana jawapan pertengahan dan akhir yang betul, tetapi terdapat beberapa kes, seperti soalan terakhir dalam jadual, di mana output algebra dan Pythonic adalah konsisten Ya , tetapi terdapat ralat.
Atas ialah kandungan terperinci Ketepatan GPT-3 dalam menyelesaikan masalah matematik telah meningkat kepada 92.5%! Microsoft mencadangkan MathPrompter untuk mencipta model bahasa 'sains' tanpa penalaan halus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Gabungan sempurna ChatGPT dan Python: Mencipta Perkhidmatan Pelanggan Pintar Chatbot Pengenalan: Dalam era maklumat hari ini, sistem perkhidmatan pelanggan pintar telah menjadi alat komunikasi yang penting antara perusahaan dan pelanggan. Untuk memberikan pengalaman perkhidmatan pelanggan yang lebih baik, banyak syarikat telah mula beralih kepada chatbots untuk menyelesaikan tugas seperti perundingan pelanggan dan menjawab soalan. Dalam artikel ini, kami akan memperkenalkan cara menggunakan bahasa ChatGPT dan Python model OpenAI yang berkuasa untuk mencipta bot sembang perkhidmatan pelanggan yang pintar untuk meningkatkan

Langkah pemasangan: 1. Muat turun perisian ChatGTP dari laman web rasmi ChatGTP atau kedai mudah alih 2. Selepas membukanya, dalam antara muka tetapan, pilih bahasa sebagai bahasa Cina 3. Dalam antara muka permainan, pilih permainan mesin manusia dan tetapkan Spektrum bahasa Cina; 4 Selepas memulakan, masukkan arahan dalam tetingkap sembang untuk berinteraksi dengan perisian.

Dalam artikel ini, kami akan memperkenalkan cara membangunkan chatbot pintar menggunakan ChatGPT dan Java, dan menyediakan beberapa contoh kod khusus. ChatGPT ialah versi terkini Generative Pre-training Transformer yang dibangunkan oleh OpenAI, teknologi kecerdasan buatan berasaskan rangkaian saraf yang boleh memahami bahasa semula jadi dan menjana teks seperti manusia. Menggunakan ChatGPT kami boleh membuat sembang adaptif dengan mudah

chatgpt boleh digunakan di China, tetapi tidak boleh didaftarkan, begitu juga di Hong Kong dan Macao Jika pengguna ingin mendaftar, mereka boleh menggunakan nombor telefon mudah alih asing untuk mendaftar. Perhatikan bahawa semasa proses pendaftaran, persekitaran rangkaian mesti ditukar IP asing.

Cara menggunakan ChatGPT dan Python untuk melaksanakan fungsi pengecaman niat pengguna Pengenalan: Dalam era digital hari ini, teknologi kecerdasan buatan secara beransur-ansur menjadi bahagian yang amat diperlukan dalam pelbagai bidang. Antaranya, pembangunan teknologi pemprosesan bahasa semula jadi (Natural Language Processing, NLP) membolehkan mesin memahami dan memproses bahasa manusia. ChatGPT (Chat-GeneratingPtrainedTransformer) ialah sejenis

Cara menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar Pengenalan: Dengan perkembangan teknologi kecerdasan buatan, robot semakin digunakan dalam bidang perkhidmatan pelanggan. Menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar boleh membantu syarikat menyediakan perkhidmatan pelanggan yang lebih cekap dan diperibadikan. Artikel ini akan memperkenalkan cara menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar dan menyediakan contoh kod khusus. 1. Pasang ChatGPTPHP dan gunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar.
