Mungkin soalan ujian matematik yang anda ambil adalah dijana mesin.
Pelajar MIT boleh menyelesaikan topik matematik seperti kalkulus multivariate, persamaan pembezaan dan algebra linear tanpa sebarang usaha, tetapi ini model pembelajaran mesin terbantut. Kerana model pembelajaran mesin hanya boleh menjawab soalan matematik peringkat sekolah rendah atau sekolah menengah, dan mereka tidak selalu menemui jawapan yang betul.
Kini, penyelidik dari MIT, Universiti Columbia, Universiti Harvard dan University of Waterloo menggunakan pembelajaran sampel kecil dan Codex OpenAI untuk mensintesis program secara automatik dan menyelesaikannya dalam beberapa saat masalah matematik dan mencapai tahap manusia. Penyelidikan itu diterbitkan dalam Prosiding Akademi Sains Kebangsaan (PNAS).
Selain itu, model ini boleh menerangkan penyelesaian yang dihasilkan dan dengan cepat menjana masalah matematik kolej baharu. Apabila penyelidik menunjukkan soalan yang dihasilkan oleh mesin ini kepada pelajar, pelajar tidak dapat mengetahui sama ada soalan itu dihasilkan oleh algoritma atau manusia.
Penyelidikan ini juga boleh digunakan untuk memudahkan penjanaan kandungan kursus, yang amat berguna untuk sekolah yang mempunyai beribu-ribu pelajar dan kursus dalam talian terbuka besar-besaran (MOOC). Sistem ini juga boleh bertindak sebagai tutor dalam talian, menunjukkan kepada pelajar langkah-langkah untuk menyelesaikan masalah matematik.
Alamat kertas: https://www.pnas.org/doi/epdf/10.1073/pnas.2123433119
Kaedah kajian ini menggabungkan tiga inovasi:
Model yang boleh menjawab, menyelesaikan dan mengemukakan soalan
Pasukan penyelidik telah membelanjakan wang untuk projek ini selama hampir dua tahun. Mereka mendapati bahawa model yang dilatih dengan hanya menggunakan teks boleh mencapai ketepatan tidak lebih baik daripada 8% pada masalah matematik sekolah menengah, manakala model rangkaian saraf graf boleh mengatasi masalah kursus pembelajaran mesin, tetapi ia akan mengambil masa seminggu.Kajian ini memilih 25 masalah secara rawak daripada tujuh kursus: Kalkulus Pembolehubah Tunggal MIT 18.01, Kalkulus Berbilang Pembolehubah 18.02, Persamaan Pembezaan 18.03, 18.05 Pengenalan kepada Kebarangkalian dan Statistik Alternatif 18.06, 6. Sains Komputer, dan COMS3251 Computational Linear Algebra dari Columbia University.
Untuk dataset MATH, kajian secara rawak memilih 15 soalan daripada enam topik dalam dataset (Algebra, Pengiraan dan Kebarangkalian, Algebra Pertengahan, Teori Nombor, Algebra Awal dan Kalkulus) .
Sebelum memasukkan tugas pengaturcaraan ini ke dalam rangkaian saraf, penyelidik menambah langkah baharu yang membolehkan mereka menjadi lebih baik daripada percubaan sebelumnya.
Ia berbeza daripada rangkaian seperti GPT-3 yang hanya pra-latihan pada teks. Mereka mengubah masalah ini menjadi tugas pengaturcaraan dan menggunakan sintesis program dan teknik pembelajaran beberapa pukulan. Mengubah masalah matematik kepada tugas pengaturcaraan boleh semudah menulis semula masalah mencari jarak antara dua titik seperti menulis atur cara untuk mencari perbezaan antara dua titik.
Perlu dinyatakan bahawa penyelidikan ini bukan sahaja Pra-latihan Codex pada teks, tetapi juga memperhalusi kod tersebut supaya ia boleh menjana program untuk menyelesaikan masalah matematik berskala besar.
Model pra-latihan menunjukkan berjuta-juta contoh kod daripada repositori dalam talian. Oleh kerana data latihan model termasuk berjuta-juta perkataan bahasa semula jadi dan berjuta-juta baris kod, ia boleh mempelajari hubungan antara coretan teks dan coretan kod.
Seperti yang ditunjukkan dalam rajah di bawah, kajian ini menggunakan pembelajaran sifar pukulan dan pukulan kecil untuk menjana program secara automatik yang boleh menyelesaikan 81% masalah matematik. Mereka kemudian menggunakan Codex untuk mentafsir program yang dihasilkan. Program yang dihasilkan boleh mengeluarkan jawapan dalam pelbagai bentuk. Sebagai contoh, mengira dan menggambarkan bentuk geometri penguraian nilai tunggal (SVD) bukan sahaja memberikan jawapan yang betul, tetapi juga penjelasan yang sepadan! Gunakan rangkaian saraf OpenAI Codex untuk menyelesaikan, mentafsir dan menjana masalah matematik.
Drori, salah seorang pengarang kertas kerja, menjelaskan bahawa banyak masalah matematik boleh diselesaikan dengan graf atau pokok, tetapi ia sukar untuk menulis masalah dalam teks yang ditukar kepada perwakilan ini. Walau bagaimanapun, kerana model telah mempelajari hubungan antara teks dan kod, ia boleh menukar soalan teks kepada kod dengan hanya memberikan beberapa contoh kod soalan dan kemudian menjalankan kod untuk menjawab soalan.
“Apabila anda bertanya soalan menggunakan teks sahaja, sukar bagi model pembelajaran mesin untuk memberikan jawapan, walaupun jawapannya mungkin dalam teks dan sintesis program, "kata Drori.
Drori juga menambah bahawa kerja ini adalah yang pertama untuk menyelesaikan masalah matematik sarjana muda dan meningkatkan ketepatan daripada 8% kepada lebih daripada 80%.
Menterjemah masalah matematik kepada tugas pengaturcaraan tidak selalu mudah. Sesetengah masalah memerlukan penyelidik menambah konteks supaya rangkaian saraf dapat menangani masalah dengan betul. Seorang pelajar akan mempelajari pengetahuan latar belakang ini semasa mengikuti kursus, tetapi rangkaian saraf tidak mempunyai pengetahuan latar belakang ini melainkan dinyatakan secara eksplisit oleh penyelidik.
Sebagai contoh, mereka perlu menjelaskan bahawa rangkaian dalam teks merujuk kepada rangkaian saraf dan bukan rangkaian komunikasi. Atau mereka mungkin perlu memberitahu model pakej pengaturcaraan yang hendak digunakan. Mereka juga mungkin perlu memberikan definisi tertentu, contohnya dalam soalan tentang bermain kad, mereka mungkin perlu memberitahu model bahawa setiap dek mengandungi 52 kad.
Kajian ini membekalkan tugas pengaturcaraan ini secara automatik, bersama dengan konteks dan contoh yang disertakan, ke dalam rangkaian neural yang telah dilatih dan diperhalusi, yang menghasilkan rangkaian neural yang biasanya menghasilkan jawapan yang betul program. Lebih daripada 80% soalan adalah betul.
Para penyelidik juga menggunakan model mereka untuk menjana soalan dengan memberikan rangkaian saraf satu siri soalan matematik tentang topik dan kemudian membiarkannya mencipta soalan baharu. Sebagai contoh, terdapat masalah pengesanan kuantum garis mendatar dan menegak, yang mewujudkan masalah baru pengesanan kuantum pepenjuru. Jadi ia bukan hanya mencipta masalah baru dengan menggantikan nilai dan pembolehubah dalam masalah sedia ada.
Para penyelidik menguji soalan ini dengan menunjukkannya kepada pelajar kolej. Para penyelidik secara rawak memberikan pelajar 10 masalah daripada kursus matematik sarjana muda lima dicipta oleh manusia dan lima dijana oleh mesin.
Pelajar tidak dapat mengetahui sama ada soalan yang dijana oleh mesin dijana oleh algoritma atau manusia, dan mereka memberikan penilaian yang sama tentang kesukaran dan kesesuaian kursus.
Walau bagaimanapun, Drori menyatakan bahawa kerja ini tidak bertujuan untuk menggantikan profesor manusia.
"Kini ketepatan telah mencapai 80%, tetapi ia tidak akan mencapai 100%. Setiap kali anda menyelesaikan masalah, seseorang akan bertanya masalah yang lebih sukar. Tetapi kerja ini Ia membuka medan untuk orang ramai mula menggunakan pembelajaran mesin untuk menyelesaikan masalah yang semakin sukar, kami fikir ini akan memberi kesan besar kepada pendidikan tinggi," kata Drori.
Pasukan penyelidik teruja dengan kejayaan pendekatan mereka dan telah mengembangkan kerja mereka untuk mengendalikan pembuktian matematik. Mereka juga merancang untuk menangani beberapa batasan pada masa ini, model tidak boleh menggunakan komponen visual. Menjawab soalan juga gagal menyelesaikan masalah yang sukar dikira kerana kerumitan pengiraan.
Selain mengatasi halangan ini, penyelidikan juga bertujuan untuk menskalakan model kepada ratusan kursus. Dengan kursus ini, mereka akan menjana lebih banyak data untuk meningkatkan automasi dan memberikan pandangan tentang reka bentuk kursus dan kurikulum.
Atas ialah kandungan terperinci AI menyelesaikan masalah matematik kolej dalam beberapa saat, mencapai kadar ketepatan lebih daripada 80%, dan juga bertindak sebagai guru soalan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!