Regresi Neurosimbolik: Mengekstrak Sains daripada Data-AI-php.cn

Regresi Neurosimbolik: Mengekstrak Sains daripada Data

Penterjemah | Li Rui

Pengulas | untuk membuat ramalan sukar. Kecerdasan dan intuisi manusia menyumbang kepada pemahaman asas tentang beberapa aktiviti di dunia sekeliling, dan mencukupi untuk mempunyai beberapa pemahaman asas tentang peristiwa individu pada skala ruang dan masa makroskopik dari perspektif terhad individu dan kumpulan kecil.

Para ahli falsafah semula jadi prasejarah dan purba kebanyakannya terhad kepada rasionalisasi akal dan ujian tekaan. Kaedah ini mempunyai batasan yang ketara, terutamanya untuk perkara yang terlalu besar atau kompleks, sehingga membawa kepada kelaziman pemikiran khurafat atau magis.

Ini bukan untuk memperlekehkan meneka dan menyemak (yang merupakan asas kaedah saintifik moden), tetapi untuk melihat bahawa perubahan dalam keupayaan manusia untuk menyiasat dan memahami didorong oleh keinginan dan alat untuk menyaring fenomena fizikal ke dalam matematik ungkapan yang disebabkan.

Ini terbukti terutamanya selepas Pencerahan yang dipimpin oleh Newton dan saintis lain, walaupun terdapat kesan reduksionisme analitik pada zaman purba juga. Keupayaan untuk beralih daripada pemerhatian kepada persamaan matematik (dan ramalan yang dibuat oleh persamaan tersebut) adalah penting kepada penerokaan dan kemajuan saintifik.

Pembelajaran mendalam juga pada asasnya mengenai transformasi pembelajaran yang berkaitan dengan pemerhatian input-output, sama seperti saintis manusia yang cuba mempelajari hubungan fungsi antara input dan output dalam bentuk ungkapan matematik.

Sudah tentu, perbezaannya ialah hubungan input-output yang dipelajari oleh rangkaian neural dalam (hasil daripada teorem penghampiran universal) terdiri daripada "kotak hitam" parameter berangka yang tidak boleh ditafsir, terutamanya berat, berat sebelah dan mereka nod sambungan.

Teorem Penghampiran Sejagat menyatakan bahawa rangkaian saraf yang memenuhi kriteria yang sangat santai seharusnya dapat mendekati mana-mana fungsi yang berkelakuan baik. Dalam amalan, rangkaian saraf ialah abstraksi yang rapuh dan bocor yang mewakili hubungan input-output yang terhasil daripada persamaan asas yang mudah lagi tepat.

Melainkan perhatian khusus diberikan kepada melatih model (atau ensembel model) untuk meramalkan ketidakpastian, rangkaian saraf cenderung untuk berprestasi sangat teruk apabila membuat ramalan di luar pengedaran yang mana mereka dilatih.

Ramalan pembelajaran mendalam juga lemah dalam membuat ramalan yang boleh dipalsukan, iaitu andaian luar kotak yang menjadi asas kepada kaedah saintifik. Oleh itu, walaupun pembelajaran mendalam adalah alat yang terbukti dengan baik yang pandai menyesuaikan data, kegunaannya terhad dalam salah satu usaha manusia yang paling penting: meneroka alam semesta di sekeliling kita melalui kaedah saintifik.

Walaupun pembelajaran mendalam mempunyai pelbagai kelemahan dalam usaha saintifik manusia, keupayaan penyesuaian yang besar dan pelbagai kejayaan pembelajaran mendalam dalam disiplin saintifik tidak boleh diabaikan.

Sains moden menghasilkan sejumlah besar data, dan individu (atau bahkan pasukan) tidak dapat memerhatikan output data ini, dan mereka juga tidak boleh menukar data bising secara intuitif kepada persamaan matematik yang jelas.

Untuk ini, anda boleh beralih kepada regresi simbolik, kaedah automatik atau separa automatik untuk mengurangkan data kepada persamaan.

Standard Emas Semasa: Kaedah Evolusi

Sebelum memasuki beberapa penyelidikan terkini yang menarik tentang menerapkan pembelajaran mendalam moden kepada regresi simbolik, adalah penting untuk terlebih dahulu memahami evolusi mengubah set data menjadi persamaan. keadaan semasa kaedah. Pakej regresi simbolik yang paling biasa disebut ialah Eureqa, yang berdasarkan algoritma genetik.

Eureqa pada asalnya dibangunkan sebagai projek penyelidikan oleh pasukan Hod Lipson di Cornell University dan disediakan sebagai perisian proprietari daripada Nutonian, yang kemudiannya diperoleh oleh DataRobot Corporation. Eureqa telah disepadukan ke dalam platform Datarobot, diketuai oleh Michael Schmidt, pengarang bersama Eureqa dan CTO Datarobot.

Eureqa dan alat regresi simbolik yang serupa menggunakan algoritma genetik untuk mengoptimumkan sistem persamaan secara serentak untuk ketepatan dan kesederhanaan.

TuringBot ialah pakej regresi simbolik alternatif berdasarkan penyepuhlindapan simulasi. Penyepuhlindapan simulasi ialah algoritma pengoptimuman yang serupa dengan penyepuhlindapan metalurgi yang digunakan untuk mengubah sifat fizikal logam.

Dalam penyepuhlindapan simulasi, "suhu" diturunkan apabila memilih penyelesaian calon kepada masalah pengoptimuman, di mana suhu yang lebih tinggi sepadan dengan penerimaan penyelesaian yang lebih lemah dan digunakan untuk menggalakkan penerokaan awal, membolehkan pencarian merit maksimum global dan menyediakan tenaga untuk melarikan diri dari optima tempatan.

TuringBot ialah satu lagi pakej regresi simbolik berdasarkan penyepuhlindapan simulasi. Penyepuhlindapan simulasi ialah algoritma pengoptimuman yang serupa dengan penyepuhlindapan metalurgi yang digunakan untuk mengubah sifat fizikal logam.

TuringBot ialah versi percuma, tetapi mempunyai had yang ketara dalam saiz dan kerumitan set data, dan pengubahsuaian kod tidak dibenarkan.

Walaupun perisian regresi simbolik komersial (terutamanya Eureqa) menyediakan garis dasar penting untuk perbandingan apabila membangunkan alat baharu untuk regresi simbolik, kegunaan program sumber tertutup adalah terhad.

Satu lagi alternatif sumber terbuka yang dipanggil PySR dikeluarkan di bawah lesen Apache 2.0 dan diketuai oleh pelajar PhD Universiti Princeton, Miles Cranmer dan berkongsi matlamat pengoptimuman ketepatan dan kesederhanaan (kesederhanaan), bersama-sama dengan Eureqa dan Kaedah gabungan yang digunakan oleh TuringBot.

Selain menyediakan perpustakaan perisian percuma dan boleh diubah suai secara bebas untuk melakukan regresi simbolik, PySR juga menarik dari perspektif perisian: ia ditulis dalam Python tetapi menggunakan bahasa pengaturcaraan Julia sebagai backend yang pantas.

Walaupun algoritma genetik secara amnya dianggap sebagai tercanggih semasa untuk regresi simbolik, beberapa tahun lalu telah menyaksikan ledakan strategi regresi simbolik baharu yang menarik.

Banyak perkembangan baharu ini memanfaatkan model pembelajaran mendalam moden, sama ada sebagai komponen penghampiran fungsi dalam proses berbilang langkah, atau secara hujung ke hujung berdasarkan model Transformer besar, yang pada asalnya dibangunkan untuk semula jadi pemprosesan bahasa, Dan apa sahaja di antaranya.

Selain alat regresi simbolik baharu berdasarkan pembelajaran mendalam, terdapat juga kebangkitan dalam kaedah probabilistik dan statistik, terutamanya kaedah statistik Bayesian.

Digabungkan dengan kuasa pengkomputeran moden, perisian regresi simbolik generasi baharu bukan sahaja kajian yang menarik dalam haknya sendiri, tetapi juga menyediakan utiliti dan sumbangan sebenar kepada disiplin saintifik termasuk set data yang besar dan eksperimen komprehensif.

Regression Simbolik dengan Rangkaian Neural Dalam sebagai Penghampir Fungsi

Disebabkan teorem penghampiran universal yang diterangkan dan dikaji oleh Cybenko dan Hornik pada akhir 1980-an/awal 1990-an, seseorang boleh mengharapkan untuk mempunyai sekurang-kurangnya satu Rangkaian saraf dengan pengaktifan tak linear lapisan tersembunyi boleh menghampiri mana-mana fungsi matematik yang berkelakuan baik.

Dalam amalan, rangkaian saraf yang lebih dalam cenderung untuk mencapai prestasi yang lebih baik pada masalah yang lebih kompleks. Walau bagaimanapun, pada dasarnya, lapisan tersembunyi diperlukan untuk menganggarkan pelbagai fungsi.

Algoritma AI Feynman yang diilhamkan fizik menggunakan teorem penghampiran universal sebagai sebahagian daripada teka-teki yang lebih kompleks.

AI Feynman (dan penggantinya AI Feynman 2.0) telah dibangunkan oleh ahli fizik Silviu-Marian Udrescu dan Max Tegmark (bersama beberapa rakan sekerja). AI Feynman memanfaatkan sifat berfungsi yang terdapat dalam banyak persamaan fizik, seperti kelicinan, simetri dan komposisi, antara sifat lain.

Rangkaian saraf berfungsi sebagai penghampir fungsi, mempelajari pasangan transformasi input-output yang diwakili dalam set data dan memudahkan kajian sifat ini dengan menjana data sintetik di bawah transformasi fungsi yang sama.

Sifat fungsian yang AI Feynman gunakan untuk menyelesaikan masalah adalah perkara biasa dalam persamaan fizik, tetapi tidak boleh digunakan sewenang-wenangnya pada ruang semua fungsi matematik yang mungkin. Walau bagaimanapun, mereka masih andaian yang munasabah untuk dicari dalam pelbagai fungsi yang sesuai dengan dunia sebenar.

Seperti algoritma genetik dan kaedah penyepuhlindapan simulasi yang diterangkan sebelum ini, AI Feynman sesuai dengan setiap set data baharu dari awal. Tidak ada generalisasi atau pra-latihan yang terlibat, dan rangkaian saraf dalam hanya membentuk bahagian yang diatur daripada sistem yang lebih besar dan kaya dengan maklumat fizikal.

Regresi simbolik AI Feynman melakukan tugas yang sangat baik untuk mentafsir 100 persamaan (atau teka-teki) dalam kuliah fizik Feynman, tetapi kekurangan generalisasi bermakna setiap set data baharu (bersamaan dengan persamaan baharu) memerlukan pengiraan yang besar bajet.

Satu set baharu strategi pembelajaran mendalam untuk regresi simbolik memanfaatkan keluarga model Transformer yang sangat berjaya, yang pada asalnya diperkenalkan sebagai model bahasa semula jadi oleh Vaswani et al. Kaedah baharu ini tidak sempurna, tetapi menggunakan pra-latihan boleh menjimatkan banyak masa pengiraan semasa inferens.

Generasi pertama regresi simbolik berdasarkan model bahasa semula jadi

Memandangkan model Transformer yang sangat besar berasaskan perhatian telah digunakan secara meluas dalam penglihatan komputer, audio, pembelajaran pengukuhan, sistem pengesyoran dan banyak lagi. bidang lain (sebagai tambahan kepada berasaskan teks (peranan asal dalam pemprosesan bahasa semula jadi) telah mencapai kejayaan besar dalam pelbagai tugas, jadi tidak menghairankan bahawa model Transformer akhirnya akan digunakan untuk regresi simbolik juga.

Walaupun domain pasangan input-output berangka kepada jujukan simbolik memerlukan beberapa kejuruteraan yang teliti, sifat berasaskan jujukan bagi ungkapan matematik secara semula jadi sesuai dengan kaedah Transformer.

Yang penting, menggunakan Transformers untuk menjana ungkapan matematik membolehkan mereka memanfaatkan pra-latihan pada struktur dan makna berangka berjuta-juta persamaan yang dijana secara automatik.

Ini juga meletakkan asas untuk menambah baik model melalui penskalaan. Penskalaan ialah salah satu kelebihan utama pembelajaran mendalam, di mana model yang lebih besar dan lebih banyak data terus meningkatkan prestasi model dengan jauh melebihi had pembelajaran statistik klasik untuk overfitting.

Penskalaan adalah kelebihan utama yang disebut oleh Biggio et al dalam kertas kerja mereka bertajuk "Scalable Neural Symbolic Regression", yang dinamakan NSRTS. Model Transformer NSRTS menggunakan pengekod khusus untuk mengubah setiap pasangan input-output set data menjadi ruang terpendam. Ruang pendam yang dikodkan mempunyai saiz tetap bebas daripada saiz input pengekod.

Penyahkod NSRTS membina jujukan token untuk mewakili persamaan, dikondisikan pada ruang pendam yang dikodkan dan simbol yang dijana setakat ini. Yang penting, penyahkod hanya mengeluarkan ruang letak untuk pemalar berangka, tetapi sebaliknya menggunakan perbendaharaan kata yang sama seperti set data persamaan yang telah dilatih.

NSRTS menggunakan PyTorch dan PyTorch Lightning dan mempunyai lesen MIT sumber terbuka yang permisif.

Selepas menjana persamaan bebas malar (dipanggil rangka persamaan), NSRTS menggunakan keturunan kecerunan untuk mengoptimumkan pemalar. Pendekatan ini melapisi algoritma pengoptimuman umum di atas penjanaan jujukan, dikongsi oleh apa yang dipanggil "SymbolicGPT" yang dibangunkan serentak oleh Valiour et al.

Valipour et al tidak menggunakan pengekod berasaskan perhatian seperti dalam kaedah NSRTS. Sebaliknya, model berdasarkan model awan titik Stanford PointNet digunakan untuk menjana set ciri dimensi tetap yang digunakan oleh penyahkod Transformer untuk menjana persamaan. Seperti NSRT, GPT Simbolik menggunakan BFGS untuk mencari pemalar berangka rangka persamaan yang dijana oleh penyahkod Transformer.

Regression simbolik generasi kedua berdasarkan model bahasa semula jadi

Walaupun beberapa artikel baru-baru ini menerangkan penggunaan Transformers pemprosesan bahasa semula jadi (NLP) untuk mencapai generalisasi dan skalabiliti regresi simbolik, Model di atas tidak benar-benar hujung ke hujung kerana mereka tidak menganggarkan pemalar berangka.

Ini boleh menjadi kecacatan yang serius: bayangkan model yang menjana persamaan dengan 1000 tapak sinusoidal dengan frekuensi yang berbeza. Mengoptimumkan pekali setiap istilah menggunakan BFGS mungkin sesuai untuk kebanyakan set data input, tetapi sebenarnya ia hanyalah cara yang perlahan dan bulat untuk melaksanakan analisis Fourier.

Hanya pada musim bunga tahun 2022, model regresi simbolik berasaskan Transformer generasi kedua telah dikeluarkan pada ArXiv oleh Vastl et al di SymFormer, manakala satu lagi Transformer hujung ke hujung dikeluarkan oleh Kamienny dan rakan sekerja.

Perbezaan penting antara model regresi simbolik berasaskan Transformer ini dan sebelumnya ialah ia meramalkan pemalar berangka serta jujukan matematik simbolik.

SymFormer menggunakan penyahkod Transformer berkepala dua untuk melengkapkan regresi simbolik hujung ke hujung. Satu kepala menghasilkan simbol matematik, dan kepala kedua mempelajari tugas regresi berangka, iaitu menganggar pemalar berangka yang muncul dalam persamaan.

Model hujung ke hujung Kamienny dan Vastl berbeza dari segi butiran, seperti ketepatan anggaran berangka, tetapi penyelesaian kedua-dua kumpulan masih bergantung pada langkah pengoptimuman seterusnya untuk penghalusan.

Walaupun begitu, menurut pengarang, mereka mempunyai masa inferens yang lebih cepat dan menghasilkan keputusan yang lebih tepat daripada kaedah sebelumnya, menghasilkan rangka persamaan yang lebih baik, dan menyediakan titik permulaan yang baik untuk langkah pengoptimuman dan Anggaran pemalar.

Era regresi simbolik akan datang

Sebagian besar, regresi simbolik telah menjadi kaedah pembelajaran mesin yang elegan dan intensif secara pengiraan, dan sejak sedekad lalu ia telah mendapat perhatian yang jauh lebih rendah daripada pembelajaran mendalam umum.

Ini sebahagiannya disebabkan oleh pendekatan kaedah genetik atau kebarangkalian "fire it and lose it", di mana mereka perlu bermula dari awal untuk setiap set data baharu, ciri yang tidak konsisten dengan aplikasi perantaraan daripada pembelajaran mendalam kepada regresi simbolik (seperti AI Feynman) adalah sama.

Menggunakan Transformer sebagai komponen penting dalam regresi simbolik membolehkan model terkini memanfaatkan pra-latihan berskala besar, dengan itu mengurangkan tenaga, masa dan keperluan perkakasan pengiraan pada masa inferens.

Arah aliran ini diperluaskan lagi dengan model baharu yang boleh menganggarkan pemalar berangka dan meramal simbol matematik, membolehkan inferens yang lebih pantas dan ketepatan yang lebih tinggi.

Tugas menjana ungkapan simbolik, yang seterusnya boleh digunakan untuk menjana hipotesis yang boleh diuji, adalah tugas yang sangat manusiawi dan merupakan nadi sains. Kaedah automatik regresi simbolik telah terus membuat kemajuan teknikal yang menarik sepanjang dua dekad yang lalu, tetapi ujian sebenar ialah sama ada ia berguna kepada penyelidik yang melakukan sains sebenar.

Regression simbolik mula menghasilkan lebih banyak hasil saintifik yang boleh diterbitkan di luar demonstrasi teknikal. Pendekatan regresi simbolik Bayesian menghasilkan model matematik baharu untuk meramalkan pembahagian sel.

Kumpulan penyelidikan lain menggunakan model regresi jarang untuk menjana persamaan yang munasabah bagi gelora lautan, membuka jalan kepada model iklim berbilang skala yang dipertingkatkan.

Sebuah projek yang menggabungkan rangkaian saraf graf dan regresi simbolik dengan algoritma genetik Eureqa menyamaratakan ungkapan yang menggambarkan graviti banyak badan dan menghasilkan persamaan baharu yang menerangkan taburan jirim gelap daripada simulator konvensional .

Pembangunan algoritma regresi simbolik pada masa hadapan

Regresi simbolik menjadi alat yang berkuasa dalam kotak alat saintis. Generalisasi dan skalabiliti kaedah berasaskan Transformer masih menjadi topik hangat dan masih belum menembusi amalan saintifik umum. Apabila lebih ramai penyelidik menyesuaikan dan menambah baik model, ia berjanji untuk memajukan lagi penemuan saintifik.

Kebanyakan projek ini dijalankan di bawah lesen sumber terbuka, jadi anda boleh menjangkakan projek tersebut akan memberi kesan dalam masa beberapa tahun, dan aplikasinya mungkin lebih luas daripada perisian proprietari seperti Eureqa dan TuringBot.

Regresi simbolik ialah pelengkap semula jadi kepada output model pembelajaran mendalam, yang selalunya misteri dan sukar untuk ditafsir, manakala output yang lebih mudah difahami dalam bahasa matematik boleh membantu menjana hipotesis baharu yang boleh diuji dan Memacu lompatan intuitif.

Ciri-ciri ini dan keupayaan mudah bagi algoritma regresi simbolik generasi terkini menjanjikan untuk memberikan peluang yang lebih besar untuk detik-detik penemuan penting.

Atas ialah kandungan terperinci Regresi Neurosimbolik: Mengekstrak Sains daripada Data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!