Rumah Peranti teknologi AI Kerja baharu daripada pengarang Mamba: Menyuling Llama3 menjadi RNN linear hibrid

Kerja baharu daripada pengarang Mamba: Menyuling Llama3 menjadi RNN linear hibrid

Sep 02, 2024 pm 01:41 PM
projek

Kunci kejayaan besar Transformer dalam bidang pembelajaran mendalam ialah mekanisme perhatian. Mekanisme perhatian membolehkan model berasaskan Transformer menumpukan pada bahagian yang berkaitan dengan jujukan input, mencapai pemahaman konteks yang lebih baik. Walau bagaimanapun, kelemahan mekanisme perhatian ialah overhed pengiraan adalah tinggi, yang meningkat secara kuadratik dengan saiz input, menjadikannya sukar bagi Transformer untuk mengendalikan teks yang sangat panjang.

Beberapa masa lalu, kemunculan Mamba memecahkan keadaan ini, yang boleh mencapai pengembangan linear apabila panjang konteks meningkat. Dengan keluaran Mamba, model angkasa lepas (SSM) ini sudah boleh memadankan atau bahkan mengatasi Transformer pada skala kecil hingga sederhana, sambil mengekalkan kebolehskalaan linear dengan panjang jujukan, yang memberikan ciri-ciri penggunaan yang menguntungkan Mamba.

Ringkasnya, Mamba mula-mula memperkenalkan mekanisme pemilihan yang mudah tetapi berkesan, yang boleh meparameterkan semula SSM mengikut input, membolehkan model mengekalkan maklumat yang diperlukan selama-lamanya sambil menapis maklumat yang tidak berkaitan dan data yang berkaitan.

Baru-baru ini, kertas kerja bertajuk "The Mamba in the Llama: Distilling and Accelerating Hybrid Models" membuktikan bahawa dengan menggunakan semula pemberat lapisan perhatian, transformer besar boleh disuling menjadi RNN linear hibrid besar, hanya pengiraan tambahan minimum sambil mengekalkan kebanyakan kualiti binaannya.

Model hibrid yang terhasil, yang mengandungi satu perempat daripada lapisan perhatian, mencapai prestasi yang setanding dengan Transformer asal dalam penanda aras sembang, dan mengatasi prestasi menggunakan data dalam penanda aras sembang dan penanda aras umum Model Mamba hibrid sumber terbuka dilatih dari awal dengan trilion token. Selain itu, kajian itu mencadangkan algoritma penyahkodan spekulatif peka perkakasan yang mempercepatkan inferens untuk model Mamba dan hibrid.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Alamat kertas: https://arxiv.org/pdf/2408.15237

Model berprestasi terbaik kajian ini adalah daripada Llama3-8B-Instruct Distilled , ia mencapai kadar kemenangan terkawal panjang 29.61 pada AlpacaEval 2 berbanding GPT-4, dan kadar kemenangan 7.35 pada MT-Bench, mengatasi model RNN linear terlaras arahan terbaik.

Kaedah

Penyulingan Pengetahuan (KD) ialah teknik pemampatan model yang digunakan untuk memindahkan pengetahuan daripada model besar (model guru) kepada model yang lebih kecil (model pelajar) ), yang bertujuan untuk melatih rangkaian pelajar untuk meniru tingkah laku rangkaian guru. Penyelidikan bertujuan untuk menyaring Transformer supaya prestasinya setanding dengan model bahasa asal.

Kajian ini mencadangkan kaedah penyulingan berbilang peringkat yang menggabungkan penyulingan progresif, penalaan halus diselia dan pengoptimuman keutamaan arah. Berbanding dengan penyulingan biasa, kaedah ini boleh mencapai kebingungan yang lebih baik dan keputusan penilaian hiliran.

Kajian ini mengandaikan bahawa kebanyakan pengetahuan daripada Transformer dikekalkan dalam lapisan MLP yang dipindahkan daripada model asal, dan memfokuskan pada langkah penalaan halus dan penjajaran LLM suling. Semasa fasa ini, lapisan MLP kekal beku dan lapisan Mamba dilatih.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Kajian ini percaya bahawa terdapat beberapa hubungan semula jadi antara RNN linear dan mekanisme perhatian. Formula perhatian boleh dilinearkan dengan mengalih keluar softmax:

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Tetapi perhatian linear akan membawa kepada kemerosotan keupayaan model. Untuk mereka bentuk RNN ​​linear suling yang cekap, kajian ini mendekati parameterisasi Transformer asal sedekat mungkin sambil memanjangkan kapasiti RNN linear dengan cara yang cekap. Kajian ini tidak cuba untuk memastikan model baharu menangkap fungsi perhatian asal yang tepat, sebaliknya menggunakan bentuk linear sebagai titik permulaan untuk penyulingan.

Seperti yang ditunjukkan dalam Algoritma 1, kajian ini menyuapkan kepala standard Q, K, V dari mekanisme perhatian terus ke pendiskretan Mamba dan kemudian menggunakan RNN linear yang terhasil. Ini boleh dianggap sebagai menggunakan perhatian linear untuk pemulaan kasar dan membolehkan model mempelajari interaksi yang lebih kaya melalui keadaan tersembunyi lanjutan.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Kajian ini secara langsung menggantikan kepala perhatian Transformer dengan lapisan RNN linear yang diperhalusi, memastikan lapisan MLP Transformer tidak berubah dan tidak melatihnya. Pendekatan ini juga perlu mengendalikan komponen lain, seperti perhatian pertanyaan berkumpulan yang berkongsi kunci dan nilai di seluruh kepala. Pasukan penyelidik menyatakan bahawa seni bina ini, tidak seperti yang digunakan dalam banyak sistem Mamba, membenarkan permulaan ini menggantikan sebarang blok perhatian dengan blok RNN ​​linear.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Penyelidikan ini juga mencadangkan algoritma baharu untuk penyahkodan spekulatif RNN linear menggunakan penjanaan berbilang langkah yang menyedari perkakasan.

Algoritma 2 dan Rajah 2 menunjukkan algoritma lengkap. Pendekatan ini hanya menyimpan keadaan tersembunyi RNN dalam cache untuk pengesahan dan malas memajukannya berdasarkan kejayaan kernel berbilang langkah. Memandangkan model penyulingan mengandungi lapisan pengubah, kajian ini juga memanjangkan penyahkodan spekulatif kepada seni bina hibrid Attention/RNN. Dalam persediaan ini, lapisan RNN melakukan pengesahan mengikut Algoritma 2, manakala lapisan Transformer hanya melakukan pengesahan selari.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Untuk mengesahkan keberkesanan kaedah ini, kajian menggunakan Mamba 7B dan Mamba 2.8B sebagai model sasaran untuk spekulasi. Keputusan ditunjukkan dalam Jadual 1.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Rajah 3 menunjukkan ciri prestasi kernel berbilang langkah itu sendiri.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Pecutan pada GPU H100. Algoritma yang dicadangkan dalam kajian ini menunjukkan prestasi yang kukuh pada GPU Ampere, seperti ditunjukkan dalam Jadual 1 di atas. Tetapi terdapat cabaran besar pada GPU H100. Ini terutamanya kerana operasi GEMM terlalu pantas, yang menjadikan overhed yang disebabkan oleh operasi caching dan pengiraan semula lebih ketara. Sesungguhnya, pelaksanaan mudah algoritma yang dikaji (menggunakan berbilang panggilan kernel berbeza) mencapai kelajuan yang besar pada 3090 GPU, tetapi tiada kelajuan langsung pada H100.

Eksperimen dan keputusan

Kajian ini menggunakan dua model sembang LLM untuk eksperimen: Zephyr-7B diperhalusi berdasarkan model Mistral 7B dan Llama- 3 Instruct 8B. Untuk model RNN linear, kajian ini menggunakan versi hibrid Mamba dan Mamba2 dengan lapisan perhatian masing-masing 50%, 25%, 12.5%, dan 0%, dan memanggil 0% model Mamba tulen. Mamba2 ialah varian seni bina Mamba yang direka khas untuk seni bina GPU terkini.

Penilaian pada Penanda Aras Sembang

Jadual 2 menunjukkan prestasi model pada Penanda Aras Sembang Model utama yang dibandingkan ialah model Transformer yang besar. Keputusan menunjukkan:

Model Mamba hibrid suling (50%) mencapai skor yang sama dengan model guru dalam penanda aras MT, dan lebih baik sedikit daripada model guru dalam penanda aras AlpacaEval dari segi kadar kemenangan LC dan kadar kemenangan keseluruhan.

Prestasi Mamba hibrid suling (25% dan 12.5%) adalah lebih buruk sedikit daripada model guru pada penanda aras MT, tetapi walaupun dengan lebih banyak parameter dalam AlpcaaEval ia masih mengatasi beberapa Transformer besar.

Ketepatan model Mamba tulen suling (0%) menurun dengan ketara.

Perlu diingat bahawa model hibrid suling berprestasi lebih baik daripada Falcon Mamba, yang dilatih dari awal menggunakan lebih daripada token 5T.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Penilaian tanda aras am

Penilaian sampel sifar. Jadual 3 menunjukkan prestasi pukulan sifar Mamba dan Mamba2 yang disuling daripada model guru yang berbeza pada penanda aras LM Eval. Model hibrid Mamba-Llama3 dan Mamba2-Llama3 yang disuling daripada Llama-3 Instruct 8B berprestasi lebih baik berbanding model TRI Mamba dan Nvidia Mamba sumber terbuka yang dilatih dari awal.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Penilaian penanda aras. Jadual 4 menunjukkan bahawa prestasi model hibrid suling sepadan dengan model RNN linear sumber terbuka terbaik pada Papan Pendahulu LLM Terbuka, sambil mengatasi prestasi model arahan sumber terbuka sepadan dalam GSM8K dan CRUX.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Penyahkodan Spekulatif Hibrid

Untuk model penyulingan 50% dan 25%, berbanding garis dasar bukan spekulatif, kajian ini Mencapai lebih 1.8x kelajuan pada Zephyr-Hybrid.

Eksperimen juga menunjukkan bahawa model draf 4 lapisan yang dilatih dalam kajian ini mencapai kadar penerimaan yang lebih tinggi, tetapi disebabkan peningkatan dalam saiz model draf, overhed tambahan juga menjadi lebih besar. Dalam kerja-kerja seterusnya, penyelidikan ini akan menumpukan pada mengecilkan model draf ini.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Perbandingan dengan kaedah penyulingan lain: Jadual 6 (kiri) membandingkan kebingungan varian model yang berbeza. Kajian itu melakukan penyulingan dalam satu zaman menggunakan Ultrachat sebagai gesaan benih dan membandingkan kebingungan. Ternyata mengalih keluar lebih banyak lapisan memburukkan keadaan. Kajian itu juga membandingkan kaedah penyulingan dengan garis dasar sebelumnya dan mendapati kaedah baharu menunjukkan kemerosotan yang lebih kecil, manakala model Distill Hyena dilatih pada dataset WikiText menggunakan model yang lebih kecil dan menunjukkan tahap kecelaruan yang lebih besar.

Jadual 6 (kanan) menunjukkan bahawa menggunakan SFT atau DPO sahaja tidak menghasilkan banyak peningkatan, manakala menggunakan SFT + DPO menghasilkan skor terbaik.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Jadual 7 membandingkan kajian ablasi untuk beberapa model berbeza. Jadual 7 (kiri) menunjukkan hasil penyulingan menggunakan pelbagai permulaan, dan Jadual 7 (kanan) menunjukkan keuntungan yang lebih kecil daripada penyulingan progresif dan lapisan perhatian interleaving dengan Mamba.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Jadual 8 membandingkan prestasi model hibrid menggunakan dua kaedah permulaan yang berbeza: keputusan mengesahkan bahawa permulaan berat perhatian adalah penting.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Jadual 9 membandingkan prestasi model dengan dan tanpa blok Mamba. Model dengan blok Mamba menunjukkan prestasi yang lebih baik daripada model tanpa blok Mamba. Ini mengesahkan bahawa penambahan lapisan Mamba adalah penting dan peningkatan prestasi bukan semata-mata disebabkan oleh mekanisme perhatian yang tinggal.

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Atas ialah kandungan terperinci Kerja baharu daripada pengarang Mamba: Menyuling Llama3 menjadi RNN linear hibrid. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

See all articles