Baru-baru ini, sekumpulan saintis komputer telah membangunkan model pembelajaran mesin yang lebih fleksibel dan anjal Mereka mempunyai keupayaan untuk melupakan maklumat yang diketahui secara berkala, ciri yang tidak ada pada model bahasa besar sedia ada.
Pengukuran sebenar menunjukkan bahawa dalam banyak kes, "kaedah melupakan" sangat cekap dalam latihan, dan model melupakan akan berprestasi lebih baik. Jea Kwon, seorang jurutera AI di Institut Sains Asas di Korea, berkata bahawa penyelidikan baharu itu bermakna kemajuan ketara dalam bidang AI.
Kebanyakan enjin bahasa AI arus perdana semasa menggunakan teknologi rangkaian saraf tiruan. Setiap "neuron" dalam struktur rangkaian ini sebenarnya adalah fungsi matematik Mereka disambungkan antara satu sama lain, menerima dan menghantar maklumat, dan merealisasikan pemprosesan dan pembelajaran data melalui operasi kompleks berbilang lapisan neuron. Kaedah simulasi rangkaian saraf ini membolehkan AI mensimulasikan cara kerja otak manusia, dengan itu mencapai tingkah laku pintar seperti manusia.
Pada mulanya, aliran maklumat adalah lebih kurang rawak Memandangkan rangkaian terus memadankan data latihan, maklumat yang mengalir antara neuron akan terus dioptimumkan. Sebagai contoh, jika penyelidik ingin melatih model terjemahan dwibahasa, ia mula-mula mengumpulkan sejumlah besar teks dwibahasa dan menggunakan teks untuk melatih model Ia melaraskan hubungan antara neuron untuk membandingkan teks dalam satu bahasa dengan teks yang setara dalam yang lain bahasa.
Latihan di atas memerlukan banyak sumber pengkomputeran. Jika model berprestasi buruk, atau pengguna memerlukan perubahan, model mungkin tidak dapat memenuhi keperluan.
Penyelidik Mikel Artetxe menegaskan: "Andaikan anda mempunyai model yang mengandungi 100 bahasa, tetapi satu bahasa tidak disertakan. Jika anda ingin menambah bahasa ini pada model, anda mesti melatih semula
Beberapa Tahun lalu, Artetxe dan rakan sekerja menggunakan bahasa untuk melatih rangkaian saraf, dan mereka memadamkan maklumat komposisi perkataan yang diketahui oleh rangkaian saraf, yang dipanggil "Token". Token disimpan dalam lapisan pertama rangkaian saraf, yang juga dipanggil "lapisan benam". Untuk lapisan lain, abaikan mereka. Selepas memadamkan Token bahasa pertama dan latihan dalam bahasa kedua, Token baharu bahasa kedua boleh diisi ke dalam lapisan pembenaman.
Walaupun model mengandungi sejumlah besar maklumat yang tidak sepadan, ia masih boleh dilatih semula dalam bahasa kedua, yang bermaksud model itu boleh mempelajari dan memproses bahasa kedua. Para penyelidik percaya bahawa walaupun lapisan benam menyimpan maklumat khusus perbendaharaan kata bahasa kedua, rangkaian saraf menyimpan maklumat abstrak di peringkat bawah, yang melibatkan konsep di sebalik tabir bahasa manusia Ia adalah konsep-konsep ini yang membantu model belajar bahasa kedua.
Chen Yihong, pengarang laporan penyelidikan, percaya: "Kami hidup dalam dunia yang sama dan menggunakan perkataan dalam bahasa yang berbeza untuk menyatakan konsep yang sama. Oleh itu, akan ada tahap penaakulan yang sama dalam model, seperti epal, ia manis dan lazat , ia mewakili lebih daripada sekadar perkataan "
Menambah bahasa baharu pada model yang telah dilatih adalah sangat cekap menggunakan "kaedah melupakan". Namun, ia masih memerlukan latihan semula, yang masih memerlukan latihan. data yang besar dan kuasa pemprosesan yang berkuasa. Adakah terdapat cara yang lebih baik? Sudah tentu, tidak perlu melatih, hanya padamkan lapisan pembenaman dan kemudian latih semula, iaitu, tetapkan semula lapisan pembenaman secara berkala semasa latihan awal.
Artetxe berkata: "Dengan cara ini, keseluruhan model boleh menyesuaikan diri dengan tetapan semula. Jika anda ingin memanjangkan model dan menyesuaikannya dengan bahasa lain, prosesnya akan menjadi lebih mudah
Para penyelidik bereksperimen dengan Roberta, model bahasa besar yang agak umum yang dilatih menggunakan teknik melupakan berkala, dan membandingkannya dengan model yang dilatih menggunakan kaedah standard dan tidak melupakan. Keputusan menunjukkan bahawa apabila memproses bahasa pertama, model lupa mendapat 85.1 mata dan model standard tradisional mendapat 86.1 mata. Apabila latihan dalam bahasa kedua, hanya menggunakan kira-kira 5 juta Token (70 bilion digunakan dalam bahasa pertama), skor ketepatan model lupa menurun kepada 62.7 mata, dan model standard menurun kepada 53.3 mata.
Jika penyelidik mengenakan kekangan pengiraan semasa latihan semula, model lupa akan berprestasi lebih baik. Sebagai contoh, apabila penyelidik memendekkan panjang latihan daripada 125,000 langkah kepada 5,000 langkah, skor purata model yang tidak belajar adalah kira-kira 57.8 mata, dan model standard menurun kepada 37.2 mata, hampir meneka.
Jadi para penyelidik membuat kesimpulan bahawa model lupa menunjukkan prestasi yang lebih baik apabila mempelajari bahasa.
Evgenii Nikishin, seorang penyelidik di Quebec Deep Learning Research Centre Mila, percaya: "Oleh kerana model sentiasa lupa dan kemudian belajar semula semasa latihan, ia akan menjadi lebih mudah untuk mengajar rangkaian sesuatu yang baharu nanti." bahasa pada tahap yang lebih mendalam daripada sekadar makna perkataan individu.
Kaedah melupakan agak serupa dengan mod operasi otak manusia. Benjamin Levy, seorang ahli sains saraf di Universiti San Francisco, percaya: "Memori manusia agak tidak tepat apabila menyimpan sejumlah besar maklumat terperinci. Tetapi otak manusia boleh mengingati perkara-perkara penting pengalaman, mengingat maklumat abstrak, dan pandai membuat kesimpulan. Biarkan AI memproses maklumat seperti manusia, seperti membiarkan Ia mempunyai keupayaan untuk melupakan, dan AI mungkin lebih fleksibel "
Yihong Chen percaya bahawa model bahasa pembuatan kilang mungkin muncul pada masa hadapan. Kilang sedemikian memerlukan teknologi melupakan, yang merupakan satu. model asas yang boleh cepat menyesuaikan diri dengan bidang baharu. (Pisau)
Atas ialah kandungan terperinci Dengan merujuk kepada otak manusia, adakah pembelajaran untuk melupakan menjadikan model AI besar lebih baik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!