Dalam tugas pemprosesan bahasa semula jadi, model bahasa besar telah mencapai hasil yang mengagumkan dalam pembelajaran sifar dan beberapa pukulan. Walau bagaimanapun, semua model mempunyai batasan yang wujud yang selalunya hanya boleh ditangani sebahagiannya melalui sambungan lanjut. Khususnya, batasan model termasuk ketidakupayaan untuk mengakses maklumat terkini, "halusinasi maklumat" fakta, kesukaran memahami bahasa sumber rendah, kekurangan kemahiran matematik untuk pengiraan yang tepat, dsb.
Cara mudah untuk menyelesaikan masalah ini adalah dengan melengkapkan model dengan alat luaran, seperti enjin carian, kalkulator atau kalendar. Walau bagaimanapun, kaedah sedia ada sering bergantung pada anotasi manual yang meluas atau mengehadkan penggunaan alatan kepada tetapan tugas tertentu, menjadikan penggunaan model bahasa digabungkan dengan alatan luaran sukar untuk digeneralisasikan.
Untuk memecahkan kesesakan ini, Meta AI baru-baru ini mencadangkan kaedah baharu yang dipanggil Toolformer, yang membolehkan model bahasa belajar "menggunakan" pelbagai alatan luaran.
Alamat kertas: https://arxiv.org/pdf/2302.04761v1.pdf
Pembentuk alat dengan cepat menarik perhatian ramai orang percaya bahawa kertas kerja ini menyelesaikan banyak masalah model bahasa berskala besar semasa dan memuji: "Ini adalah artikel paling penting dalam beberapa minggu kebelakangan ini. kertas" .
Sesetengah orang menyatakan bahawa Toolformer menggunakan pembelajaran diselia sendiri untuk membenarkan model bahasa besar belajar menggunakan beberapa API dan alatan, yang sangat fleksibel dan cekap:
Malah ada yang berpendapat bahawa Toolformer akan menjauhkan kita daripada kecerdasan buatan am ( AGI) Selangkah lebih dekat.
Toolformer mendapat rating yang tinggi kerana ia memenuhi keperluan sebenar berikut:
Ini jelas memecahkan kesesakan yang dinyatakan di atas. Mari kita lihat dengan lebih dekat kaedah Toolformer dan hasil percubaan.
Toolformer menjana set data dari awal berdasarkan model bahasa yang besar dengan pembelajaran dalam konteks (ICL) (Schick dan Schütze, 2021b; Honovich et al. , 2022; Wang et al., 2022) idea: Hanya berikan beberapa sampel manusia yang menggunakan API dan biarkan LM menganotasi set data pemodelan bahasa dengan potensi panggilan API, kemudian gunakan fungsi kehilangan yang diselia sendiri untuk menentukan yang mana Panggilan API sebenarnya membantu model meramalkan token masa hadapan dan akhirnya memperhalusi berdasarkan panggilan API yang berguna kepada LM itu sendiri.
Memandangkan Toolformer adalah agnostik kepada set data yang digunakan, ia boleh digunakan pada set data yang sama persis dengan model yang telah dilatih terlebih dahulu, yang memastikan model tidak kehilangan sebarang keumuman dan keupayaan Pemodelan bahasa.
Secara khusus, matlamat penyelidikan ini adalah untuk melengkapkan model bahasa M dengan keupayaan untuk menggunakan pelbagai alatan melalui panggilan API. Ini memerlukan input dan output setiap API boleh dicirikan sebagai urutan teks. Ini membolehkan panggilan API dimasukkan dengan lancar ke dalam mana-mana teks tertentu, dengan token khas digunakan untuk menandakan permulaan dan akhir setiap panggilan tersebut.
Kajian ini mewakili setiap panggilan API sebagai tupel
, dengan a_c ialah nama API dan i_c ialah input yang sepadan. Memandangkan panggilan API c dengan hasil r yang sepadan, kajian ini mewakili jujukan linear panggilan API tidak termasuk dan termasuk keputusannya sebagai:
Antaranya,
Diberi set data
, kajian mula-mula mengubah set data ini menjadi set data C* dengan tambahan panggilan API. Ini dilakukan dalam tiga langkah, seperti yang ditunjukkan dalam Rajah 2 di bawah: Pertama, kajian ini memanfaatkan keupayaan pembelajaran dalam konteks M untuk mencuba sejumlah besar panggilan API yang berpotensi, kemudian melaksanakan panggilan API ini, dan kemudian menyemak sama ada respons yang diperolehi membantu ramalan. Token masa hadapan untuk digunakan sebagai kriteria penapisan. Selepas penapisan, kajian menggabungkan panggilan API ke alat yang berbeza, akhirnya menjana set data C* dan memperhalusi M itu sendiri pada set data ini.
Kajian ini dijalankan ke atas pelbagai tugas hiliran yang berbeza Keputusan eksperimen menunjukkan bahawa Toolformer berdasarkan parameter 6.7B model GPT-J yang telah dilatih (dipelajari menggunakan pelbagai API dan alatan) dengan ketara mengatasi model GPT-3 yang lebih besar dan beberapa garis dasar lain pada pelbagai tugas.
Kajian ini menilai beberapa model pada subset SQuAD, GoogleRE dan T-REx bagi penanda aras LAMA Keputusan eksperimen ditunjukkan dalam Jadual 3 di bawah:
Untuk menguji keupayaan penaakulan matematik Toolformer, kajian ini menjalankan eksperimen pada tanda aras ASDiv, SVAMP dan MAWPS. Eksperimen menunjukkan bahawa Toolformer menggunakan alat kalkulator dalam kebanyakan kes, yang jauh lebih baik daripada OPT (66B) dan GPT-3 (175B).
Dari segi menjawab soalan, kajian menjalankan eksperimen ke atas tiga set data menjawab soalan: Soalan Web, Soalan Semulajadi dan TriviaQA. Toolformer dengan ketara mengatasi model garis dasar dengan saiz yang sama, tetapi lebih rendah daripada GPT-3 (175B).
Dari segi tugasan merentas bahasa, kajian ini membandingkan semua model garis dasar pada Toolformer dan MLQA, dan hasilnya adalah seperti berikut Seperti yang ditunjukkan dalam Jadual 6:
Bagi mengkaji utiliti API kalendar, kajian telah dijalankan pada TEMPLAMA dan yang baharu dipanggil Eksperimen DATESET telah dijalankan pada beberapa model pada set data. Toolformer mengatasi semua garis dasar tetapi tidak menggunakan alat kalendar TEMPLAMA.
Selain mengesahkan penambahbaikan prestasi pada pelbagai tugas hiliran, kajian ini juga berharap untuk memastikan prestasi pemodelan bahasa Toolformer tidak terjejas oleh penalaan halus panggilan API. Untuk tujuan ini, kajian ini menjalankan eksperimen ke atas dua set data pemodelan bahasa untuk dinilai, dan kebingungan model ditunjukkan dalam Jadual 8 di bawah.
Untuk pemodelan bahasa tanpa sebarang panggilan API, tiada kos untuk menambah panggilan API.
Akhir sekali, penyelidik menganalisis bahawa apabila saiz model bahasa meningkat, keupayaan untuk mendapatkan bantuan daripada alat luaran mempunyai kesan ke atas model. Kesan prestasi, hasil analisis ditunjukkan dalam Rajah 4 di bawah
Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut Kaji butiran.
Atas ialah kandungan terperinci Adakah model bahasa belajar menggunakan enjin carian sendiri? Meta AI mencadangkan API panggilan penyeliaan sendiri kaedah pembelajaran Toolformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!