Kepopularan ChatGPT dan GPT-4 telah membawa model bahasa berskala besar ke detik kemuncak mereka setakat ini. Tetapi ke mana hendak pergi seterusnya?
Kajian terbaru yang disertai Yann LeCun menunjukkan bahawa mempertingkatkan model bahasa mungkin merupakan arah yang menjanjikan.
Ini ialah artikel ulasan secara ringkas akan memperkenalkan kandungan utama kertas tersebut.
Model bahasa berskala besar telah menggalakkan kemajuan pemprosesan bahasa semula jadi dan teknologi berkaitan telah mencipta beberapa produk dengan berjuta-juta pengguna, termasuk pembantu pengekodan Copilot, enjin carian Google dan ChatGPT yang popular baru-baru ini. Dengan menggabungkan memori dengan keupayaan gubahan, model bahasa yang besar boleh melaksanakan tugas seperti pemahaman bahasa atau penjanaan teks bersyarat dan tanpa syarat dengan prestasi yang tidak pernah berlaku sebelum ini, menjadikan interaksi manusia-komputer lebar jalur yang lebih tinggi menjadi kenyataan.
Walau bagaimanapun, model bahasa besar masih mempunyai beberapa had yang menghalang penggunaannya yang lebih luas. Model bahasa yang besar selalunya memberikan ramalan bukan fakta tetapi munasabah, sering dipanggil halusinasi. Ini membawa kepada banyak ralat yang boleh dielakkan, contohnya dalam konteks aritmetik atau dalam rantai penaakulan. Di samping itu, seperti yang diukur dengan bilangan parameter yang boleh dilatih, keupayaan terobosan banyak model bahasa yang besar nampaknya muncul apabila skala meningkat Sebagai contoh, sesetengah penyelidik telah menunjukkan bahawa selepas model bahasa yang besar mencapai skala tertentu, ia dapat melaksanakan beberapa tugasan melalui beberapa contoh tugasan bangku BIG. Walaupun beberapa siri karya terbaru telah menghasilkan model bahasa berskala kecil yang masih mengekalkan beberapa ciri model besar, kos latihan dan penyelenggaraan model bahasa besar masih tinggi disebabkan saiz dan keperluan datanya. Pembelajaran berterusan model besar kekal sebagai masalah penyelidikan terbuka, dan Goldberg sebelum ini membincangkan batasan lain model bahasa besar dalam konteks ChatGPT chatbot berasaskan GPT-3.
Dalam kajian baru-baru ini, penyelidik dari Meta dan institusi lain menganalisis bahawa masalah ini berpunca daripada kecacatan penting model bahasa besar: mereka biasanya dilatih untuk Melakukan pemodelan bahasa statistik yang diberikan (i) model parameter tunggal dan (ii) konteks terhad (biasanya n token sebelumnya atau sekitar). Walaupun n telah berkembang disebabkan oleh inovasi dalam perisian dan perkakasan dalam beberapa tahun kebelakangan ini, kebanyakan model masih menggunakan konteks yang agak kecil berbanding dengan konteks berpotensi besar yang diperlukan untuk melaksanakan pemodelan bahasa secara konsisten dengan betul. Oleh itu, model memerlukan skala yang besar untuk menyimpan pengetahuan yang tidak terdapat dalam konteks tetapi perlu untuk melaksanakan tugas yang ada.
Pautan kertas: https://arxiv.org/pdf/2302.07842v1.pdf
Oleh itu, semakin banyak penyelidikan bertujuan untuk menyelesaikan masalah ini, sambil sedikit menyimpang daripada paradigma pemodelan bahasa statistik semata-mata yang disebutkan di atas.
Sebagai contoh, terdapat usaha untuk memintas saiz konteks terhad dengan meningkatkan perkaitan model bahasa besar, dengan menambah maklumat yang diekstrak daripada dokumen luaran yang berkaitan. Dengan melengkapkan model bahasa besar dengan modul yang mendapatkan semula dokumen sedemikian daripada pangkalan data untuk konteks tertentu, adalah mungkin untuk memadankan beberapa keupayaan beberapa model bahasa terbesar dengan parameter yang lebih sedikit. Ambil perhatian bahawa model yang terhasil kini bukan parametrik kerana ia boleh menanyakan sumber data luaran. Secara umumnya, model bahasa juga boleh menambah baik konteksnya melalui strategi inferens untuk menjana konteks yang lebih relevan dan menjimatkan lebih banyak pengiraan sebelum menjana jawapan.
Strategi lain ialah membenarkan model bahasa memanfaatkan alatan luaran untuk menambah konteks semasa dengan maklumat penting yang hilang tidak termasuk dalam pemberat model bahasa. Walaupun kebanyakan kerja ini bertujuan untuk mengurangkan kelemahan model bahasa yang disebutkan di atas, ia juga secara langsung menggambarkan bahawa penggunaan inferens dan alat yang lebih sistematik untuk meningkatkan model bahasa mungkin membawa kepada agen yang lebih berkuasa. Model ini dipanggil Model Bahasa Ditambah (ALM). Apabila aliran ini semakin pesat, bilangan kajian berkaitan meningkat secara mendadak, memerlukan klasifikasi kerja dan takrifan istilah teknikal untuk kegunaan yang berbeza.
Istilah yang digunakan dalam kertas ini ditakrifkan seperti berikut:
Penaakulan. Dalam konteks model bahasa tambahan, inferens ialah penguraian tugasan yang berpotensi kompleks kepada subtugasan yang lebih mudah yang model bahasa boleh diselesaikan dengan lebih mudah dengan sendiri atau menggunakan alatan. Terdapat pelbagai cara untuk mengurai subtugasan, seperti secara rekursif atau berulang. Dalam pengertian ini, penaakulan adalah serupa dengan "perancangan" seperti yang ditakrifkan dalam kertas kerja 2022 LeCun "Laluan Ke Arah Perisikan Mesin Autonomi". Dalam artikel ini, inferens selalunya melibatkan pelbagai strategi untuk meningkatkan kemahiran inferens model bahasa, seperti inferens langkah demi langkah menggunakan beberapa contoh. Ia tidak sepenuhnya jelas sama ada model bahasa itu sebenarnya membuat penaakulan, atau hanya menjana konteks yang lebih besar yang meningkatkan kemungkinan meramalkan token yang hilang dengan betul. Mungkin berguna untuk merujuk perbincangan mengenai topik ini oleh penyelidik lain (Huang dan Chang (2022)): Walaupun penaakulan mungkin merupakan penyalahgunaan bahasa berdasarkan keputusan SOTA semasa, istilah itu sudah digunakan dalam komuniti. Takrifan yang lebih praktikal bagi penaakulan kontekstual dalam model bahasa tambahan ialah memberikan model lebih langkah pengiraan sebelum menjana jawapan kepada gesaan.
Alat. Untuk model bahasa tambahan, alat ialah modul luaran, biasanya dipanggil menggunakan peraturan atau token khas, yang outputnya disertakan dalam konteks bahasa tambahan model. Alat ini boleh mengumpul maklumat luaran atau memberi kesan kepada dunia maya atau fizikal (sering dilihat oleh model bahasa yang ditambah). Contoh alat yang mendapatkan maklumat luaran ialah retriever dokumen, manakala alat yang mempunyai kesan luaran ialah lengan robot. Alat boleh dipanggil semasa latihan atau masa inferens. Secara umum, pembelajaran untuk berinteraksi dengan alat mungkin termasuk pembelajaran untuk memanggil APInya.
Gelagat. Untuk model bahasa ditambah, tindakan menggunakan alat yang memberi kesan pada dunia maya atau fizikal dan memerhatikan hasilnya, biasanya dengan memasukkannya dalam konteks semasa ditambah model bahasa. Sebagai contoh, beberapa karya yang disebut dalam artikel ini membincangkan carian web atau manipulasi senjata robot melalui model bahasa. Untuk menggunakan terminologi secara berlebihan sedikit, penyelidik kadangkala merujuk kepada penggunaan alat oleh model bahasa tambahan sebagai tingkah laku, walaupun ia tidak mempunyai kesan luaran.
Mengapa penaakulan dan alatan perlu dibincangkan bersama? Gabungan penaakulan dan alat dalam model bahasa digunakan untuk menyelesaikan sejumlah besar tugas yang kompleks tanpa memerlukan heuristik dan oleh itu mempunyai keupayaan generalisasi yang lebih baik. Lazimnya, inferens akan memudahkan model bahasa yang menguraikan masalah tertentu kepada subtugasan yang berpotensi lebih mudah, manakala alatan akan membantu mendapatkan setiap langkah yang betul, seperti mendapatkan hasil daripada operasi matematik. Dalam erti kata lain, inferens ialah cara untuk model bahasa menggabungkan alat yang berbeza untuk menyelesaikan tugas yang kompleks, dan alatan ialah cara untuk mengelakkan kegagalan inferens menggunakan penguraian yang cekap. Kedua-duanya harus mendapat manfaat daripada yang lain. Tambahan pula, inferens dan alatan boleh diletakkan di bawah "tudung" yang sama kerana kedua-duanya meningkatkan konteks model bahasa untuk meramalkan token yang hilang dengan lebih baik, walaupun dalam cara yang berbeza.
Mengapa membincangkan alatan dan tindakan bersama? Model bahasa boleh digunakan dengan cara yang sama seperti alatan yang mengumpulkan maklumat tambahan dan memberi kesan kepada dunia maya atau fizikal. Sebagai contoh, nampaknya tiada perbezaan antara model bahasa yang mengeluarkan kod Python untuk menyelesaikan operasi matematik dan model bahasa yang mengeluarkan kod Python untuk mengendalikan lengan robotik. Beberapa kerja yang dibincangkan dalam kertas kerja telah menggunakan model bahasa dengan implikasi untuk dunia maya atau fizikal. Dari sudut pandangan ini, boleh dikatakan bahawa model bahasa mempunyai potensi tingkah laku, dan kemajuan penting yang telah mereka capai sebagai hala tuju untuk ejen automatik juga patut dinanti-nantikan.
Artikel ini membahagikan penyelidikan yang disertakan dalam tinjauan kepada tiga bahagian. Bahagian 2 mengkaji kerja untuk meningkatkan keupayaan penaakulan model bahasa seperti yang ditakrifkan di atas. Bahagian 3 memfokuskan pada kerja yang membolehkan model bahasa berinteraksi dan mengambil tindakan ke atas alat luaran. Akhir sekali, Bahagian 4 meneroka sama ada penaakulan dan penggunaan alat dicapai melalui heuristik atau melalui pembelajaran, contohnya melalui penyeliaan atau peneguhan. Tinjauan ini juga termasuk komponen lain, yang penulis bincangkan dalam Bahagian V. Untuk ringkasnya, tinjauan memfokuskan pada kerja yang menggabungkan inferens atau alatan dengan model bahasa. Akhir sekali, walaupun fokus artikel ini adalah pada model bahasa besar, tidak semua kajian dianggap menggunakan model besar, jadi untuk memastikan ketepatan, model bahasa juga akan dipatuhi dalam penyiasatan yang tinggal.
Inferens
Kerja terdahulu telah menunjukkan bahawa model bahasa besar boleh menyelesaikan masalah inferens yang mudah tetapi bukan yang kompleks: oleh itu, bahagian kertas ini memfokuskan kepada pelbagai strategi untuk meningkatkan kemahiran penaakulan model bahasa. Salah satu cabaran masalah inferens kompleks untuk model linear adalah untuk mendapatkan penyelesaian dengan betul dengan menggabungkan jawapan betul yang diramalkan ke dalam sub-masalah. Sebagai contoh, model bahasa boleh meramalkan tarikh kelahiran dan kematian orang terkenal dengan tepat, tetapi model itu mungkin tidak meramalkan umur dengan tepat. Sesetengah penyelidik merujuk kepada perbezaan ini sebagai jurang komposisi model bahasa. Baki bahagian ini membincangkan kerja yang berkaitan dengan tiga paradigma popular inferens teraruh dalam model bahasa. Memandangkan kerja semasa memfokuskan pada inferens digabungkan dengan alat, pembaca dirujuk di sini kepada perbincangan yang lebih mendalam tentang hasil kerja penyelidik lain mengenai inferens model bahasa besar.
Penggunaan Alat dan Tingkah Laku
Barisan penyelidikan model bahasa terkini membenarkan akses model tidak semestinya disimpan dalam pengetahuan pemberatnya , seperti pengetahuan fakta. Lebih tepat lagi, tugas seperti pengiraan tepat atau mendapatkan maklumat boleh dimuat turun ke modul luaran, seperti penterjemah Python atau modul enjin carian yang ditanya oleh model, dalam hal ini modul ini menggunakan alatan. Tambahan pula, apabila alat mempunyai kesan kepada dunia luar, kita boleh mengatakan bahawa model bahasa melakukan tindakan. Sertakan alat dan tingkah laku dalam bentuk token khas dengan mudah, ciri yang mudah digabungkan dengan pemodelan bahasa Transformer.
Setelah menyemak cara model bahasa boleh dipertingkatkan untuk menggunakan keupayaan mereka untuk menaakul dan menggunakan alatan, tinjauan ini turut menerangkan cara mengajar model untuk menggunakan kebolehan ini.
Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Selepas GPT-4 dikeluarkan, apakah yang akan berlaku kepada model besar yang lain? Yann LeCun: Model bahasa yang dipertingkatkan mungkin cara yang sesuai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!