Baru-baru ini, terdapat minat yang besar terhadap keupayaan berkuasa yang ditunjukkan oleh model bahasa berskala besar (seperti rantai pemikiran[2], pad gores[3]), dan banyak kerja telah dijalankan. Kami secara kolektif merujuk kepada ini sebagai keupayaan muncul model besar [4]. Keupayaan ini mungkin [5] hanya wujud dalam model besar tetapi tidak dalam model yang lebih kecil, jadi ia dipanggil "emergent". Banyak daripada keupayaan ini sangat mengagumkan, seperti penaakulan yang kompleks, penaakulan pengetahuan, dan keteguhan di luar pengedaran, yang akan kita bincangkan secara terperinci kemudian.
Terutamanya, keupayaan ini hampir dengan apa yang dicari oleh komuniti NLP selama beberapa dekad, dan dengan itu mewakili anjakan paradigma penyelidikan yang berpotensi daripada memperhalusi model kecil kepada menggunakan model besar untuk pembelajaran kontekstual. Bagi penggerak pertama, anjakan paradigma mungkin jelas. Walau bagaimanapun, demi ketegasan saintifik, kita memerlukan sebab yang sangat jelas mengapa seseorang itu perlu beralih kepada model bahasa yang besar, walaupun model ini mahal [6] dan sukar untuk digunakan [ 7 ], dan kesannya mungkin sederhana[8]. Dalam artikel ini, kami akan melihat dengan lebih dekat apakah keupayaan ini, model bahasa besar yang boleh ditawarkan dan potensi kelebihannya dalam julat tugas NLP/ML yang lebih luas.
Pautan asal: yaofu.notion.site/A-Closer-Look-at-Large-Language-Models-Emergent-Abilities-493876b55df5479d80686d7>Jadual Kandungan
Prasyarat: Kami menganggap pembaca mempunyai pengetahuan berikut:
Dalam pemaparan di atas, kita boleh melihat prestasi model:
Apabila saiz Apabila model agak kecil, tidak banyak peningkatan
Apabila model menjadi lebih besar, terdapat peningkatan yang ketara
Dalam artikel ini, kami amat berminat dengan keupayaan berikut:
1 Komuniti NLP telah memberi perhatian kepadanya sejak beberapa tahun kebelakangan ini , tetapi Keupayaan NLP sebelumnya yang sukar dicapai oleh model 2 Keupayaan yang diperolehi daripada intipati terdalam bahasa manusia (depth of capabilities)
. 3. Keupayaan yang mungkin mencapai tahap kecerdasan manusia yang tertinggi (had atas keupayaan)
2. Tiga contoh tipikal kebolehan yang muncul
Banyak yang menarik kebolehan boleh dikelaskan seperti di atas Antara kategori yang disebutkan dalam artikel, antaranya, kami membincangkan tiga kebolehan tipikal berikut:
Penaakulan yang kompleks
Penaakulan yang rumit
Berikut ialah contoh dalam set data GSM8K yang menggunakan perkataan gesaan dengan ketara melebihi penalaan halus:
Walaupun soalan ini mudah untuk kanak-kanak berumur 10 tahun, ia adalah sukar untuk model bahasa, terutamanya disebabkan oleh gabungan matematik dan bahasa.
GSM8K pada asalnya dicadangkan oleh OpenAI pada Oktober 2021 [10]. Pada masa itu, mereka menggunakan versi pertama [11]GPT3 untuk memperhalusi keseluruhan set latihan, dengan ketepatan kira-kira 35%. Keputusan ini menjadikan pengarang agak pesimis, kerana keputusan mereka menunjukkan undang-undang penskalaan model bahasa: apabila saiz model meningkat secara eksponen, prestasi meningkat secara linear (saya akan membincangkannya kemudian). Oleh itu, mereka merenung dalam Bahagian 4.1:
“Model 175B nampaknya memerlukan sekurang-kurangnya dua urutan magnitud lebih banyak data latihan untuk mencapai kadar penyelesaian 80%. ”
Tiga bulan kemudian, pada Januari 2022, Wei et al. Contoh meningkatkan ketepatan kepada 56.6% (tanpa meningkatkan set latihan sebanyak dua urutan magnitud). Kemudian pada Mac 2022, Wang et al. [13] berdasarkan model PaLM 540B yang sama dan meningkatkan ketepatan kepada 74.4% melalui kaedah undian majoriti. SOTA semasa datang daripada kerja saya sendiri pada AI2 (Fu et. al. Nov 2022[14]), di mana kami mencapai ketepatan 82.9% pada Codex 175B dengan menggunakan rantai pemikiran yang kompleks. Seperti yang dapat dilihat daripada kemajuan di atas, kemajuan teknologi sememangnya berkembang dengan pesat. Gesaan rantai pemikiran ialah contoh tipikal untuk menunjukkan keupayaan muncul model apabila ia berskala:
Daripada keupayaan yang timbul Mari kita lihat
[17] dan juga masalah Olimpik Matematik Antarabangsa[ 18] . Adakah ia lebih sejuk sekarang? Pengetahuan Penaakulan
Contoh seterusnya ialah kebolehan penaakulan yang memerlukan pengetahuan (seperti soal jawab dan akal penaakulan). Dalam kes ini, menggesa model besar tidak semestinya lebih baik daripada memperhalusi model kecil (model mana yang lebih baik masih perlu dilihat). Tetapi kecekapan anotasi dalam kes ini diperkuatkan kerana:
Dalam banyak set data, untuk mendapatkan latar belakang/pengetahuan akal sehat yang diperlukan, model (sebelum ini kecil) An external graf korpus/pengetahuan diperlukan untuk mendapatkan
[19]Seperti yang ditunjukkan dalam jadual, tidak seperti contoh masalah matematik, GPT-3 tidak begitu ketara mengatasi model diperhalusi sebelumnya. Tetapi ia tidak perlu diambil dari dokumen luar, ia sendiri mengandungi pengetahuan [23]
.Untuk memahami kepentingan keputusan ini, kita boleh melihat kembali sejarah: komuniti NLP telah menghadapi cabaran cara mengekod pengetahuan dengan cekap dari awal. Orang ramai sentiasa meneroka cara untuk menyimpan pengetahuan di luar atau di dalam model. Sejak 1990-an, orang ramai telah cuba merekodkan peraturan bahasa dan dunia di perpustakaan gergasi, menyimpan pengetahuan di luar model. Tetapi ini sangat sukar, lagipun, kita tidak boleh menghabiskan semua peraturan. Oleh itu, penyelidik mula membina pangkalan pengetahuan khusus domain untuk menyimpan pengetahuan dalam bentuk teks tidak berstruktur, separa berstruktur (seperti Wikipedia) atau berstruktur sepenuhnya (seperti graf pengetahuan). Secara amnya, pengetahuan berstruktur sukar untuk dibina (kerana sistem struktur pengetahuan perlu direka bentuk), tetapi mudah untuk menaakul (kerana seni bina), pengetahuan tidak berstruktur adalah mudah untuk dibina (hanya simpan terus), tetapi sukar untuk digunakan untuk alasan (tiada seni bina). Walau bagaimanapun, model bahasa menyediakan cara baharu untuk mengekstrak pengetahuan dengan mudah daripada teks dan alasan yang tidak berstruktur berdasarkan pengetahuan dengan cekap tanpa memerlukan corak yang telah ditetapkan. Jadual berikut membandingkan kebaikan dan keburukan: Keteguhan luar pengedaran Keupayaan ketiga yang kita bincangkan ialah keteguhan luar pengedaran. Antara tahun 2018 dan 2022, terdapat banyak penyelidikan mengenai anjakan pengedaran/kekukuhan musuh/penjanaan gabungan dalam bidang NLP, CV dan pembelajaran mesin am Didapati bahawa apabila pengedaran set ujian berbeza daripada pengedaran latihan, tingkah laku prestasi model mungkin akan menurun dengan ketara. Walau bagaimanapun, ini nampaknya tidak berlaku dalam pembelajaran konteks model bahasa besar. Penyelidikan oleh Si et al.[24] pada 2022 menunjukkan: Data datang daripada Si al. Begitu juga, dalam eksperimen ini, kesan GPT-3 berdasarkan kata gesaan di bawah pengedaran yang sama tidak sebaik RoBERTa yang ditala halus. Tetapi ia mengatasi RoBERTa dalam tiga pengedaran lain (penukaran domain, bunyi bising dan gangguan musuh), yang bermaksud GPT3 lebih mantap. Selain itu, walaupun terdapat anjakan pengedaran, prestasi generalisasi yang dibawa oleh kata-kata gesaan yang baik akan tetap dikekalkan. Contohnya: Imej daripada Fu et al. Walaupun pengedaran ujian berbeza daripada pengedaran latihan, isyarat yang kompleks sentiasa lebih baik daripada isyarat mudah Petunjuk berprestasi lebih baik. Kajian 2022 Fu et al. [25] menunjukkan bahawa lebih kompleks gesaan input, lebih baik prestasi model. Aliran ini berterusan di bawah anjakan pengedaran: isyarat kompleks secara konsisten mengatasi isyarat mudah, sama ada pengedaran ujian berbeza daripada pengedaran asal, datang daripada pengedaran hingar atau dipindahkan daripada pengedaran lain. Ringkasan setakat ini Di atas, saya membincangkan tiga jenis yang hanya terdapat pada model besar Emergent ability. Mereka ialah: Memandangkan kelebihan yang disenaraikan di atas, anda mungkin mula berfikir bahawa model bahasa yang besar sememangnya sangat baik. Sebelum membincangkan lebih lanjut, mari kita semak kerja sebelumnya dan kita akan mendapati soalan yang sangat pelik: GPT-3 dikeluarkan pada 2020, tetapi mengapa kita tidak menemui dan mula memikirkan anjakan paradigma sehingga sekarang? Jawapan kepada soalan ini terletak pada dua jenis lengkung: lengkung linear logaritma dan lengkung perubahan fasa. Seperti yang ditunjukkan di bawah: Gambar kiri: Hukum kadaran. Apabila saiz model berkembang secara eksponen, prestasi model yang sepadan berkembang secara linear. Kanan: Apabila saiz model mencapai skala tertentu, keupayaan yang muncul akan muncul, membolehkan prestasi meningkat secara mendadak. Pada mulanya, penyelidik (OpenAI) percaya bahawa hubungan antara prestasi model bahasa dan saiz model boleh diramalkan oleh lengkung log-linear, iaitu model saiz meningkat secara eksponen, prestasi akan meningkat secara linear. Fenomena ini dikenali sebagai undang-undang penskalaan model bahasa, seperti yang dibincangkan oleh Kaplan et al dalam artikel asal 2020 GPT3. Yang penting, pada peringkat itu, walaupun GPT-3 terbesar tidak dapat mengatasi penalaan halus model kecil dengan petunjuk. Oleh itu, tidak perlu menggunakan model besar yang mahal pada masa itu (walaupun pelabelan perkataan cepat sangat cekap). Sehingga 2021, Cobbe et al. [28] mendapati bahawa undang-undang penskalaan juga terpakai untuk penalaan halus. Ini adalah penemuan yang agak pesimis, kerana ini bermakna bahawa kita mungkin dikunci dalam saiz model - manakala pengoptimuman seni bina model mungkin meningkatkan prestasi model sedikit sebanyak, kesannya masih akan Dikunci dalam julat ( sepadan dengan saiz model), sukar untuk mendapatkan kejayaan yang lebih ketara . Di bawah kawalan undang-undang penskalaan (2020 hingga 2021), memandangkan GPT-3 tidak dapat mengatasi prestasi penalaan halus T5-11B, dan penalaan halus T5-11B sudah sangat menyusahkan, jadi NLP Tumpuan komuniti lebih kepada mengkaji model yang lebih kecil atau penyesuaian parameter yang cekap. Penalaan awalan[29] [30] pada 2021. Logik pada masa itu adalah mudah: Jika kesan penalaan halus adalah lebih baik, kita harus berusaha lebih pada penyesuaian parameter yang cekap; jika kaedah perkataan segera adalah lebih baik, kita harus melabur lebih banyak tenaga dalam melatih model bahasa besar. Lewat Januari 2022, karya Rantaian Pemikiran telah dikeluarkan. Seperti yang ditunjukkan oleh pengarang, isyarat rantai pemikiran mempamerkan peralihan fasa Apabila menggunakan rantaian pemikiran untuk gesaan, model besar menunjukkan prestasi yang lebih baik daripada penalaan halus pada penaakulan yang kompleks, berdaya saing pada penaakulan pengetahuan dan diedarkan dengan mantap Terdapat juga beberapa potensi. Ia hanya memerlukan kira-kira 8 contoh untuk mencapai kesan sedemikian, itulah sebabnya paradigma mungkin berubah (Nota: Artikel ini telah disiapkan sebulan sebelum ChatGPT pergi dalam talian; selepas ChatGPT pergi dalam talian, seluruh bidang terkejut dan menyedari bahawa paradigma telah berubah. ). 4. Apakah maksud anjakan paradigma?
Faedah perkataan segera adalah jelas: kami tidak lagi memerlukan anotasi data yang membosankan dan penalaan halus pada jumlah penuh data Kami hanya perlu menulis perkataan segera dan mendapatkan hasil yang memenuhi keperluan, iaitu banyak lebih cepat daripada penalaan halus. Dua perkara lain yang perlu diberi perhatian ialah: Adakah pembelajaran kontekstual diselia pembelajaran? Adakah pembelajaran kontekstual benar-benar lebih baik daripada pembelajaran diselia? Mari kita semak logik yang dinyatakan di atas: Jika penalaan halus adalah lebih baik, kita harus bekerja keras untuk mengkaji cara mengoptimumkan parameter dengan cekap jika kata-kata segera adalah lebih baik, kita harus Berusaha melatih model bahasa besar yang lebih baik. Jadi, walaupun kami percaya bahawa model bahasa yang besar mempunyai potensi yang besar, Masih tiada bukti konklusif bahawa kata penalaan halus atau isyarat adalah lebih baik, jadi kami tidak 't Tentukan sama ada paradigma benar-benar perlu beralih, atau sejauh mana ia harus beralih. Adalah sangat bermakna untuk membandingkan kedua-dua paradigma ini dengan teliti untuk memberi kita pemahaman yang jelas tentang masa depan. Kami meninggalkan lebih banyak perbincangan untuk artikel seterusnya. Dua nombor: 62B dan 175B. 62B Nombor ini datang daripada jadual kelima kerja Chung et al. 2022 [31]: Untuk semua model yang lebih kecil daripada 62B, menggunakan perkataan segera secara langsung adalah lebih baik daripada rantai pemikiran. Model pertama yang lebih baik menggunakan rantai pemikiran ialah hasil Flan-cont-PaLM 62B pada BBH. Model 540B yang menggunakan rantaian pemikiran akan mendapat hasil yang baik pada lebih banyak tugas, tetapi tidak semua tugas lebih baik daripada penalaan halus. Selain itu, saiz ideal boleh kurang daripada 540B Dalam karya Suzgun et al pada tahun 2022 [32] , penulis menunjukkan bahawa InstructGPT 175B dan Codex 175B menggunakan rantaian pemikiran untuk menjadi lebih baik daripada. menggunakan kata-kata gesaan secara langsung. Menggabungkan keputusan di atas, kita mendapat dua nombor: 63B dan 175B. Jadi, jika anda ingin menyertai permainan ini, anda mesti mempunyai model saiz yang lebih besar daripada purata. Walau bagaimanapun, terdapat model besar lain yang berprestasi lebih teruk di bawah rantaian pemikiran malah tidak dapat mempelajari rantaian pemikiran, seperti versi pertama OPT, BLOOM dan GPT-3. Kedua-duanya bersaiz 175B. Ini membawa kita kepada soalan seterusnya. Tidak. Skala ialah faktor yang perlu tetapi tidak mencukupi. Sesetengah model cukup besar (seperti OPT dan BLOOM, kedua-duanya 175B), tetapi mereka tidak boleh melakukan rantaian pemikiran. Terdapat dua model [33] yang boleh digunakan sebagai rantai pemikiran: Tidak jelas mengapa terdapat kebolehan yang muncul, tetapi kami telah mengetahui faktor-faktor yang mungkin menghasilkan kebolehan yang muncul: . 7. Kesimpulan KesimpulanDalam artikel ini, kami mengkaji dengan teliti keupayaan model bahasa yang muncul. Kami menyerlahkan kepentingan dan peluang untuk penaakulan yang kompleks, penaakulan pengetahuan, dan keteguhan di luar pengedaran. Keupayaan yang timbul sangat menarik kerana ia boleh melangkaui undang-undang penskalaan dan mempamerkan peralihan fasa dalam lengkung penskalaan. Kami membincangkan secara terperinci sama ada paradigma penyelidikan sebenarnya akan beralih daripada penalaan halus kepada pembelajaran kontekstual, tetapi kami masih belum mempunyai jawapan yang pasti kerana kesan penalaan halus dan pembelajaran kontekstual dalam senario dalam pengedaran dan luar pengedaran masih perlu dibandingkan. Akhir sekali, kita membincangkan tiga faktor berpotensi yang menghasilkan keupayaan yang muncul: penalaan halus arahan, penalaan halus kod dan penalaan halus rantaian pemikiran. Cadangan dan perbincangan amat dialu-alukan. Selain itu kami menyebut dua isu menarik yang masih belum dibincangkan: Untuk dua soalan ini, kami akan mengikuti artikel selepas perbincangan dalam.
3. Keupayaan yang muncul membatalkan hukum perkadaran
5. Berapa besar sepatutnya model itu?
6. Adakah skala satu-satunya faktor?
Walau bagaimanapun, semua faktor ini adalah spekulatif pada peringkat ini. Sangat bermakna untuk mendedahkan cara melatih model untuk menghasilkan keupayaan yang muncul Kami akan meninggalkan lebih banyak perbincangan kepada artikel seterusnya
Jadual perbandingan Cina-Inggeris
Atas ialah kandungan terperinci Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!