Oleh kerana ia boleh melakukan perkara yang belum dilatih, model bahasa besar nampaknya mempunyai sejenis sihir, dan oleh itu telah menjadi tumpuan gembar-gembur dan perhatian daripada media dan penyelidik.
Apabila mengembangkan model bahasa yang besar, kadangkala beberapa keupayaan baharu akan muncul yang tidak tersedia dalam model yang lebih kecil Atribut yang serupa dengan "kreativiti" ini dipanggil keupayaan "emergent", yang mewakili Kami telah mengambil langkah besar ke arah kecerdasan buatan am.
Kini, penyelidik dari Google, Stanford, Deepmind dan University of North Carolina sedang meneroka keupayaan "muncul" dalam model bahasa besar.
DALL-E digesa oleh penyahkod
Pemprosesan bahasa semula jadi (NLP) telah direvolusikan oleh model bahasa yang dilatih pada sejumlah besar data teks. Menskalakan model bahasa selalunya meningkatkan prestasi dan kecekapan sampel pada pelbagai tugasan NLP hiliran.
Dalam banyak kes, kita boleh meramalkan prestasi model bahasa besar dengan membuat kesimpulan arah aliran prestasi model yang lebih kecil. Sebagai contoh, kesan skala pada kekeliruan model bahasa telah ditunjukkan dalam lebih daripada tujuh urutan magnitud.
Walau bagaimanapun, prestasi pada beberapa tugasan lain tidak bertambah baik dengan cara yang boleh diramalkan.
Sebagai contoh, kertas GPT-3 menunjukkan bahawa keupayaan model bahasa untuk melakukan penambahan berbilang digit mempunyai lengkung penskalaan rata untuk model dari parameter 100M hingga 13B, adalah lebih kurang rawak, tetapi berkurangan dalam Satu nod menyebabkan lompatan prestasi.
Memandangkan peningkatan penggunaan model bahasa dalam penyelidikan NLP, adalah penting untuk memahami dengan lebih baik keupayaan ini yang mungkin timbul secara tidak dijangka.
Dalam kertas kerja baru-baru ini "Kuasa Muncul Model Bahasa Besar" yang diterbitkan dalam Penyelidikan Pembelajaran Mesin (TMLR), penyelidik menunjukkan "kuasa timbul" yang dihasilkan oleh berpuluh-puluh model bahasa lanjutan kebolehan.
Kewujudan keupayaan "emergent" ini menimbulkan persoalan sama ada penskalaan tambahan boleh mengembangkan lagi julat keupayaan model bahasa.
Petua tertentu dan kaedah penalaan halus hanya akan menghasilkan penambahbaikan dalam model yang lebih besar
Pertama, kita membincangkan kebolehan "emergent" yang mungkin muncul dalam tugasan segera.
Dalam jenis tugasan ini, model bahasa pra-latihan digesa untuk melaksanakan tugas ramalan perkataan seterusnya dan melaksanakan tugas dengan melengkapkan respons.
Tanpa sebarang penalaan halus lagi, model bahasa selalunya boleh melaksanakan tugas yang tidak dilihat semasa latihan.
Apabila tugasan tanpa diduga melonjak daripada prestasi rawak kepada prestasi melebihi rawak pada ambang skala tertentu, kami memanggilnya tugasan "muncul" .
Di bawah ini kami menunjukkan tiga contoh tugasan segera dengan prestasi "muncul": aritmetik berbilang langkah, mengambil peperiksaan peringkat kolej dan mengenal pasti maksud yang dimaksudkan bagi sesuatu perkataan.
Dalam setiap kes, model bahasa berprestasi buruk, dengan sedikit pergantungan pada saiz model, sehingga ambang tertentu dicapai - di mana prestasinya meningkat.
Untuk model skala yang mencukupi, prestasi pada tugasan ini hanya menjadi bukan rawak - contohnya, tugasan NLU aritmetik dan berbilang tugas dilatih dalam operasi titik terapung sesaat ( FLOP) melebihi 10 hingga kuasa ke-22, dan FLOP latihan perkataan dalam tugas konteks melebihi 10 hingga kuasa ke-24.
Jenis kedua keupayaan "emergent" termasuk strategi gesaan yang meningkatkan keupayaan model bahasa.
Strategi menggesa ialah paradigma luas untuk menggesa yang boleh digunakan pada pelbagai tugas yang berbeza. Ia dianggap "emergent" apabila ia gagal pada model kecil dan hanya boleh digunakan oleh model yang cukup besar.
Gesaan rantaian pemikiran ialah contoh tipikal strategi gesaan "emergensi", di mana model gesaan menjana satu siri langkah perantaraan sebelum memberikan jawapan akhir.
Gesaan rantai pemikiran membolehkan model bahasa melaksanakan tugas yang memerlukan penaakulan yang kompleks, seperti masalah perkataan matematik berbilang langkah.
Perlu dinyatakan bahawa model boleh memperoleh keupayaan penaakulan rantaian pemikiran tanpa latihan yang jelas. Rajah di bawah menunjukkan contoh gesaan rantaian pemikiran.
Keputusan empirikal gesaan rantaian pemikiran adalah seperti berikut.
Untuk model yang lebih kecil, menggunakan gesaan Rantaian Pemikiran tidak mengatasi gesaan standard, contohnya apabila digunakan pada GSM8K, yang merupakan perkataan matematik Mencabar penanda aras masalah.
Walau bagaimanapun, untuk model besar, Petua Rantaian Pemikiran mencapai kadar penyelesaian 57% pada GSM8K, meningkatkan prestasi dengan ketara dalam ujian kami.
Jadi apakah kepentingan mempelajari kebolehan "emergent"?
Mengenal pasti keupayaan "muncul" dalam model bahasa besar ialah langkah pertama dalam memahami fenomena ini dan potensi kesannya terhadap keupayaan model masa hadapan.
Contohnya, kerana keupayaan dan strategi isyarat kecil "muncul" tidak dikodkan secara eksplisit dalam pra-latihan, penyelidik mungkin tidak mengetahui skop penuh pukulan kecil model bahasa semasa keupayaan membayangkan.
Selain itu, persoalan sama ada pengembangan selanjutnya berpotensi memberi model yang lebih besar keupayaan "muncul" juga sangat penting.
Penyelidik mengatakan isu ini belum diketahui.
Walau bagaimanapun, apabila bidang NLP terus berkembang, adalah sangat penting untuk menganalisis dan memahami tingkah laku model bahasa, termasuk keupayaan "emergent" yang dihasilkan oleh penskalaan.
Atas ialah kandungan terperinci Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan 'kemahiran misteri'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!