Rumah > Peranti teknologi > AI > teks badan

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan 'kemahiran misteri'

王林
Lepaskan: 2023-04-11 23:16:10
ke hadapan
1524 orang telah melayarinya

Oleh kerana ia boleh melakukan perkara yang belum dilatih, model bahasa besar nampaknya mempunyai sejenis sihir, dan oleh itu telah menjadi tumpuan gembar-gembur dan perhatian daripada media dan penyelidik.

Apabila mengembangkan model bahasa yang besar, kadangkala beberapa keupayaan baharu akan muncul yang tidak tersedia dalam model yang lebih kecil Atribut yang serupa dengan "kreativiti" ini dipanggil keupayaan "emergent", yang mewakili Kami telah mengambil langkah besar ke arah kecerdasan buatan am.

Kini, penyelidik dari Google, Stanford, Deepmind dan University of North Carolina sedang meneroka keupayaan "muncul" dalam model bahasa besar.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

DALL-E digesa oleh penyahkod

Keupayaan "kecemasan" ajaib

Pemprosesan bahasa semula jadi (NLP) telah direvolusikan oleh model bahasa yang dilatih pada sejumlah besar data teks. Menskalakan model bahasa selalunya meningkatkan prestasi dan kecekapan sampel pada pelbagai tugasan NLP hiliran.

Dalam banyak kes, kita boleh meramalkan prestasi model bahasa besar dengan membuat kesimpulan arah aliran prestasi model yang lebih kecil. Sebagai contoh, kesan skala pada kekeliruan model bahasa telah ditunjukkan dalam lebih daripada tujuh urutan magnitud.

Walau bagaimanapun, prestasi pada beberapa tugasan lain tidak bertambah baik dengan cara yang boleh diramalkan.

Sebagai contoh, kertas GPT-3 menunjukkan bahawa keupayaan model bahasa untuk melakukan penambahan berbilang digit mempunyai lengkung penskalaan rata untuk model dari parameter 100M hingga 13B, adalah lebih kurang rawak, tetapi berkurangan dalam Satu nod menyebabkan lompatan prestasi.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

Memandangkan peningkatan penggunaan model bahasa dalam penyelidikan NLP, adalah penting untuk memahami dengan lebih baik keupayaan ini yang mungkin timbul secara tidak dijangka.

Dalam kertas kerja baru-baru ini "Kuasa Muncul Model Bahasa Besar" yang diterbitkan dalam Penyelidikan Pembelajaran Mesin (TMLR), penyelidik menunjukkan "kuasa timbul" yang dihasilkan oleh berpuluh-puluh model bahasa lanjutan kebolehan.

Kewujudan keupayaan "emergent" ini menimbulkan persoalan sama ada penskalaan tambahan boleh mengembangkan lagi julat keupayaan model bahasa.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

Petua tertentu dan kaedah penalaan halus hanya akan menghasilkan penambahbaikan dalam model yang lebih besar

Tugasan segera "Emergent"

Pertama, kita membincangkan kebolehan "emergent" yang mungkin muncul dalam tugasan segera.

Dalam jenis tugasan ini, model bahasa pra-latihan digesa untuk melaksanakan tugas ramalan perkataan seterusnya dan melaksanakan tugas dengan melengkapkan respons.

Tanpa sebarang penalaan halus lagi, model bahasa selalunya boleh melaksanakan tugas yang tidak dilihat semasa latihan.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

Apabila tugasan tanpa diduga melonjak daripada prestasi rawak kepada prestasi melebihi rawak pada ambang skala tertentu, kami memanggilnya tugasan "muncul" .

Di bawah ini kami menunjukkan tiga contoh tugasan segera dengan prestasi "muncul": aritmetik berbilang langkah, mengambil peperiksaan peringkat kolej dan mengenal pasti maksud yang dimaksudkan bagi sesuatu perkataan.

Dalam setiap kes, model bahasa berprestasi buruk, dengan sedikit pergantungan pada saiz model, sehingga ambang tertentu dicapai - di mana prestasinya meningkat.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

Untuk model skala yang mencukupi, prestasi pada tugasan ini hanya menjadi bukan rawak - contohnya, tugasan NLU aritmetik dan berbilang tugas dilatih dalam operasi titik terapung sesaat ( FLOP) melebihi 10 hingga kuasa ke-22, dan FLOP latihan perkataan dalam tugas konteks melebihi 10 hingga kuasa ke-24.

Strategi gesaan "Emergent"

Jenis kedua keupayaan "emergent" termasuk strategi gesaan yang meningkatkan keupayaan model bahasa.

Strategi menggesa ialah paradigma luas untuk menggesa yang boleh digunakan pada pelbagai tugas yang berbeza. Ia dianggap "emergent" apabila ia gagal pada model kecil dan hanya boleh digunakan oleh model yang cukup besar.

Gesaan rantaian pemikiran ialah contoh tipikal strategi gesaan "emergensi", di mana model gesaan menjana satu siri langkah perantaraan sebelum memberikan jawapan akhir.

Gesaan rantai pemikiran membolehkan model bahasa melaksanakan tugas yang memerlukan penaakulan yang kompleks, seperti masalah perkataan matematik berbilang langkah.

Perlu dinyatakan bahawa model boleh memperoleh keupayaan penaakulan rantaian pemikiran tanpa latihan yang jelas. Rajah di bawah menunjukkan contoh gesaan rantaian pemikiran.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

Keputusan empirikal gesaan rantaian pemikiran adalah seperti berikut.

Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan kemahiran misteri

Untuk model yang lebih kecil, menggunakan gesaan Rantaian Pemikiran tidak mengatasi gesaan standard, contohnya apabila digunakan pada GSM8K, yang merupakan perkataan matematik Mencabar penanda aras masalah.

Walau bagaimanapun, untuk model besar, Petua Rantaian Pemikiran mencapai kadar penyelesaian 57% pada GSM8K, meningkatkan prestasi dengan ketara dalam ujian kami.

Kepentingan mempelajari kebolehan "emergent"

Jadi apakah kepentingan mempelajari kebolehan "emergent"?

Mengenal pasti keupayaan "muncul" dalam model bahasa besar ialah langkah pertama dalam memahami fenomena ini dan potensi kesannya terhadap keupayaan model masa hadapan.

Contohnya, kerana keupayaan dan strategi isyarat kecil "muncul" tidak dikodkan secara eksplisit dalam pra-latihan, penyelidik mungkin tidak mengetahui skop penuh pukulan kecil model bahasa semasa keupayaan membayangkan.

Selain itu, persoalan sama ada pengembangan selanjutnya berpotensi memberi model yang lebih besar keupayaan "muncul" juga sangat penting.

  • Mengapa kebolehan "muncul" muncul?
  • Apabila keupayaan tertentu muncul, adakah aplikasi dunia sebenar model bahasa baharu akan dibuka kuncinya?
  • Memandangkan sumber pengkomputeran adalah mahal, bolehkah keupayaan yang muncul dibuka kunci melalui kaedah lain (seperti seni bina model atau teknik latihan yang lebih baik) tanpa meningkatkan skalabiliti?

Penyelidik mengatakan isu ini belum diketahui.

Walau bagaimanapun, apabila bidang NLP terus berkembang, adalah sangat penting untuk menganalisis dan memahami tingkah laku model bahasa, termasuk keupayaan "emergent" yang dihasilkan oleh penskalaan.

Atas ialah kandungan terperinci Parameter dipertingkatkan sedikit, dan indeks prestasi meletup! Google: Model bahasa besar menyembunyikan 'kemahiran misteri'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan