Rumah > Peranti teknologi > AI > Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

WBOY
Lepaskan: 2023-04-08 12:31:05
ke hadapan
1513 orang telah melayarinya

Baru-baru ini, terdapat minat yang besar terhadap keupayaan berkuasa yang ditunjukkan oleh model bahasa berskala besar (seperti rantai pemikiran[2], pad gores[3]), dan banyak kerja telah dijalankan. Kami secara kolektif merujuk kepada ini sebagai keupayaan muncul model besar [4]. Keupayaan ini mungkin [5] hanya wujud dalam model besar tetapi tidak dalam model yang lebih kecil, jadi ia dipanggil "emergent". Banyak daripada keupayaan ini sangat mengagumkan, seperti penaakulan yang kompleks, penaakulan pengetahuan, dan keteguhan di luar pengedaran, yang akan kita bincangkan secara terperinci kemudian.

Terutamanya, keupayaan ini hampir dengan apa yang dicari oleh komuniti NLP selama beberapa dekad, dan dengan itu mewakili anjakan paradigma penyelidikan yang berpotensi daripada memperhalusi model kecil kepada menggunakan model besar untuk pembelajaran kontekstual. Bagi penggerak pertama, anjakan paradigma mungkin jelas. Walau bagaimanapun, demi ketegasan saintifik, kita memerlukan sebab yang sangat jelas mengapa seseorang itu perlu beralih kepada model bahasa yang besar, walaupun model ini mahal [6] dan sukar untuk digunakan [ 7 ], dan kesannya mungkin sederhana[8]. Dalam artikel ini, kami akan melihat dengan lebih dekat apakah keupayaan ini, model bahasa besar yang boleh ditawarkan dan potensi kelebihannya dalam julat tugas NLP/ML yang lebih luas.

Pautan asal: yaofu.notion.site/A-Closer-Look-at-Large-Language-Models-Emergent-Abilities-493876b55df5479d80686d7>Jadual Kandungan

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Prasyarat

: Kami menganggap pembaca mempunyai pengetahuan berikut:

    1 Keupayaan muncul yang wujud dalam model besar dan bukannya model kecil
  • <.>
  • Imej daripada Wei et al. Paksi X ialah saiz model. GSM8K ialah koleksi masalah matematik peringkat sekolah rendah.

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPTDalam pemaparan di atas, kita boleh melihat prestasi model:

Apabila saiz Apabila model agak kecil, tidak banyak peningkatan

Apabila model menjadi lebih besar, terdapat peningkatan yang ketara

    Ini secara asasnya menunjukkan bahawa, beberapa keupayaan mungkin tidak wujud dalam model kecil tetapi diperoleh dalam model besar.
  • Terdapat banyak jenis keupayaan yang muncul, seperti yang diselesaikan oleh Wei et al pada tahun 2022
  • [9]. Sesetengah kebolehan adalah menarik, tetapi kami tidak akan membincangkannya dalam artikel ini, seperti mengeja huruf terakhir rentetan perkataan Kami fikir ini adalah tugas untuk Python dan bukannya model bahasa atau penambahan 3 digit adalah pengiraan ini yang dilakukan oleh pemproses dan bukannya model bahasa.

Dalam artikel ini, kami amat berminat dengan keupayaan berikut:

1 Komuniti NLP telah memberi perhatian kepadanya sejak beberapa tahun kebelakangan ini , tetapi Keupayaan NLP sebelumnya yang sukar dicapai oleh model 2 Keupayaan yang diperolehi daripada intipati terdalam bahasa manusia (depth of capabilities)

. 3. Keupayaan yang mungkin mencapai tahap kecerdasan manusia yang tertinggi (had atas keupayaan)

2. Tiga contoh tipikal kebolehan yang muncul

Banyak yang menarik kebolehan boleh dikelaskan seperti di atas Antara kategori yang disebutkan dalam artikel, antaranya, kami membincangkan tiga kebolehan tipikal berikut:

Penaakulan yang kompleks

Penaakulan yang rumit

Berikut ialah contoh dalam set data GSM8K yang menggunakan perkataan gesaan dengan ketara melebihi penalaan halus:

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Walaupun soalan ini mudah untuk kanak-kanak berumur 10 tahun, ia adalah sukar untuk model bahasa, terutamanya disebabkan oleh gabungan matematik dan bahasa.

GSM8K pada asalnya dicadangkan oleh OpenAI pada Oktober 2021 [10]. Pada masa itu, mereka menggunakan versi pertama [11]GPT3 untuk memperhalusi keseluruhan set latihan, dengan ketepatan kira-kira 35%. Keputusan ini menjadikan pengarang agak pesimis, kerana keputusan mereka menunjukkan undang-undang penskalaan model bahasa: apabila saiz model meningkat secara eksponen, prestasi meningkat secara linear (saya akan membincangkannya kemudian). Oleh itu, mereka merenung dalam Bahagian 4.1:

“Model 175B nampaknya memerlukan sekurang-kurangnya dua urutan magnitud lebih banyak data latihan untuk mencapai kadar penyelesaian 80%. ”

Tiga bulan kemudian, pada Januari 2022, Wei et al. Contoh meningkatkan ketepatan kepada 56.6% (tanpa meningkatkan set latihan sebanyak dua urutan magnitud). Kemudian pada Mac 2022, Wang et al. [13] berdasarkan model PaLM 540B yang sama dan meningkatkan ketepatan kepada 74.4% melalui kaedah undian majoriti. SOTA semasa datang daripada kerja saya sendiri pada AI2 (Fu et. al. Nov 2022[14]), di mana kami mencapai ketepatan 82.9% pada Codex 175B dengan menggunakan rantai pemikiran yang kompleks. Seperti yang dapat dilihat daripada kemajuan di atas, kemajuan teknologi sememangnya berkembang dengan pesat. Gesaan rantai pemikiran ialah contoh tipikal untuk menunjukkan keupayaan muncul model apabila ia berskala:

Daripada keupayaan yang timbul Mari kita lihat
    : Hanya apabila model lebih besar daripada 100B boleh kesan rantaian pemikiran lebih besar daripada satu-satunya gesaan jawapan. Jadi keupayaan ini hanya wujud dalam model besar.
  • Dari sudut kesan
  • : Prestasi gesaan rantaian pemikiran jauh lebih baik daripada penalaan halus sebelumnya
  • [15] kaedah. Dari perspektif kecekapan anotasi
  • : Gesaan rantai pemikiran hanya memerlukan anotasi sebanyak 8 contoh, manakala penalaan halus memerlukan set latihan yang lengkap.
  • Sesetengah pelajar mungkin berfikir bahawa ini tidak bermakna model itu boleh melakukan matematik sekolah rendah (dalam erti kata lain, mereka sebenarnya tidak begitu hebat). Tetapi GSM8K hanyalah permulaan, dan kerja baru-baru ini telah mendorong masalah canggih kepada sekolah menengah
  • [16]
, universiti

[17] dan juga masalah Olimpik Matematik Antarabangsa[ 18] . Adakah ia lebih sejuk sekarang? Pengetahuan Penaakulan

Contoh seterusnya ialah kebolehan penaakulan yang memerlukan pengetahuan (seperti soal jawab dan akal penaakulan). Dalam kes ini, menggesa model besar tidak semestinya lebih baik daripada memperhalusi model kecil (model mana yang lebih baik masih perlu dilihat). Tetapi kecekapan anotasi dalam kes ini diperkuatkan kerana:

Dalam banyak set data, untuk mendapatkan latar belakang/pengetahuan akal sehat yang diperlukan, model (sebelum ini kecil) An external graf korpus/pengetahuan diperlukan untuk mendapatkan

[19]
    , atau latihan tentang tambahan
  • [20] data diperlukan melalui pembelajaran berbilang tugas Untuk model bahasa yang besar, anda boleh mengalih keluar retriever terus [21]
  • dan hanya bergantung pada pengetahuan dalaman model
  • [22] tanpa memerlukan penalaan halus

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Imej datang daripada Yu et al. GPT-3 berprestasi sama baik/lebih baik daripada model sebelumnya tanpa mendapatkan semula.

Seperti yang ditunjukkan dalam jadual, tidak seperti contoh masalah matematik, GPT-3 tidak begitu ketara mengatasi model diperhalusi sebelumnya. Tetapi ia tidak perlu diambil dari dokumen luar, ia sendiri mengandungi pengetahuan [23]

.

Untuk memahami kepentingan keputusan ini, kita boleh melihat kembali sejarah: komuniti NLP telah menghadapi cabaran cara mengekod pengetahuan dengan cekap dari awal. Orang ramai sentiasa meneroka cara untuk menyimpan pengetahuan di luar atau di dalam model. Sejak 1990-an, orang ramai telah cuba merekodkan peraturan bahasa dan dunia di perpustakaan gergasi, menyimpan pengetahuan di luar model. Tetapi ini sangat sukar, lagipun, kita tidak boleh menghabiskan semua peraturan. Oleh itu, penyelidik mula membina pangkalan pengetahuan khusus domain untuk menyimpan pengetahuan dalam bentuk teks tidak berstruktur, separa berstruktur (seperti Wikipedia) atau berstruktur sepenuhnya (seperti graf pengetahuan). Secara amnya, pengetahuan berstruktur sukar untuk dibina (kerana sistem struktur pengetahuan perlu direka bentuk), tetapi mudah untuk menaakul (kerana seni bina), pengetahuan tidak berstruktur adalah mudah untuk dibina (hanya simpan terus), tetapi sukar untuk digunakan untuk alasan (tiada seni bina). Walau bagaimanapun, model bahasa menyediakan cara baharu untuk mengekstrak pengetahuan dengan mudah daripada teks dan alasan yang tidak berstruktur berdasarkan pengetahuan dengan cekap tanpa memerlukan corak yang telah ditetapkan. Jadual berikut membandingkan kebaikan dan keburukan:

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Keteguhan luar pengedaran

Keupayaan ketiga yang kita bincangkan ialah keteguhan luar pengedaran. Antara tahun 2018 dan 2022, terdapat banyak penyelidikan mengenai anjakan pengedaran/kekukuhan musuh/penjanaan gabungan dalam bidang NLP, CV dan pembelajaran mesin am Didapati bahawa apabila pengedaran set ujian berbeza daripada pengedaran latihan, tingkah laku prestasi model mungkin akan menurun dengan ketara. Walau bagaimanapun, ini nampaknya tidak berlaku dalam pembelajaran konteks model bahasa besar. Penyelidikan oleh Si et al.[24] pada 2022 menunjukkan:

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Data datang daripada Si al.

Begitu juga, dalam eksperimen ini, kesan GPT-3 berdasarkan kata gesaan di bawah pengedaran yang sama tidak sebaik RoBERTa yang ditala halus. Tetapi ia mengatasi RoBERTa dalam tiga pengedaran lain (penukaran domain, bunyi bising dan gangguan musuh), yang bermaksud GPT3 lebih mantap.

Selain itu, walaupun terdapat anjakan pengedaran, prestasi generalisasi yang dibawa oleh kata-kata gesaan yang baik akan tetap dikekalkan. Contohnya:

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Imej daripada Fu et al. Walaupun pengedaran ujian berbeza daripada pengedaran latihan, isyarat yang kompleks sentiasa lebih baik daripada isyarat mudah Petunjuk berprestasi lebih baik.

Kajian 2022 Fu et al. [25] menunjukkan bahawa lebih kompleks gesaan input, lebih baik prestasi model. Aliran ini berterusan di bawah anjakan pengedaran: isyarat kompleks secara konsisten mengatasi isyarat mudah, sama ada pengedaran ujian berbeza daripada pengedaran asal, datang daripada pengedaran hingar atau dipindahkan daripada pengedaran lain.

Ringkasan setakat ini

Di atas, saya membincangkan tiga jenis yang hanya terdapat pada model besar Emergent ability. Mereka ialah:

  • Dengan penaakulan yang kompleks, model besar dengan ketara mengatasi model kecil sebelumnya tanpa menggunakan semua data latihan.
  • Penalaran pengetahuan, model besar mungkin tidak berkesan seperti model kecil, tetapi model besar tidak memerlukan sumber pengetahuan tambahan (pengetahuan mungkin mahal atau sukar untuk diekstrak daripada data tidak berstruktur) .
  • Keteguhan luar pengedaran, ini adalah masalah yang perlu diselesaikan apabila memperhalusi model. Walaupun model besar tidak berprestasi sebaik kaedah sebelumnya dalam kes yang diedarkan secara serupa, prestasi generalisasi dalam kes yang tidak diedarkan secara serupa adalah lebih baik.

3. Keupayaan yang muncul membatalkan hukum perkadaran

Memandangkan kelebihan yang disenaraikan di atas, anda mungkin mula berfikir bahawa model bahasa yang besar sememangnya sangat baik. Sebelum membincangkan lebih lanjut, mari kita semak kerja sebelumnya dan kita akan mendapati soalan yang sangat pelik: GPT-3 dikeluarkan pada 2020, tetapi mengapa kita tidak menemui dan mula memikirkan anjakan paradigma sehingga sekarang?

Jawapan kepada soalan ini terletak pada dua jenis lengkung: lengkung linear logaritma dan lengkung perubahan fasa. Seperti yang ditunjukkan di bawah:

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Gambar kiri: Hukum kadaran. Apabila saiz model berkembang secara eksponen, prestasi model yang sepadan berkembang secara linear. Kanan: Apabila saiz model mencapai skala tertentu, keupayaan yang muncul akan muncul, membolehkan prestasi meningkat secara mendadak.

Pada mulanya, penyelidik (OpenAI) percaya bahawa hubungan antara prestasi model bahasa dan saiz model boleh diramalkan oleh lengkung log-linear, iaitu model saiz meningkat secara eksponen, prestasi akan meningkat secara linear. Fenomena ini dikenali sebagai undang-undang penskalaan model bahasa, seperti yang dibincangkan oleh Kaplan et al dalam artikel asal 2020 GPT3. Yang penting, pada peringkat itu, walaupun GPT-3 terbesar tidak dapat mengatasi penalaan halus model kecil dengan petunjuk. Oleh itu, tidak perlu menggunakan model besar yang mahal pada masa itu (walaupun pelabelan perkataan cepat sangat cekap). Sehingga 2021, Cobbe et al. [28] mendapati bahawa undang-undang penskalaan juga terpakai untuk penalaan halus. Ini adalah penemuan yang agak pesimis, kerana ini bermakna bahawa kita mungkin dikunci dalam saiz model - manakala pengoptimuman seni bina model mungkin meningkatkan prestasi model sedikit sebanyak, kesannya masih akan Dikunci dalam julat ( sepadan dengan saiz model), sukar untuk mendapatkan kejayaan yang lebih ketara . Di bawah kawalan undang-undang penskalaan (2020 hingga 2021), memandangkan GPT-3 tidak dapat mengatasi prestasi penalaan halus T5-11B, dan penalaan halus T5-11B sudah sangat menyusahkan, jadi NLP Tumpuan komuniti lebih kepada mengkaji model yang lebih kecil atau penyesuaian parameter yang cekap. Penalaan awalan[29]

ialah contoh persilangan isyarat dan penyesuaian, kemudian disatukan oleh He et al.

[30] pada 2021. Logik pada masa itu adalah mudah: Jika kesan penalaan halus adalah lebih baik, kita harus berusaha lebih pada penyesuaian parameter yang cekap; jika kaedah perkataan segera adalah lebih baik, kita harus melabur lebih banyak tenaga dalam melatih model bahasa besar. Lewat Januari 2022, karya Rantaian Pemikiran telah dikeluarkan. Seperti yang ditunjukkan oleh pengarang, isyarat rantai pemikiran mempamerkan peralihan fasa

yang jelas dalam lengkung perkadaran prestasi. Apabila saiz model cukup besar, prestasi meningkat dengan ketara dan jelas melebihi lengkung penskalaan.

Apabila menggunakan rantaian pemikiran untuk gesaan, model besar menunjukkan prestasi yang lebih baik daripada penalaan halus pada penaakulan yang kompleks, berdaya saing pada penaakulan pengetahuan dan diedarkan dengan mantap Terdapat juga beberapa potensi. Ia hanya memerlukan kira-kira 8 contoh untuk mencapai kesan sedemikian, itulah sebabnya paradigma mungkin berubah (Nota: Artikel ini telah disiapkan sebulan sebelum ChatGPT pergi dalam talian; selepas ChatGPT pergi dalam talian, seluruh bidang terkejut dan menyedari bahawa paradigma telah berubah. ).

4. Apakah maksud anjakan paradigma?

Apakah sebenarnya yang dimaksudkan dengan anjakan paradigma? Di bawah ini kami memberikan perbandingan kaedah penalaan halus dan perkataan segera:

Faedah perkataan segera adalah jelas: kami tidak lagi memerlukan anotasi data yang membosankan dan penalaan halus pada jumlah penuh data Kami hanya perlu menulis perkataan segera dan mendapatkan hasil yang memenuhi keperluan, iaitu banyak lebih cepat daripada penalaan halus.

Dua perkara lain yang perlu diberi perhatian ialah:

Adakah pembelajaran kontekstual diselia pembelajaran?

  • Terus terang, saya tidak pasti.
  • Persamaannya ialah pembelajaran konteks juga memerlukan contoh seperti data latihan
  • Perbezaannya ialah tingkah laku generalisasi pembelajaran konteks Dan tidak seperti pembelajaran diselia , ini menjadikan teori generalisasi sebelumnya (seperti Rademancher Complexity atau Neural Tangent Kernel) tidak dapat digunakan.

Adakah pembelajaran kontekstual benar-benar lebih baik daripada pembelajaran diselia?

  • Jawapannya masih belum diketahui.
  • Kebanyakan perbandingan antara kata gesaan dan penalaan halus hanya membandingkan perkataan gesaan + model besar lwn penalaan halus + model kecil, tetapi perbandingan yang saksama hendaklah perkataan pantas + model besar lwn penalaan halus Laraskan + model besar, dan model asas jika dibandingkan haruslah sama. Jadi dalam artikel ThoughtChain yang asal, jika Wei et al ingin menunjukkan bahawa perkataan isyarat adalah lebih baik daripada penalaan halus, mereka harus membandingkan PaLM yang ditala halus, bukan GPT3.
  • Hipotesis saya ialah: Penalaan halus boleh meningkatkan prestasi dalam pengedaran, tetapi menjejaskan keteguhan di luar pengedaran. Kata gesaan berprestasi lebih baik dalam senario transformasi pengedaran, tetapi tidak sebaik penalaan halus dalam senario pengedaran yang sama.
  • Jika hipotesis itu benar, maka soalan yang patut disiasat ialah bagaimana untuk memperhalusi tanpa mengorbankan keupayaan pembelajaran kontekstualnya
  • Perhatikan bahawa kesan penalaan halus di luar pengedaran juga akan berubah mengikut saiz model. Sebagai contoh, dalam kerja Yang et al pada tahun 2022, jadual keempat menunjukkan bahawa keupayaan generalisasi luar pengedaran berasaskan Bart akan berkurangan, tetapi Bart-large akan bertambah baik. Untuk model besar, apabila pengedaran set ujian adalah serupa dengan set latihan, kesan penalaan halus dalam pengedaran juga harus dipertingkatkan.

Mari kita semak logik yang dinyatakan di atas: Jika penalaan halus adalah lebih baik, kita harus bekerja keras untuk mengkaji cara mengoptimumkan parameter dengan cekap jika kata-kata segera adalah lebih baik, kita harus Berusaha melatih model bahasa besar yang lebih baik.

Jadi, walaupun kami percaya bahawa model bahasa yang besar mempunyai potensi yang besar, Masih tiada bukti konklusif bahawa kata penalaan halus atau isyarat adalah lebih baik, jadi kami tidak 't Tentukan sama ada paradigma benar-benar perlu beralih, atau sejauh mana ia harus beralih. Adalah sangat bermakna untuk membandingkan kedua-dua paradigma ini dengan teliti untuk memberi kita pemahaman yang jelas tentang masa depan. Kami meninggalkan lebih banyak perbincangan untuk artikel seterusnya.

5. Berapa besar sepatutnya model itu?

Dua nombor: 62B dan 175B.

  • Model memerlukan sekurang-kurangnya 62B supaya kesan rantaian pemikiran boleh lebih besar daripada kaedah kata gesaan standard.
  • Model mestilah sekurang-kurangnya 175B (saiz GPT3), supaya kesan rantaian pemikiran boleh lebih besar daripada model kecil yang diperhalusi (T5 11B ).

62B Nombor ini datang daripada jadual kelima kerja Chung et al. 2022 [31]:

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Untuk semua model yang lebih kecil daripada 62B, menggunakan perkataan segera secara langsung adalah lebih baik daripada rantai pemikiran. Model pertama yang lebih baik menggunakan rantai pemikiran ialah hasil Flan-cont-PaLM 62B pada BBH. Model 540B yang menggunakan rantaian pemikiran akan mendapat hasil yang baik pada lebih banyak tugas, tetapi tidak semua tugas lebih baik daripada penalaan halus. Selain itu, saiz ideal boleh kurang daripada 540B Dalam karya Suzgun et al pada tahun 2022 [32] , penulis menunjukkan bahawa InstructGPT 175B dan Codex 175B menggunakan rantaian pemikiran untuk menjadi lebih baik daripada. menggunakan kata-kata gesaan secara langsung. Menggabungkan keputusan di atas, kita mendapat dua nombor: 63B dan 175B. Jadi, jika anda ingin menyertai permainan ini, anda mesti mempunyai model saiz yang lebih besar daripada purata.

Walau bagaimanapun, terdapat model besar lain yang berprestasi lebih teruk di bawah rantaian pemikiran malah tidak dapat mempelajari rantaian pemikiran, seperti versi pertama OPT, BLOOM dan GPT-3. Kedua-duanya bersaiz 175B. Ini membawa kita kepada soalan seterusnya.

6. Adakah skala satu-satunya faktor?

Tidak.

Skala ialah faktor yang perlu tetapi tidak mencukupi. Sesetengah model cukup besar (seperti OPT dan BLOOM, kedua-duanya 175B), tetapi mereka tidak boleh melakukan rantaian pemikiran.

Terdapat dua model [33] yang boleh digunakan sebagai rantai pemikiran:

  • siri GPT3 model, Termasuk teks-davinci-002 dan kod-davinci-002 (Codex). Ini adalah satu-satunya model dengan keupayaan muncul yang kukuh yang boleh diakses secara umum.
  • Selain dua model di atas, model GPT3 lain, termasuk GPT3 asal, text-davinci-001 dan model GPT-3 yang lebih kecil, tidak boleh melakukan rantaian pemikiran.
  • Apabila kita menyebut "boleh melakukan rantaian pemikiran", kami maksudkan bahawa kesan penggunaan kaedah rantaian pemikiran adalah lebih baik daripada terus menggunakan kata-kata gesaan dan penalaan halus T5-11B.
  • Juga ambil perhatian bahawa code-davinci-002 secara konsisten mengatasi prestasi [34] text-davinci pada bahasa tugasan -002. Pemerhatian ini sangat menarik dan menarik. Ini menunjukkan bahawa model bahasa yang dilatih pada data kod boleh mengatasi model bahasa yang dilatih tentang bahasa. Setakat ini kita tidak tahu mengapa.
  • Siri model PaLM, termasuk PaLM, U-PaLM, Flan-PaLM dan Minerva. Model ini belum lagi boleh diakses secara umum (di sini @Google, sumber terbuka tidak lama lagi).

Tidak jelas mengapa terdapat kebolehan yang muncul, tetapi kami telah mengetahui faktor-faktor yang mungkin menghasilkan kebolehan yang muncul:

  • Penalaan halus arahan: GPT-3 text-davinci-002 ialah hasil penalaan halus menggunakan arahan + pembelajaran pengukuhan[35]. Sebelum ini, kesan text-davinci-001 pada rantai pemikiran adalah tidak baik. Pada masa yang sama, kesan PaLM[36] juga telah dipertingkatkan selepas memperhalusi arahan.
  • Penalaan halus pada kod: Codex code-davinci-002 adalah penalaan halus pada kod dan kesannya secara konsisten lebih baik daripada text-davinci-002. PaLM juga telah diubah suai dalam kod. Di permukaan, kod tidak ada kaitan dengan bahasa, tetapi ia nampaknya memainkan peranan yang besar, yang akan kita bincangkan dalam artikel kemudian.
  • Penalaan halus dengan rantaian pemikiran: Apabila teks-davinci-002 dikeluarkan, Google telah pun mengeluarkan PaLM selama 3 bulan. Jadi OpenAI sepatutnya melihat kerja yang berkaitan dengan rantaian pemikiran. Terdapat juga beberapa karya
  • [38] yang menunjukkan bahawa secara langsung menggunakan data rantaian pemikiran untuk penalaan halus boleh merangsang keupayaan rantai pemikiran model.
Walau bagaimanapun, semua faktor ini adalah spekulatif pada peringkat ini. Sangat bermakna untuk mendedahkan cara melatih model untuk menghasilkan keupayaan yang muncul Kami akan meninggalkan lebih banyak perbincangan kepada artikel seterusnya

. 7. Kesimpulan KesimpulanDalam artikel ini, kami mengkaji dengan teliti keupayaan model bahasa yang muncul. Kami menyerlahkan kepentingan dan peluang untuk penaakulan yang kompleks, penaakulan pengetahuan, dan keteguhan di luar pengedaran. Keupayaan yang timbul sangat menarik kerana ia boleh melangkaui undang-undang penskalaan dan mempamerkan peralihan fasa dalam lengkung penskalaan. Kami membincangkan secara terperinci sama ada paradigma penyelidikan sebenarnya akan beralih daripada penalaan halus kepada pembelajaran kontekstual, tetapi kami masih belum mempunyai jawapan yang pasti kerana kesan penalaan halus dan pembelajaran kontekstual dalam senario dalam pengedaran dan luar pengedaran masih perlu dibandingkan. Akhir sekali, kita membincangkan tiga faktor berpotensi yang menghasilkan keupayaan yang muncul: penalaan halus arahan, penalaan halus kod dan penalaan halus rantaian pemikiran. Cadangan dan perbincangan amat dialu-alukan.

Selain itu kami menyebut dua isu menarik yang masih belum dibincangkan:

  • Bolehkah kita membandingkan secara adil kesan penalaan halus dan pembelajaran kontekstual?
  • Bagaimanakah kita melatih model besar supaya mereka boleh mempunyai keupayaan yang muncul dan keupayaan rantaian pemikiran?

Untuk dua soalan ini, kami akan mengikuti artikel ​ selepas perbincangan dalam.

Jadual perbandingan Cina-Inggeris

Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT

Atas ialah kandungan terperinci Tafsiran topik hangat: Keupayaan muncul model besar dan anjakan paradigma yang dicetuskan oleh ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan