Berikutan BERT, penyelidik mendapati potensi model pra-latihan berskala besar, dan tugas pra-latihan yang berbeza, seni bina model, strategi latihan, dsb. telah dicadangkan. Walau bagaimanapun, model jenis BERT biasanya mempunyai dua kelemahan utama: satu adalah terlalu bergantung pada data berlabel;
Untuk lebih spesifik, model bahasa semasa cenderung mempunyai rangka kerja dua peringkat, iaitu pra-latihan + penalaan halus tugas hiliran, tetapi sejumlah besar sampel diperlukan semasa proses penalaan halus untuk tugas hiliran , jika tidak, kesannya sangat lemah, tetapi kos pelabelan data adalah tinggi. Terdapat juga data berlabel terhad, dan model hanya boleh memuatkan pengedaran data latihan Walau bagaimanapun, jika terdapat kurang data, ia adalah mudah untuk menyebabkan overfitting, yang akan mengurangkan keupayaan generalisasi model.
Sebagai perintis model besar, model bahasa pra-latihan berskala besar, terutamanya GPT-3, telah menunjukkan keupayaan ICL (Pembelajaran Dalam Konteks) yang mengejutkan. Tidak seperti penalaan halus, yang memerlukan kemas kini parameter tambahan, ICL hanya memerlukan beberapa pasangan "label input" demonstrasi dan model boleh meramalkan label walaupun untuk label input yang tidak kelihatan. Dalam banyak tugas hiliran, model GPT yang besar boleh mencapai prestasi yang agak baik, malah mengatasi beberapa model kecil dengan penalaan halus yang diselia.
Mengapa ICL berprestasi begitu baik dalam kertas lebih daripada 70 halaman "Model Bahasa adalah Sedikit Pelajar" daripada OpenAI, mereka meneroka ICL gunakan kurang data domain dan selesaikan masalah tanpa penalaan halus.
Seperti yang ditunjukkan dalam rajah di bawah, ICL merangkumi tiga kategori: Pembelajaran beberapa pukulan, yang membenarkan input beberapa contoh dan huraian tugasan, yang hanya membenarkan input satu contoh dan Penerangan tugasan Zero-shot tidak membenarkan input sebarang contoh, hanya penerangan tugasan dibenarkan. Keputusan menunjukkan bahawa ICL tidak memerlukan perambatan balik dan hanya perlu meletakkan sebilangan kecil sampel berlabel dalam konteks teks input untuk mendorong GPT-3 kepada jawapan output.
Pembelajaran dalam konteks GPT-3
Eksperimen menunjukkan bahawa GPT-3 berprestasi sangat baik di bawah Few-shot:
Di sebalik kejayaan besar ICL dari segi prestasi, mekanisme kerjanya masih menjadi masalah terbuka untuk dikaji. Untuk lebih memahami cara ICL berfungsi, kami seterusnya memperkenalkan cara kajian dari Universiti Peking, Universiti Tsinghua dan institusi lain menerangkannya.
Untuk meringkaskan dalam perkataan netizen, Iaitu: "Kerja ini menunjukkan bahawa GPT secara semula jadi belajar menggunakan pengoptimuman dalaman untuk melaksanakan larian tertentu. Penyelidikan ini juga menyediakan bukti empirikal bahawa Pembelajaran Dalam Konteks dan penalaan halus eksplisit berprestasi serupa pada pelbagai peringkat."
Untuk lebih memahami cara ICL berfungsi, kajian ini menerangkan model bahasa sebagai pengoptimum meta, ICL sebagai proses pengoptimuman meta dan ICL sebagai Penalaan Halus tersirat, cuba mewujudkan hubungan antara GPT- berasaskan ICL dan penalaan halus. Secara teorinya, kajian mendapati perhatian Transformer mempunyai bentuk pengoptimuman dwi berdasarkan keturunan kecerunan.Berdasarkan perkara ini, kajian ini mencadangkan perspektif baharu untuk menerangkan ICL: GPT mula-mula menjana kecerunan meta berdasarkan contoh demonstrasi, dan kemudian menggunakan kecerunan meta ini pada GPT asal untuk membina Model ICL.
Seperti yang ditunjukkan dalam Rajah 1, ICL dan penalaan halus eksplisit berkongsi borang pengoptimuman dwi berdasarkan keturunan kecerunan. Satu-satunya perbezaan ialah ICL menghasilkan kecerunan meta melalui pengiraan ke hadapan, manakala penalaan halus mengira kecerunan dengan perambatan belakang. Oleh itu, adalah munasabahuntuk memahami ICL sebagai sejenis penalaan halus tersirat. ICR melakukan penalaan halus tersirat Kajian pertama kali menjalankan analisis kualitatif Perhatian transformer dalam bentuk perhatian linear santai untuk mencari dualitinya dengan pengoptimuman berasaskan keturunan kecerunan. Kajian itu kemudiannya membandingkan ICL dengan penalaan halus yang jelas dan mewujudkan hubungan antara kedua-dua bentuk pengoptimuman ini. Berdasarkan penemuan teori ini, mereka mencadangkan untuk memahami ICL sebagai penalaan halus tersirat. Pertama sekali, kajian ini menganggap perhatian Transforme sebagai pengoptimuman meta dan mentafsir ICL sebagai proses pengoptimuman meta: (1) Model bahasa pra-terlatih berdasarkan Transformer berfungsi sebagai pengoptimum meta; ( 2) Hasilkan kecerunan meta berdasarkan contoh melalui pengiraan hadapan; (3) Gunakan kecerunan meta pada model bahasa asal melalui perhatian untuk membina ICL. Seterusnya ialah perbandingan ICL dan penalaan halus. Merentasi pelbagai tetapan, kajian mendapati bahawa ICL berkongsi banyak sifat dengan penalaan halus. Mereka menyusun persamaan ini dari empat aspek berikut: kedua-duanya melakukan turunan kecerunan yang sama dengan contoh latihan yang sama; Memandangkan semua sifat biasa antara ICL dan penalaan halus, kajian ini berpendapat bahawa adalah munasabah untuk memahami ICL sebagai penalaan halus tersirat. Dalam baki kertas ini, kajian secara empirik membandingkan ICL dan penalaan halus dari pelbagai aspek untuk memberikan hasil kuantitatif yang menyokong pemahaman ini. Kajian ini menjalankan satu siri eksperimen untuk membandingkan secara menyeluruh tingkah laku ICL dan penalaan halus yang jelas berdasarkan tugasan sebenar, mereka GPT pra-latihan dibandingkan dalam tetapan ICL dan diperhalusi berkenaan dengan ramalan, output perhatian dan skor perhatian. Seperti yang dijangkakan, ICL sangat serupa dengan penalaan halus yang jelas dari segi ramalan, perwakilan dan tahap perhatian. Keputusan ini sangat menyokong kebolehpercayaan ini: ICL melakukan penalaan halus tersirat. Di samping itu, diilhamkan oleh pemahaman pengoptimuman meta, penyelidikan ini mereka bentuk perhatian berasaskan momentum dengan analogi dengan algoritma penurunan kecerunan berasaskan momentum. Ia secara konsisten mengatasi prestasi perhatian vanila. Jadual 2 menunjukkan ketepatan pengesahan dalam tetapan ZSL (Zero-Shot Learning), ICL dan penalaan halus (FT) pada enam set data pengelasan. Kedua-dua ICL dan penalaan halus mencapai peningkatan yang ketara berbanding dengan ZSL, yang bermaksud bahawa pengoptimuman yang dibuat membantu tugasan hiliran ini. Tambahan pula, kajian mendapati bahawa ICL berprestasi lebih baik daripada penalaan halus dalam senario beberapa syot. Skor Rec2FTP bagi 2 model GPT pada 6 set data ditunjukkan dalam Jadual 3. Secara purata, ICL boleh meramalkan dengan betul 87.64% daripada contoh daripada ZSL yang boleh diperbetulkan oleh penalaan halus. Keputusan ini menunjukkan bahawa pada tahap ramalan, ICL boleh merangkumi kebanyakan tingkah laku penalaan halus yang betul. Jadual 3 juga menunjukkan purata skor SimAOU untuk contoh dan lapisan 2 model GPT pada 6 set data. Sebagai perbandingan, kajian ini juga menyediakan metrik garis dasar (Random SimAOU) yang mengira persamaan antara kemas kini ICL dan kemas kini yang dijana secara rawak. Seperti yang dapat dilihat daripada jadual, kemas kini ICL lebih serupa dengan kemas kini yang diperhalusi daripada kemas kini rawak, yang bermaksud bahawa pada peringkat perwakilan, ICL cenderung untuk menukar hasil perhatian ke arah perubahan yang diperhalusi. Akhir sekali, Jadual 3 juga menunjukkan purata skor SimAM untuk contoh dan lapisan 2 model GPT pada 6 set data. Sebagai metrik garis dasar untuk SimAM, ZSL SimAM mengira persamaan antara pemberat perhatian ICL dan pemberat perhatian ZSL. Dengan membandingkan kedua-dua metrik, kajian mendapati bahawa ICL lebih cenderung untuk menjana pemberat perhatian yang serupa dengan penalaan halus berbanding ZSL. Juga pada tahap tingkah laku perhatian, kajian ini menunjukkan bahawa ICL berkelakuan seperti dorongan. Untuk meneroka persamaan antara ICL dan penalaan halus dengan lebih teliti, kajian ini membandingkan skor SimAOU dan SimAM merentas lapisan yang berbeza. Dengan mengambil sampel secara rawak 50 contoh pengesahan daripada setiap set data, plot kotak SimAOU dan SimAM telah dilukis seperti yang ditunjukkan dalam Rajah 2 dan Rajah 3 di bawah, masing-masing. Ia boleh didapati daripada angka bahawa SimAOU dan SimAM turun naik pada lapisan bawah dan cenderung lebih stabil pada lapisan yang lebih tinggi. Fenomena ini menggambarkan bahawa pengoptimuman meta yang dilakukan oleh ICL mempunyai kesan pengumpulan ke hadapan, dan apabila pengumpulan meningkat, ICL berkelakuan lebih seperti penalaan halus pada lapisan yang lebih tinggi. Ringkasnya, artikel ini bertujuan untuk menerangkan cara kerja ICL berasaskan pada mekanisme GPT. Secara teorinya, kajian ini mengetahui bentuk dwi ICL dan mencadangkan untuk memahami ICL sebagai proses pengoptimuman meta. Tambahan pula, kajian ini mewujudkan hubungan antara ICL dan tetapan penalaan halus khusus, mendapati adalah munasabah untuk menganggap ICL sebagai penalaan halus tersirat. Untuk menyokong pemahaman penalaan halus tersirat yang dilakukan oleh ICL, kajian ini secara komprehensif membandingkan tingkah laku ICL dan penalaan halus berasaskan tugas dunia sebenar. Ternyata ICL serupa dengan penalaan halus yang jelas. Selain itu, diilhamkan oleh pengoptimuman meta, kajian ini mereka bentuk perhatian berasaskan momentum untuk mencapai peningkatan prestasi yang konsisten. Penulis berharap kajian ini dapat membantu lebih ramai orang mendapatkan pandangan tentang aplikasi ICL dan reka bentuk model. Hasil eksperimen
Ringkasan
Atas ialah kandungan terperinci Mengapakah Pembelajaran Dalam Konteks, didorong oleh GPT, berfungsi? Model melakukan penurunan kecerunan secara rahsia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!