LLM telah mencapai prestasi yang baik di bawah pembelajaran dalam konteks, tetapi memilih contoh yang berbeza akan membawa kepada persembahan yang berbeza sama sekali. Kerja penyelidikan baru-baru ini mencadangkan strategi carian segera dari perspektif bias ramalan, dan kira-kira mencari gabungan contoh yang optimum.
Model bahasa berskala besar telah menunjukkan keupayaan yang menakjubkan dalam pembelajaran kontekstual Model ini boleh belajar daripada konteks yang dibina daripada beberapa contoh input dan output tanpa memerlukan denda -penalaan. Pengoptimuman digunakan secara langsung pada banyak tugas hiliran. Walau bagaimanapun, kajian terdahulu telah menunjukkan bahawa pembelajaran kontekstual boleh mempamerkan tahap ketidakstabilan yang tinggi disebabkan oleh perubahan dalam contoh latihan, susunan contoh dan format segera. Oleh itu, membina gesaan yang sesuai adalah penting untuk meningkatkan prestasi pembelajaran kontekstual.
Penyelidikan sebelum ini biasanya mengkaji isu ini dari dua arah: (1) penalaan segera dalam ruang pengekodan (penalaan segera), (2) mencari dalam ruang asal (pencarian segera).
Idea utama Penalaan Segera adalah untuk menyuntik benam khusus tugasan ke dalam lapisan tersembunyi dan kemudian menggunakan pengoptimuman berasaskan kecerunan untuk melaraskan benam ini. Walau bagaimanapun, kaedah ini memerlukan pengubahsuaian proses inferens asal model dan mendapatkan kecerunan model, yang tidak praktikal dalam perkhidmatan LLM kotak hitam seperti GPT-3 dan ChatGPT. Tambahan pula, penalaan pembayang memperkenalkan kos pengiraan dan penyimpanan tambahan, yang selalunya mahal untuk LLM.
Pendekatan yang lebih sesuai dan cekap ialah mengoptimumkan gesaan dengan mencari ruang teks asal untuk sampel dan jujukan demonstrasi anggaran. Sesetengah kerja membina gesaan daripada "Paparan global" atau "Paparan setempat". Kaedah berasaskan paparan global biasanya mengoptimumkan elemen gesaan yang berbeza secara keseluruhan untuk mencapai prestasi yang lebih baik. Sebagai contoh, pendekatan [1] berpandukan Kepelbagaian mengeksploitasi kepelbagaian keseluruhan demonstrasi untuk carian, atau cuba mengoptimumkan keseluruhan susunan gabungan sampel [2] untuk mencapai prestasi yang lebih baik. Berbeza dengan pandangan Global, kaedah berasaskan paparan Tempatan berfungsi dengan mereka bentuk kriteria pemilihan heuristik yang berbeza, seperti KATE [3].
Tetapi kaedah ini mempunyai hadnya sendiri: (1) Kebanyakan penyelidikan semasa tertumpu terutamanya pada mencari petunjuk sepanjang satu faktor, seperti pemilihan contoh atau susunan. Walau bagaimanapun, kesan keseluruhan setiap faktor terhadap prestasi adalah tidak jelas. (2) Kaedah ini biasanya berdasarkan kriteria heuristik dan memerlukan perspektif yang bersatu untuk menerangkan cara kaedah ini berfungsi. (3) Lebih penting lagi, kaedah sedia ada mengoptimumkan petunjuk secara global atau tempatan, yang mungkin membawa kepada prestasi yang tidak memuaskan.
Artikel ini mengkaji semula masalah pengoptimuman segera dalam bidang NLP dari perspektif "kecondongan ramalan" dan menemui fenomena utama: kualiti gesaan yang diberikan bergantung pada kecenderungan yang wujud. Berdasarkan fenomena ini, artikel tersebut mencadangkan kriteria alternatif untuk menilai kualiti gesaan berdasarkan bias ramalan Metrik ini boleh menilai gesaan melalui satu proses ke hadapan tanpa memerlukan set pembangunan tambahan.
Secara khusus, dengan memasukkan ujian "tiada kandungan" di bawah gesaan yang diberikan, model dijangka akan mengeluarkan taburan ramalan yang seragam (input "tiada kandungan" tidak mengandungi sebarang maklumat berguna) . Oleh itu, keseragaman taburan ramalan digunakan dalam kertas ini untuk mewakili sisihan ramalan bagi gesaan yang diberikan. Ini adalah serupa dengan metrik yang digunakan oleh kaedah pasca penentukuran sebelumnya [4], tetapi tidak seperti pasca penentukuran yang menggunakan metrik ini untuk penentukuran pasca kebarangkalian di bawah gesaan tetap, makalah ini meneroka lebih lanjut aplikasinya dalam mencari gesaan anggaran secara automatik. Dan melalui eksperimen yang meluas, kami mengesahkan korelasi antara bias yang wujud bagi gesaan yang diberikan dan prestasi tugas puratanya pada set ujian tertentu.
Tambahan pula, metrik berasaskan berat sebelah ini membolehkan kaedah mencari gesaan yang sesuai dalam cara "tempatan ke global". Walau bagaimanapun, masalah yang realistik ialah tidak mungkin untuk mencari penyelesaian optimum dengan merentasi semua kombinasi kerana kerumitannya akan melebihi O (N!).
Kerja ini mencadangkan dua strategi baru untuk mencari gesaan berkualiti tinggi dengan cara yang cekap: (1) T-fair-Prompting (2) G-fair-Prompting. T-fair-Prompting menggunakan pendekatan intuitif, mula-mula mengira sisihan setiap contoh secara individu membentuk gesaan, dan kemudian memilih contoh paling adil Top-k untuk digabungkan menjadi gesaan akhir. Strategi ini agak cekap, dengan kerumitan O (N). Tetapi perlu diperhatikan bahawa T-fair-Prompting adalah berdasarkan andaian bahawa gesaan optimum biasanya dibina daripada contoh yang paling berat sebelah. Walau bagaimanapun, ini mungkin tidak berlaku dalam situasi praktikal dan selalunya membawa kepada penyelesaian optimum tempatan. Oleh itu, G-fair-Prompting diperkenalkan lagi dalam artikel untuk meningkatkan kualiti carian. G-fair-Prompting mengikuti proses biasa pencarian rakus untuk mencari penyelesaian optimum dengan membuat pilihan optimum setempat pada setiap langkah. Pada setiap langkah algoritma, contoh dipilih supaya gesaan yang dikemas kini mencapai keadilan optimum dengan kerumitan masa terburuk O (N^2), meningkatkan kualiti carian dengan ketara. G-fair-Prompting berfungsi dari perspektif tempatan-ke-global, di mana berat sebelah sampel individu dipertimbangkan pada peringkat awal, manakala peringkat kemudian menumpukan pada mengurangkan bias ramalan global.
Kajian ini mencadangkan kaedah yang berkesan dan boleh ditafsir untuk meningkatkan prestasi pembelajaran konteks model bahasa, yang boleh digunakan untuk pelbagai tugas hiliran. Artikel itu mengesahkan keberkesanan kedua-dua strategi ini pada pelbagai LLM (termasuk siri model GPT dan siri LMaMA yang dikeluarkan baru-baru ini Berbanding dengan kaedah SOTA, G-fair-Prompting mencapai lebih daripada 10% pada tugasan hiliran yang berbeza). .
Perkara yang paling hampir dengan penyelidikan ini ialah kaedah Penentukuran-sebelum digunakan [4], yang kedua-duanya menggunakan input "bebas kandungan" untuk meningkatkan prestasi model. Walau bagaimanapun, kaedah Kalibrasi-sebelum-penggunaan direka bentuk untuk menggunakan piawaian ini untuk menentukur keluaran, yang masih terdedah kepada kualiti contoh yang digunakan. Sebaliknya, kertas kerja ini bertujuan untuk mencari ruang asal untuk mencari gesaan yang hampir optimum untuk meningkatkan prestasi model tanpa sebarang pasca pemprosesan output model. Tambahan pula, kertas ini adalah yang pertama menunjukkan melalui eksperimen yang meluas hubungan antara bias ramalan dan prestasi tugas akhir, yang belum lagi dikaji dalam kaedah penentukuran sebelum digunakan.
Ia juga boleh didapati melalui eksperimen bahawa walaupun tanpa penentukuran, gesaan yang dipilih mengikut kaedah yang dicadangkan dalam artikel ini boleh lebih baik daripada gesaan yang dipilih secara rawak yang ditentukur. Ini menunjukkan bahawa kaedah itu boleh menjadi praktikal dan berkesan dalam aplikasi praktikal dan boleh memberi inspirasi untuk penyelidikan pemprosesan bahasa semula jadi pada masa hadapan.
Atas ialah kandungan terperinci Memeriksa semula masalah pengoptimuman Segera, bias ramalan menjadikan pembelajaran konteks model bahasa lebih kukuh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!