Kesannya lebih stabil dan pelaksanaannya lebih mudah.
Kejayaan model bahasa besar (LLM) tidak dapat dipisahkan daripada "pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF)". RLHF boleh dibahagikan secara kasar kepada dua peringkat Pertama, memandangkan sepasang tingkah laku pilihan dan tidak disukai, model ganjaran dilatih untuk memberikan skor yang lebih tinggi kepada yang pertama dengan mengklasifikasikan sasaran. Fungsi ganjaran ini kemudiannya dioptimumkan melalui beberapa jenis algoritma pembelajaran pengukuhan. Walau bagaimanapun, elemen utama model ganjaran mungkin mempunyai beberapa kesan yang tidak diingini. Penyelidik dari Carnegie Mellon University (CMU) dan Google Research bersama-sama mencadangkan kaedah RLHF baharu yang ringkas, ketat secara teori dan berkesan secara eksperimen - Pengoptimuman Keutamaan Permainan Kendiri (Pengoptimuman Keutamaan Main Kendiri (SPO). Pendekatan ini menghapuskan model ganjaran dan tidak memerlukan latihan lawan.
Kertas: Pendekatan Minimaksimal untuk Pembelajaran Peneguhan daripada Maklum Balas ManusiaAlamat kertas: https://arxiv.org/abs/2401.04056 kepada kaedah
SPO Yang kaedah terutamanya merangkumi Dua aspek. Pertama, kajian ini benar-benar menghapuskan model ganjaran dengan membina RLHF sebagai permainan jumlah sifar, menjadikannya lebih berkemampuan untuk mengendalikan pilihan bising, bukan Markovian yang sering muncul dalam amalan. Kedua, dengan mengeksploitasi simetri permainan, kajian ini menunjukkan bahawa ejen tunggal hanya boleh dilatih dengan cara permainan sendiri, dengan itu menghapuskan keperluan untuk latihan lawan yang tidak stabil. Dalam amalan, ini adalah bersamaan dengan pensampelan berbilang trajektori daripada ejen, meminta penilai atau model keutamaan untuk membandingkan setiap pasangan trajektori, dan menetapkan ganjaran kepada kadar kemenangan trajektori. SPO mengelakkan pemodelan ganjaran, ralat kompaun dan latihan lawan. Dengan mewujudkan konsep pemenang minmax daripada teori pilihan sosial, kajian ini membina RLHF sebagai permainan jumlah sifar dua orang dan mengeksploitasi simetri matriks hasil permainan untuk menunjukkan bahawa ejen tunggal boleh dilatih dengan mudah untuk melawan dirinya sendiri.
Kajian ini juga menganalisis ciri penumpuan SPO dan membuktikan bahawa apabila fungsi ganjaran berpotensi wujud, SPO boleh menumpu kepada polisi optimum pada kelajuan pantas setanding dengan kaedah standard. Kajian ini menunjukkan bahawa SPO berprestasi lebih baik daripada kaedah berasaskan model ganjaran pada satu siri tugas kawalan berterusan dengan fungsi keutamaan yang realistik. SPO dapat mempelajari sampel dengan lebih cekap daripada kaedah berasaskan model ganjaran dalam pelbagai tetapan keutamaan, seperti ditunjukkan dalam Rajah 2 di bawah.
Kajian ini membandingkan SPO dengan kaedah pemodelan ganjaran berulang (RM) daripada pelbagai dimensi, bertujuan untuk menjawab 4 soalan:
-
W intransitive boleh dikira, SPO intransitive MW?
-
Bolehkah SPO memadankan atau melebihi kecekapan sampel RM pada masalah dengan Pemenang Copeland yang unik/strategi optimum?
-
Sejauh manakah SPO teguh kepada pilihan rawak?
-
Bolehkah SPO mengendalikan pilihan bukan Markovian?
Dari segi keutamaan ganjaran maksimum, keutamaan hingar, dan keutamaan bukan Markov, keputusan eksperimen kajian ini masing-masing ditunjukkan dalam Rajah 6, 7, dan 8:
🎜
Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan. Atas ialah kandungan terperinci Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!