Menjadikan tingkah laku model bahasa selaras dengan nilai sosial manusia adalah bahagian penting dalam pembangunan model bahasa semasa. Latihan yang sepadan juga dipanggil penjajaran nilai.
Penyelesaian arus perdana semasa ialah RLHF (Reinforcenment Learning from Human Feedback) yang digunakan oleh ChatGPT, iaitu pembelajaran pengukuhan berdasarkan maklum balas manusia. Penyelesaian ini mula-mula melatih model ganjaran (model nilai) sebagai proksi untuk pertimbangan manusia. Model ejen menyediakan ganjaran sebagai isyarat penyeliaan kepada model bahasa generatif semasa fasa pembelajaran pengukuhan.
Kaedah ini mempunyai titik kesakitan berikut:
1. Ganjaran yang dijana oleh model ejen boleh dipecahkan atau diusik dengan mudah.
2 Semasa proses latihan, model ejen perlu terus berinteraksi dengan model generatif, dan proses ini mungkin sangat memakan masa dan tidak cekap. Untuk memastikan isyarat penyeliaan berkualiti tinggi, model ejen tidak boleh lebih kecil daripada model generatif, yang bermaksud semasa proses pengoptimuman pembelajaran pengukuhan, sekurang-kurangnya dua model yang lebih besar perlu melakukan inferens secara bergilir-gilir (penghakiman ganjaran) dan pengemaskinian parameter (pengoptimuman parameter model generatif). Tetapan sedemikian mungkin sangat menyusahkan dalam latihan teragih berskala besar.
3. Model nilai itu sendiri tidak mempunyai kesesuaian yang jelas dengan model pemikiran manusia. Kami tidak mempunyai satu model pemarkahan dalam fikiran, dan sebenarnya amat sukar untuk mengekalkan standard pemarkahan tetap untuk jangka masa yang lama. Sebaliknya, kebanyakan pertimbangan nilai yang kita bentuk semasa kita berkembang datang daripada interaksi sosial harian—dengan menganalisis tindak balas sosial yang berbeza terhadap situasi yang serupa, kita mula menyedari apa yang digalakkan dan apa yang tidak. Pengalaman dan konsensus ini secara beransur-ansur terkumpul melalui sejumlah besar "sosialisasi-maklum balas-penambahbaikan" telah menjadi pertimbangan nilai bersama masyarakat manusia.
Kajian terbaru dari Dartmouth, Stanford, Google DeepMind dan institusi lain menunjukkan bahawa menggunakan data berkualiti tinggi yang dibina oleh permainan sosial digabungkan dengan algoritma penjajaran yang mudah dan cekap mungkin satu-satunya cara untuk mencapai matlamat ini.
Pengarang mencadangkan kaedah penjajaran yang dilatih pada data permainan berbilang ejen. Idea asas boleh difahami sebagai memindahkan interaksi dalam talian model ganjaran dan model generatif dalam fasa latihan kepada interaksi luar talian antara sejumlah besar ejen autonomi dalam permainan (kadar pensampelan tinggi, pratonton permainan terlebih dahulu). Persekitaran permainan berjalan secara bebas daripada latihan dan boleh diselaraskan secara besar-besaran. Isyarat penyeliaan beralih daripada bergantung kepada prestasi model ganjaran ejen kepada bergantung kepada kecerdasan kolektif sebilangan besar ejen autonomi.
Untuk tujuan ini, pengarang mereka bentuk model sosial maya yang dipanggil Sandbox. Kotak pasir ialah dunia yang terdiri daripada titik grid, dan setiap titik grid ialah ejen sosial. Badan sosial mempunyai sistem ingatan yang digunakan untuk menyimpan pelbagai maklumat seperti soalan, jawapan, maklum balas dan sebagainya bagi setiap interaksi. Setiap kali kumpulan sosial menjawab soalan, ia mesti mendapatkan semula dan mengembalikan soalan sejarah N dan jawapan yang paling relevan kepada soalan daripada sistem ingatan sebagai rujukan kontekstual untuk balasan ini. Melalui reka bentuk ini, kedudukan badan sosial boleh dikemas kini secara berterusan dalam pelbagai pusingan interaksi, dan kedudukan yang dikemas kini dapat mengekalkan kesinambungan tertentu dengan masa lalu. Setiap kumpulan sosial mempunyai kedudukan lalai yang berbeza dalam fasa permulaan.
Tukar data permainan kepada data penjajaran
Dalam percubaan, pengarang menggunakan kotak pasir grid 10x10 (sebanyak 100 entiti sosial) untuk menjalankan simulasi sosial dan merumuskan peraturan sosial (yang dipanggil Peraturan Kotak Pasir): semua entiti sosial mesti membuat sendiri menyedari masalah Jawapannya lebih sejajar secara sosial untuk meninggalkan kesan yang baik kepada kumpulan sosial yang lain. Di samping itu, kotak pasir juga menggunakan pemerhati tanpa ingatan untuk menjaringkan respons kumpulan sosial sebelum dan selepas setiap interaksi sosial. Pemarkahan adalah berdasarkan dua dimensi: penjajaran dan penglibatan.
Simulasi masyarakat manusia dalam kotak pasir menggunakan model yang berbeza
Pengarang menggunakan Kotak Pasir untuk menguji model bahasa dengan saiz yang berbeza dan peringkat latihan yang berbeza. Secara keseluruhan, model yang dilatih dengan penjajaran (yang dipanggil "model sejajar"), seperti davinci-003, GPT-4 dan ChatGPT, boleh menjana tindak balas normatif sosial dalam pusingan interaksi yang lebih sedikit. Dalam erti kata lain, kepentingan latihan penjajaran adalah untuk menjadikan model lebih selamat dalam senario "luar kotak" tanpa memerlukan panduan dialog pusingan khas. Model tanpa latihan penjajaran bukan sahaja memerlukan lebih banyak interaksi untuk mencapai tindak balas optimum keseluruhan penjajaran dan penglibatan, tetapi juga had atas optimum keseluruhan ini adalah jauh lebih rendah daripada model sejajar.
Pengarang juga mencadangkan algoritma penjajaran yang ringkas dan mudah dipanggil penjajaran Stabil untuk Belajar daripada data sejarah dalam kotak pasir. Algoritma penjajaran stabil melakukan pembelajaran kontrastif termodulat skor dalam setiap kelompok mini - semakin rendah skor balasan, semakin besar nilai sempadan pembelajaran kontrastif akan ditetapkan - dalam erti kata lain, penjajaran stabil Dengan persampelan kumpulan kecil data secara berterusan , model ini digalakkan untuk menjana respons yang lebih hampir kepada respons berskor tinggi dan kurang menghampiri respons berskor rendah. Penjajaran stabil akhirnya menumpu kepada kehilangan SFT. Penulis juga membincangkan perbezaan antara penjajaran stabil dan SFT, RLHF.
Pengarang terutamanya menekankan data daripada permainan Sandbox Disebabkan penetapan mekanisme, sejumlah besarnya dimasukkan melalui semakan (revision) dan menjadi data yang menepati nilai-nilai sosial. Penulis membuktikan melalui eksperimen ablasi bahawa jumlah data yang besar dengan peningkatan langkah demi langkah ini adalah kunci kepada latihan yang stabil.
Pengarang juga membandingkan prestasi algoritma penjajaran arus perdana semasa Perbandingan prestasi dibuat dengan kestabilan latihan, membuktikan bahawa penjajaran stabil bukan sahaja lebih stabil daripada pemodelan ganjaran, tetapi juga setanding dengan RLHF dalam prestasi umum dan prestasi penjajaran (memandangkan ChatGPT menggunakan model, data dan algoritma yang tidak didedahkan, ia hanya untuk rujukan).
Hasil penjanaan contoh:
Sila rujuk kertas untuk maklumat lanjut butiran.
Atas ialah kandungan terperinci Sepuluh baris kod adalah setanding dengan RLHF dan menggunakan data permainan sosial untuk melatih model penjajaran sosial. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!