OpenAI's ChatGPT dapat memahami pelbagai jenis arahan manusia dan berfungsi dengan baik dalam tugas bahasa yang berbeza. Ini boleh dilakukan berkat kaedah penalaan halus model bahasa berskala besar baru yang dipanggil RLHF (Maklum Balas Manusia Sejajar melalui Pembelajaran Pengukuhan).
Kaedah RLHF membuka kunci keupayaan model bahasa untuk mengikut arahan manusia, menjadikan keupayaan model bahasa konsisten dengan keperluan dan nilai manusia.
Pada masa ini, kerja penyelidikan RLHF terutamanya menggunakan algoritma PPO untuk mengoptimumkan model bahasa. Walau bagaimanapun, algoritma PPO mengandungi banyak hiperparameter dan memerlukan berbilang model bebas untuk bekerjasama antara satu sama lain semasa proses lelaran algoritma, jadi butiran pelaksanaan yang salah boleh membawa kepada hasil latihan yang lemah.
Pada masa yang sama, algoritma pembelajaran pengukuhan tidak diperlukan dari perspektif penjajaran dengan manusia.
Alamat kertas: https://arxiv.org/abs/2304.05302v1
Alamat projek: https://github.com/GanjinZero/RRHF
Untuk tujuan ini, Alibaba Pengarang dari Akademi DAMO dan Universiti Tsinghua mencadangkan kaedah yang dipanggil penjajaran keutamaan manusia berasaskan kedudukan—RRHF.
RRHFPembelajaran peneguhan tidak diperlukan dan respons yang dihasilkan oleh model bahasa yang berbeza boleh dimanfaatkan, termasuk ChatGPT, GPT-4 atau latihan semasa model . RRHF berfungsi dengan menjaringkan respons dan menjajarkan respons dengan keutamaan manusia melalui kehilangan kedudukan.
Berbeza dengan PPO, proses latihan RRHF boleh menggunakan output pakar manusia atau GPT-4 sebagai perbandingan. Model RRHF terlatih boleh digunakan sebagai model bahasa generatif dan model ganjaran.
Ketua Pegawai Eksekutif Playgound AI berkata bahawa ini adalah kertas yang paling menarik baru-baru ini
Angka berikut membandingkan perbezaan antara algoritma PPO dan algoritma RRHF.
RRHF mula-mula memperoleh k balasan melalui kaedah berbeza untuk pertanyaan input, dan kemudian menggunakan model ganjaran untuk bertindak balas kepada k balasan Setiap respons diberi markah secara berasingan. Skor setiap respons menggunakan kebarangkalian logaritma:
di manakah taburan kebarangkalian model bahasa autoregresif.
Kami berharap dapat memberikan kebarangkalian yang lebih besar kepada respons dengan skor tinggi daripada model ganjaran, iaitu, kami berharap dapat menyamai skor ganjaran. Kami mengoptimumkan matlamat ini melalui kehilangan kedudukan:
Selain itu, kami juga memberikan model matlamat untuk mempelajari secara langsung yang tertinggi skor Balas:
Anda boleh lihat bahawa proses latihan RRHF adalah sangat mudah. Berikut adalah situasi pengurangan kerugian semasa latihan RRHF lihat Penurunan adalah sangat stabil, dan markah ganjaran meningkat secara berterusan apabila kerugian berkurangan.
Pengarang artikel menjalankan eksperimen pada set data HH dan juga boleh melihat kesan yang setanding dengan PPO:
Algoritma RRHF boleh menyelaraskan kebarangkalian keluaran model bahasa dengan pilihan manusia secara berkesan. Model terlatih mempunyai beberapa ciri:
Kaedah RRHF menggunakan chatGPT atau GPT-4 OpenAI sebagai model pemarkahan dan output ChatGPT, Alpaca dan model lain sebagai sampel latihan untuk membangunkan dua model bahasa baharu, iaitu Wombat-7B dan Wombat-7B-GPT4. Masa latihan berkisar antara 2-4 jam dan sangat ringan.
Wombat, sebagai model pra-latihan sumber terbuka baharu, boleh diselaraskan dengan lebih baik dengan pilihan manusia berbanding LLaMA, Alpaca, dsb. Pengarang secara eksperimen mendapati bahawa Wombat-7B mempunyai kebolehan yang kompleks seperti main peranan dan menjalankan penaakulan kontrafaktual.
Jika Wombat diminta memperkenalkan teknologi masa depan dari tahun 3000, Wombat akan menjawab seperti ini (diterjemahkan daripada bahasa Inggeris):
Semoga masa depan kita akan menjadi lebih baik dan lebih baik seperti yang diramalkan oleh Wombat.
Rujukan:
https://github.com/GanjinZero/RRHF
Atas ialah kandungan terperinci Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!