Rumah > Peranti teknologi > AI > Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

WBOY
Lepaskan: 2023-05-03 11:46:06
ke hadapan
1338 orang telah melayarinya

OpenAI's ChatGPT dapat memahami pelbagai jenis arahan manusia dan berfungsi dengan baik dalam tugas bahasa yang berbeza. Ini boleh dilakukan berkat kaedah penalaan halus model bahasa berskala besar baru yang dipanggil RLHF (Maklum Balas Manusia Sejajar melalui Pembelajaran Pengukuhan).

Kaedah RLHF membuka kunci keupayaan model bahasa untuk mengikut arahan manusia, menjadikan keupayaan model bahasa konsisten dengan keperluan dan nilai manusia.

Pada masa ini, kerja penyelidikan RLHF terutamanya menggunakan algoritma PPO untuk mengoptimumkan model bahasa. Walau bagaimanapun, algoritma PPO mengandungi banyak hiperparameter dan memerlukan berbilang model bebas untuk bekerjasama antara satu sama lain semasa proses lelaran algoritma, jadi butiran pelaksanaan yang salah boleh membawa kepada hasil latihan yang lemah.

Pada masa yang sama, algoritma pembelajaran pengukuhan tidak diperlukan dari perspektif penjajaran dengan manusia.

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Alamat kertas: https://arxiv.org/abs/2304.05302v1

Alamat projek: https://github.com/GanjinZero/RRHF

Untuk tujuan ini, Alibaba Pengarang dari Akademi DAMO dan Universiti Tsinghua mencadangkan kaedah yang dipanggil penjajaran keutamaan manusia berasaskan kedudukan—RRHF.

RRHFPembelajaran peneguhan tidak diperlukan dan respons yang dihasilkan oleh model bahasa yang berbeza boleh dimanfaatkan, termasuk ChatGPT, GPT-4 atau latihan semasa model . RRHF berfungsi dengan menjaringkan respons dan menjajarkan respons dengan keutamaan manusia melalui kehilangan kedudukan.

Berbeza dengan PPO, proses latihan RRHF boleh menggunakan output pakar manusia atau GPT-4 sebagai perbandingan. Model RRHF terlatih boleh digunakan sebagai model bahasa generatif dan model ganjaran.

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Ketua Pegawai Eksekutif Playgound AI berkata bahawa ini adalah kertas yang paling menarik baru-baru ini

Angka berikut membandingkan perbezaan antara algoritma PPO dan algoritma RRHF.

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

RRHF mula-mula memperoleh k balasan melalui kaedah berbeza untuk pertanyaan input, dan kemudian menggunakan model ganjaran untuk bertindak balas kepada k balasan Setiap respons diberi markah secara berasingan. Skor setiap respons menggunakan kebarangkalian logaritma:

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

di manakah taburan kebarangkalian model bahasa autoregresif.

Kami berharap dapat memberikan kebarangkalian yang lebih besar kepada respons dengan skor tinggi daripada model ganjaran, iaitu, kami berharap dapat menyamai skor ganjaran. Kami mengoptimumkan matlamat ini melalui kehilangan kedudukan:

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Selain itu, kami juga memberikan model matlamat untuk mempelajari secara langsung yang tertinggi skor Balas:

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Anda boleh lihat bahawa proses latihan RRHF adalah sangat mudah. ​​Berikut adalah situasi pengurangan kerugian semasa latihan RRHF lihat Penurunan adalah sangat stabil, dan markah ganjaran meningkat secara berterusan apabila kerugian berkurangan.

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Pengarang artikel menjalankan eksperimen pada set data HH dan juga boleh melihat kesan yang setanding dengan PPO:

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Algoritma RRHF boleh menyelaraskan kebarangkalian keluaran model bahasa dengan pilihan manusia secara berkesan. Model terlatih mempunyai beberapa ciri:

  • hanya memerlukan 1 hingga 2 model, manakala PPO memerlukan 4 model, jadi algoritma RRHF lebih mudah dan cekap.
  • Penalaan halus yang diselia (SFT) boleh dilihat sebagai bentuk khas algoritma RRHF.
  • Algoritma RRHF boleh digunakan sebagai model bahasa dan model ganjaran.
  • Algoritma RRHF boleh menyesuaikan keutamaan model ganjaran pada kesukaran latihan yang lebih rendah, mencapai kesan algoritma PPO dan mengelakkan masalah kerumitan dan ketidakstabilan dalam algoritma PPO.

Kaedah RRHF menggunakan chatGPT atau GPT-4 OpenAI sebagai model pemarkahan dan output ChatGPT, Alpaca dan model lain sebagai sampel latihan untuk membangunkan dua model bahasa baharu, iaitu Wombat-7B dan Wombat-7B-GPT4. Masa latihan berkisar antara 2-4 jam dan sangat ringan.

Wombat, sebagai model pra-latihan sumber terbuka baharu, boleh diselaraskan dengan lebih baik dengan pilihan manusia berbanding LLaMA, Alpaca, dsb. Pengarang secara eksperimen mendapati bahawa Wombat-7B mempunyai kebolehan yang kompleks seperti main peranan dan menjalankan penaakulan kontrafaktual.

Jika Wombat diminta memperkenalkan teknologi masa depan dari tahun 3000, Wombat akan menjawab seperti ini (diterjemahkan daripada bahasa Inggeris):

  • Sebagaimana seorang dari tahun 3000 Sebagai pengembara masa selama bertahun-tahun, saya telah mendapat keistimewaan untuk menyaksikan banyak kemajuan teknologi revolusioner. Salah satu kemajuan teknologi terpenting yang saya ingin kongsikan dengan orang moden ialah pembangunan teknologi kecerdasan buatan (AI). Teknologi AI telah maju ke tahap di mana ia telah menjadi sebahagian daripada kehidupan seharian kita. Ia telah digunakan untuk membangunkan mesin pintar yang boleh melakukan pelbagai tugas, daripada memandu kereta hingga mendiagnosis keadaan perubatan. Teknologi AI juga digunakan untuk mencipta pembantu maya seperti Siri dan Alexa yang boleh menjawab soalan, menjadualkan janji temu, dan juga memesan barangan runcit. Satu lagi kemajuan teknologi yang ingin saya ketengahkan ialah pembangunan tenaga boleh diperbaharui. Pada tahun 3000, hampir semua keperluan tenaga kita dipenuhi oleh sumber tenaga boleh diperbaharui seperti tenaga suria, angin dan hidro. Ini mengurangkan kesan karbon kita dengan ketara dan membantu mengurangkan kesan perubahan iklim. Akhir sekali, saya ingin menyebut kemajuan dalam penerokaan angkasa lepas. Pada tahun 3000, manusia telah dapat meneroka dan menjajah beberapa planet di luar sistem suria kita. Perjalanan angkasa lepas menjadi lebih pantas, selamat dan lebih mudah berkat sistem pendorongan yang canggih dan penggunaan kecerdasan buatan untuk mengemudi dan meneroka dunia baharu. Secara keseluruhannya, kemajuan teknologi yang saya nyatakan hanyalah beberapa contoh daripada banyak inovasi yang telah dibangunkan selama ini. Sebagai pengembara masa, kita telah menyaksikan sendiri kemajuan menakjubkan yang telah dilakukan manusia dalam teknologi.

Semoga masa depan kita akan menjadi lebih baik dan lebih baik seperti yang diramalkan oleh Wombat.

Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat

Rujukan:

https://github.com/GanjinZero/RRHF

Atas ialah kandungan terperinci Mampu menyelaraskan manusia tanpa RLHF, prestasi setanding dengan ChatGPT! Pasukan China mencadangkan model Wombat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan