Terdapat kaedah latihan teras sedemikian dalam ChatGPT yang dipanggil "Pembelajaran Pengukuhan dengan Maklum Balas Manusia (RLHF)".
Ia boleh menjadikan model lebih selamat dan hasil keluarannya lebih konsisten dengan niat manusia.
Kini, penyelidik dari Google Research dan UC Berkeley telah mendapati bahawa menggunakan kaedah ini pada lukisan AI boleh "merawat" situasi di mana imej tidak betul-betul sepadan dengan input, dan kesannya sangat baik -
Sehingga 47% peningkatan boleh dicapai.
Pada masa ini, dua model popular dalam bidang AIGC nampaknya telah menemui "resonans" tertentu.
RLHF, nama penuh "Pembelajaran Pengukuhan daripada Maklum Balas Manusia", ialah teknologi pembelajaran pengukuhan yang dibangunkan bersama oleh OpenAI dan DeepMind pada 2017.
Seperti namanya, RLHF menggunakan penilaian manusia terhadap hasil keluaran model (iaitu maklum balas) untuk terus mengoptimumkan model Dalam LLM, ia boleh menjadikan "nilai model" lebih konsisten dengan nilai manusia.
Dalam model penjanaan imej AI, ia boleh menjajarkan sepenuhnya imej yang dijana dengan gesaan teks.
Khususnya, pertama, kumpulkan data maklum balas manusia.
Di sini, penyelidik menjana sejumlah lebih daripada 27,000 "pasangan imej teks" dan kemudian meminta beberapa manusia untuk menjaringkannya.
Demi kesederhanaan, gesaan teks hanya termasuk empat kategori berikut, berkaitan dengan kuantiti, warna, latar belakang dan pilihan pengadunan hanya dibahagikan kepada "baik", "buruk" dan "jangan tahu (langkau)" ".
Kedua, pelajari fungsi ganjaran.
Langkah ini adalah untuk menggunakan set data yang terdiri daripada penilaian manusia yang baru diperolehi untuk melatih fungsi ganjaran, dan kemudian menggunakan fungsi ini untuk meramalkan kepuasan manusia dengan output model (bahagian merah formula).
Dengan cara ini, model mengetahui sejauh mana hasilnya sepadan dengan teks.
Selain fungsi ganjaran, penulis juga mencadangkan tugas tambahan (bahagian biru formula).
Iaitu, selepas penjanaan imej selesai, model akan memberikan sekumpulan teks, tetapi hanya satu daripadanya ialah teks asal, dan biarkan model ganjaran "menyemak dengan sendirinya" sama ada imej itu sepadan dengan teks.
Operasi terbalik ini boleh menjadikan kesan "insurans berganda" (ia boleh membantu pemahaman langkah 2 dalam gambar di bawah).
Akhir sekali, ia diperhalusi.
Iaitu, model penjanaan imej teks dikemas kini melalui pemaksimuman kemungkinan wajaran ganjaran (istilah pertama formula di bawah).
Untuk mengelakkan overfitting, penulis meminimumkan nilai NLL (istilah kedua formula) pada set data pra-latihan. Pendekatan ini serupa dengan InstructionGPT ("pendahulu langsung" ChatGPT).
Seperti yang ditunjukkan dalam siri kesan berikut, berbanding dengan Stable Diffusion asal, model yang diperhalusi dengan RLHF boleh :
(1) Dapatkan "dua" dan "hijau" dalam teks dengan lebih betul; abaikan "laut" Sebagai keperluan latar belakang;
(3) Jika anda mahukan harimau merah, ia boleh memberikan hasil yang "lebih merah".
Daripada data khusus, kepuasan manusia terhadap model yang diperhalusi ialah 50%, iaitu peningkatan sebanyak 47% berbanding model asal (3%).
Walau bagaimanapun, harga adalah kehilangan 5% daripada kejelasan imej.Kita juga boleh melihat dengan jelas dari gambar di bawah bahawa serigala di sebelah kanan jelas lebih kabur daripada yang di sebelah kiri:
Ya Oleh itu, penulis mencadangkan bahawa keadaan boleh diperbaiki menggunakan set data penilaian manusia yang lebih besar dan kaedah pengoptimuman (RL) yang lebih baik.
Mengenai pengarang
Terdapat 9 pengarang kesemuanya untuk artikel ini.Memandangkan saintis penyelidikan Google AI Kimin Lee, Ph.D dari Institut Sains dan Teknologi Korea, penyelidikan pasca doktoral telah dijalankan di UC Berkeley.
Tiga pengarang Cina:
Liu Hao, pelajar kedoktoran di UC Berkeley, yang minat penyelidikan utamanya ialah rangkaian saraf maklum balas.
Du Yuqing ialah pelajar PhD di UC Berkeley Halatuju penyelidikan utamanya ialah kaedah pembelajaran pengukuhan tanpa pengawasan.
Shixiang Shane Gu (Gu Shixiang), pengarang yang sepadan, belajar di bawah Hinton, salah satu daripada tiga gergasi, untuk ijazah sarjana mudanya, dan lulus dari Universiti Cambridge dengan ijazah kedoktorannya.
Perlu dinyatakan bahawa semasa menulis artikel ini, dia masih seorang Googler, dan kini dia telah beralih kepada OpenAI, di mana dia terus melaporkan kepada Laporan daripada orang yang bertanggungjawab ke atas ChatGPT.
Alamat kertas:
https://arxiv.org/abs/2302.12192
Pautan rujukan: [1]https://www.php .cn/link/4d42d2f5010c1c13f23492a35645d6a7
[2]https://openai.com/blog/instruction-following/
Atas ialah kandungan terperinci Kaedah teras ChatGPT boleh digunakan untuk lukisan AI, dan kesannya melonjak sebanyak 47%.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!