Baru-baru ini, model generatif mendalam telah mencapai kejayaan yang luar biasa dalam menjana imej berkualiti tinggi daripada gesaan teks, sebahagiannya disebabkan oleh penskalaan model generatif dalam kepada set data web berskala besar seperti LAION. Walau bagaimanapun, beberapa cabaran penting kekal, menghalang model teks-ke-imej berskala besar daripada menjana imej yang sejajar dengan gesaan teks dengan sempurna. Sebagai contoh, model teks-ke-imej semasa sering gagal menjana teks visual yang boleh dipercayai dan menghadapi kesukaran dengan penjanaan imej gabungan.
Kembali dalam bidang pemodelan bahasa, pembelajaran daripada maklum balas manusia telah menjadi penyelesaian yang berkesan untuk "menjajarkan tingkah laku model dengan niat manusia." Kaedah jenis ini mula-mula mempelajari fungsi ganjaran yang direka bentuk untuk mencerminkan perkara yang penting bagi manusia dalam tugasan melalui maklum balas manusia pada output model, dan kemudian menggunakan fungsi ganjaran yang dipelajari melalui algoritma pembelajaran pengukuhan (seperti PPO pengoptimuman dasar proksimal) untuk Mengoptimumkan bahasa model. Pembelajaran pengukuhan dengan rangka kerja maklum balas manusia (RLHF) ini telah berjaya menggabungkan model bahasa berskala besar (seperti GPT-3) dengan penilaian kualiti manusia yang canggih.
Baru-baru ini, diilhamkan oleh kejayaan RLHF dalam bidang bahasa, penyelidik di Google Research dan Berkeley, California mencadangkan kaedah penalaan halus untuk menjajarkan teks kepada model imej menggunakan maklum balas manusia.
Alamat kertas: https://arxiv.org/pdf/2302.12192v1.pdf
Kaedah dalam artikel ini ditunjukkan dalam Rajah 1 di bawah, yang kebanyakannya dibahagikan kepada 3 langkah.
Langkah 1: Mula-mula jana imej berbeza daripada set gesaan teks "direka untuk menguji penjajaran teks ke output model imej". Secara khusus, periksa gesaan model terlatih yang lebih terdedah kepada ralat—menjana objek dengan warna, nombor dan latar belakang tertentu, kemudian kumpulkan maklum balas manusia binari yang digunakan untuk menilai output model.
Langkah 2: Menggunakan set data berlabel manusia, latih fungsi ganjaran untuk meramalkan maklum balas manusia yang diberikan imej dan gesaan teks. Kami mencadangkan tugas tambahan untuk mengenal pasti gesaan teks asal antara satu set gesaan teks yang terganggu untuk menggunakan maklum balas manusia dengan lebih berkesan untuk pembelajaran ganjaran. Teknik ini menambah baik generalisasi fungsi ganjaran kepada imej yang tidak kelihatan dan gesaan teks.
Langkah 3: Kemas kini model teks-ke-imej melalui pemaksimuman kemungkinan wajaran ganjaran untuk menyelaraskannya dengan maklum balas manusia dengan lebih baik. Tidak seperti kerja sebelumnya yang menggunakan pembelajaran pengukuhan untuk pengoptimuman, penyelidik menggunakan pembelajaran separa penyeliaan untuk mengemas kini model untuk mengukur kualiti output model, iaitu fungsi ganjaran yang dipelajari.
Penyelidik menggunakan 27,000 pasangan teks imej dengan maklum balas manusia untuk memperhalusi model Resapan Stabil dan hasilnya menunjukkan penalaan halus Model terakhir mencapai peningkatan yang ketara dalam menghasilkan objek dengan warna, kuantiti dan latar belakang tertentu. Mencapai sehingga 47% peningkatan dalam penjajaran teks imej dengan sedikit kehilangan dalam kesetiaan imej.
Selain itu, hasil penjanaan gabungan telah dipertingkatkan untuk menjana objek ghaib dengan lebih baik memandangkan gabungan warna, kuantiti dan gesaan latar belakang yang tidak kelihatan. Mereka juga mendapati bahawa fungsi ganjaran yang dipelajari sepadan dengan penilaian penjajaran manusia lebih baik daripada skor CLIP pada gesaan teks ujian.
Walau bagaimanapun, Kimin Lee, pengarang pertama kertas kerja, juga berkata bahawa hasil kertas kerja ini tidak menyelesaikan semua model kegagalan dalam model teks-ke-imej sedia ada, dan masih banyak cabaran. Mereka berharap kerja ini akan menyerlahkan potensi pembelajaran daripada maklum balas manusia dalam menjajarkan model graf Vincent.
Untuk menjajarkan imej yang dijana dengan gesaan teks, kajian ini melakukan satu siri penalaan halus pada model pra-latihan, dan prosesnya ditunjukkan dalam Rajah 1 di atas. Pertama, imej yang sepadan dihasilkan daripada satu set gesaan teks, satu proses yang direka untuk menguji pelbagai prestasi model graf Vincentian kemudian penilai manusia memberikan maklum balas binari pada imej yang dihasilkan ini seterusnya, kajian itu melatih model ganjaran untuk meramalkan maklum balas manusia; gesaan teks dan imej sebagai input, akhirnya, kajian menggunakan kemungkinan log wajaran ganjaran untuk memperhalusi model graf Vincent untuk menambah baik penjajaran imej teks.
Pengumpulan Data Manusia
Untuk menguji kefungsian model graf Vincentian, kajian mempertimbangkan tiga kategori teks gesaan: Kiraan, warna, latar belakang yang ditentukan. Bagi setiap kategori, kajian menjana gesaan dengan memasangkan setiap perkataan atau frasa yang menerangkan objek, seperti hijau (warna) dengan anjing (kuantiti). Selain itu, kajian itu mempertimbangkan gabungan tiga kategori (cth., dua anjing yang diwarnakan hijau di sebuah bandar). Jadual 1 di bawah menggambarkan klasifikasi set data dengan lebih baik. Setiap gesaan akan digunakan untuk menjana 60 imej, dan model terutamanya Stable Diffusion v1.5.
Maklum Balas Manusia
Seterusnya Dijana imej untuk maklum balas manusia. Tiga imej yang dijana oleh gesaan yang sama akan dibentangkan kepada pelabel, dan mereka akan diminta untuk menilai sama ada setiap imej yang dijana konsisten dengan gesaan dan kriteria penilaian adalah baik atau buruk. Memandangkan tugas ini agak mudah, maklum balas binari akan mencukupi.
Pembelajaran Ganjaran
Untuk menilai penjajaran teks imej dengan lebih baik, kajian ini menggunakan fungsi ganjaran ialah fungsi yang memetakan pembenaman CLIP imej x dan gesaan teks z kepada nilai skalar. Ia kemudiannya digunakan untuk meramalkan maklum balas manusia k_y ∈ {0, 1} (1 = baik, 0 = buruk).
Secara formal, memandangkan set data maklum balas manusia D^manusia = {(x, z, y)}, fungsi ganjaran Latih dengan meminimumkan ralat kuasa dua min (MSE):
Sebelum ini, ia telah menjadi Kajian telah menunjukkan bahawa kaedah penambahan data boleh meningkatkan kecekapan data dan memodelkan prestasi pembelajaran dengan ketara Untuk menggunakan set data maklum balas dengan berkesan, kajian ini mereka bentuk skim penambahan data mudah dan kerugian tambahan (auxiliary loss) untuk pembelajaran ganjaran. Kajian ini menggunakan gesaan tambahan dalam tugasan tambahan, iaitu pembelajaran ganjaran klasifikasi dilakukan pada gesaan asal. Pengelas Prompt menggunakan fungsi ganjaran seperti berikut:
Kerugian tambahan ialah:
Langkah terakhir ialah mengemas kini model rajah Vincent. Memandangkan kepelbagaian set data yang dijana oleh model adalah terhad, ia mungkin membawa kepada overfitting. Untuk mengurangkan ini, kajian ini juga meminimumkan kerugian pra-latihan seperti berikut:
Bahagian percubaan direka bentuk untuk menguji keberkesanan maklum balas manusia yang mengambil bahagian dalam penalaan halus model. Model yang digunakan dalam eksperimen ialah Stable Diffusion v1.5; maklumat set data ditunjukkan dalam Jadual 1 (lihat di atas) dan Jadual 2. Jadual 2 menunjukkan taburan maklum balas yang disediakan oleh pelbagai pelabel manusia.
Penilaian manusia bagi penjajaran imej teks (metrik penilaian ialah warna, bilangan objek). Seperti yang ditunjukkan dalam Rajah 4, kaedah kami meningkatkan penjajaran teks imej dengan ketara Secara khusus, 50% daripada sampel dalam imej yang dijana oleh model menerima sekurang-kurangnya dua pertiga daripada undian menyokong (jumlah undian ialah 7 atau lebih undian. memihak) undian), walau bagaimanapun, penalaan halus mengurangkan kesetiaan imej (15% berbanding 10%). Rajah 2 menunjukkan contoh imej daripada model asal dan model sepadan yang diperhalusi daripada kertas ini. Dapat dilihat bahawa model asal menghasilkan imej yang tidak mempunyai butiran (seperti warna, latar belakang atau kiraan) (Rajah 2 (a)), dan imej yang dijana oleh model kami mematuhi warna, kiraan dan latar belakang yang ditentukan oleh gesaan. . Perlu diingat bahawa model kami juga boleh menghasilkan imej gesaan teks yang tidak kelihatan dengan kualiti yang sangat tinggi (Rajah 2 (b)).
Ganjaran hasil pembelajaran. Rajah 3(a) menunjukkan skor model dalam gesaan teks yang dilihat dan gesaan teks yang tidak dilihat. Mempunyai ganjaran (hijau) adalah lebih konsisten dengan niat manusia biasa daripada skor CLIP (merah).
Atas ialah kandungan terperinci Belajar ChatGPT, apakah yang akan berlaku jika maklum balas manusia diperkenalkan ke dalam lukisan AI?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!