Model resapan telah menjadi model penjanaan teks ke imej arus perdana, yang boleh membimbing penjanaan imej berkualiti tinggi dan kaya kandungan melalui gesaan teks
Jika gesaan input terlalu ringkas, model sedia ada gagal dalam pemahaman semantik dan penaakulan akal Terdapat batasan dalam semua aspek, yang akan membawa kepada penurunan ketara dalam kualiti imej yang dijana
Pasukan Lin Liang dari Makmal HCP Universiti Sun Yat-sen mencadangkan denda yang mudah dan berkesan -kaedah penalaan dipanggil SUR-penyesuai, bertujuan untuk meningkatkan ketepatan model dalam naratif Pemahaman isyarat seksual. Kaedah ini ialah penyesuai pemahaman semantik dan inferens, sesuai untuk model resapan terlatih dan mempunyai ciri kecekapan parameter
Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/ abs/2305.05189
Alamat sumber terbuka: https://github.com/Qrange-group/SUR-adapter
Untuk mencapai matlamat ini, para penyelidik mula-mula mengumpul dan membuat anotasi set data yang dipanggil SURD. Set data ini mengandungi lebih daripada 57,000 sampel berbilang modal, setiap sampel mengandungi gesaan naratif yang ringkas, gesaan berasaskan kata kunci yang kompleks dan imej berkualiti tinggi
Para penyelidik menggabungkan gesaan naratif Perwakilan semantik diselaraskan dengan isyarat yang kompleks , dan pengetahuan tentang model bahasa besar (LLM) dipindahkan ke penyesuai SUR melalui penyulingan pengetahuan, supaya pemahaman semantik yang kuat dan keupayaan penaakulan boleh diperoleh untuk membina perwakilan semantik teks berkualiti tinggi untuk penjanaan teks-ke-imej. Kemudian, mereka menyelaraskan perwakilan semantik gesaan naratif dengan gesaan kompleks dan memindahkan pengetahuan model bahasa besar (LLM) kepada penyesuai SUR melalui penyulingan pengetahuan untuk dapat memperoleh pemahaman semantik yang kukuh dan keupayaan penaakulan untuk membina kualiti tinggi perwakilan semantik tekstual Untuk penjanaan teks-ke-imej
Kami menjalankan eksperimen dengan menyepadukan berbilang LLM dan model resapan yang telah dilatih dan mendapati kaedah ini boleh membolehkan model resapan memahami dan menaakul tentang bahasa semula jadi yang ringkas. penerangan tanpa merendahkan kualiti imej
Pendekatan ini boleh menjadikan model resapan teks-ke-imej lebih mudah digunakan, memberikan pengalaman pengguna yang lebih baik, menggalakkan lagi pembangunan model generatif teks-ke-imej yang mesra pengguna, dan mengimbangi kemudahan yang mudah. gesaan naratif dan gesaan berasaskan kata kunci Jurang semantik antara
Pada masa ini, model pra-latihan teks-ke-imej yang diwakili oleh resapan stabil telah menjadi salah satu model asas yang paling penting dalam bidang kandungan yang dijana kecerdasan buatan, dalam penyuntingan imej, video Ia memainkan peranan penting dalam tugas seperti penjanaan dan penjanaan objek 3D
Pada masa ini, keupayaan semantik model penyebaran terlatih ini bergantung terutamanya pada pengekod teks (seperti CLIP), dan keupayaan pemahaman semantik mereka secara langsung mempengaruhi kesan penjanaan model resapan
Artikel ini mula-mula menguji ketepatan pemadanan imej-teks resapan Stabil dengan membina kategori soalan lazim dalam tugasan menjawab soalan visual (VQA), seperti "mengira", "warna" dan "tindakan". Kami akan mengira dan menguji secara manual
Berikut adalah contoh membina pelbagai gesaan, lihat jadual di bawah untuk butiran
Menurut keputusan yang ditunjukkan dalam jadual di bawah, artikel itu mendedahkan pra graf Vincent semasa -model resapan terlatih Terdapat masalah pemahaman semantik yang serius. Ketepatan padanan teks imej untuk sebilangan besar soalan adalah kurang daripada 50%, malah dalam sesetengah soalan, ketepatan hanya 0%
Untuk mendapatkan imej yang memenuhi syarat penjanaan teks, kami perlu mencari cara untuk meningkatkan resapan pra-latihan Keupayaan semantik pengekod artikel ini dalam model
Kandungan ditulis semula: 1. Prapemprosesan data kita boleh pelajari
daripada laman web dalam talian model resapan yang biasa digunakan lexica.art Dapatkan sejumlah besar pasangan teks imej daripada , civitai.com dan stablediffusionweb. Kemudian, kami perlu membersihkan dan menapis data ini untuk mendapatkan lebih daripada 57,000 data triplet berkualiti tinggi (termasuk gesaan kompleks, gesaan ringkas dan gambar) dan membentuknya menjadi set data SURD
🎜Seperti yang ditunjukkan dalam rajah di bawah, gesaan kompleks merujuk kepada syarat gesaan teks yang diperlukan oleh model penyebaran apabila menjana imej Biasanya gesaan ini mempunyai format dan penerangan yang kompleks. Gesaan ringkas ialah perihalan teks bagi imej yang dijana melalui BLIP Ia menggunakan format bahasa yang konsisten dengan penerangan manusia Secara umumnya, gesaan mudah yang konsisten dengan penerangan bahasa manusia biasa menyukarkan model penyebaran imej yang cukup konsisten dari segi semantik, dan Petua yang kompleks (yang pengguna secara berseloroh memanggil "mantra" model penyebaran) boleh mencapai hasil yang memuaskan
Kandungan yang perlu ditulis semula ialah: 2. Penyulingan semantik model bahasa besar
Artikel ini memperkenalkan kaedah A yang menggunakan struktur Penyesuai Transformer untuk menyaring ciri semantik model bahasa besar dalam lapisan tersembunyi tertentu, dan memperoleh ciri semantik akhir dengan menggabungkan secara linear maklumat model bahasa besar berpandukan Penyesuai dengan output ciri semantik oleh pengekod teks asal
Model bahasa besar menggunakan model LLaMA dengan saiz yang berbeza, dan parameter bahagian UNet model resapan dibekukan semasa keseluruhan proses latihan
Kandungan yang perlu ditulis semula ialah: 3 . Memandangkan struktur artikel ini memperkenalkan modul yang boleh dipelajari dalam proses inferens model besar pra-latihan, ia memusnahkan kualiti penjanaan imej asal model pra-latihan pada tahap tertentu Oleh itu, kualiti penjanaan imej perlu dikembalikan ke tahap kualiti penjanaan model pra-latihan asal
Artikel ini menggunakan tiga kali ganda dalam set data SURD dan memperkenalkan fungsi kehilangan kualiti yang sepadan semasa proses latihan untuk memulihkan kualiti penjanaan imej. Secara khususnya, artikel ini berharap ciri semantik yang diperolehi melalui modul baharu boleh diselaraskan sebaik mungkin dengan ciri semantik isyarat kompleks
Rajah berikut menunjukkan rangka kerja penalaan halus penyesuai SUR untuk model penyebaran terlatih . Bahagian kanan ialah struktur rangkaian Penyesuai
Hasil eksperimen
Untuk prestasi penyesuai SUR, artikel ini menganalisis prestasi penyesuai SUR daripada dua aspek: padanan kualiti imej
Sebaliknya, kertas kerja ini menggunakan penunjuk penilaian kualiti imej biasa seperti BRISQUE untuk membandingkan model resapan pralatihan asal dan resapan selepas menggunakan SUR -penyesuai Kualiti imej yang dijana oleh model telah diuji secara statistik, dan kami dapati bahawa tiada perbezaan yang ketara antara kedua-duanya.
Kami juga menjalankan ujian soal selidik keutamaan manusia
Melalui analisis di atas, dapat disimpulkan bahawa kaedah yang dicadangkan mampu mengurangkan masalah yang wujud dalam teks ke imej yang telah dilatih di samping mengekalkan kualiti penjanaan imej . Masalah ketidakpadanan imej-teks
juga boleh ditunjukkan secara kualitatif melalui contoh penjanaan imej berikut Untuk analisis dan butiran yang lebih terperinci, sila rujuk artikel ini dan gudang sumber terbuka
. Kandungan yang perlu ditulis semula ialah :
Profesor Lin Li mengasaskan Makmal Gabungan Perisikan Objek-Mesin-Manusia (HCP Lab) Universiti Sun Yat-sen pada tahun 2010. Dalam beberapa tahun kebelakangan ini, makmal telah mencapai keputusan akademik yang kaya dalam bidang pemahaman kandungan multimodal, penaakulan kausal dan kognitif, dan kecerdasan yang terkandung. Makmal ini telah memenangi banyak anugerah sains dan teknologi dalam dan luar negara serta anugerah kertas terbaik, dan komited untuk membangunkan teknologi dan platform kecerdasan buatan peringkat produk
Atas ialah kandungan terperinci Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!