Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pi Renjie, pengarang pertama artikel ini, ialah pelajar kedoktoran tahun ketiga di Universiti Sains dan Teknologi Hong Kong, belajar di bawah Profesor Zhang Tong dan Profesor Zhou Xiaofang. Sebelum ini menerima ijazah sarjana muda dalam bidang kejuruteraan komputer dari Universiti Hong Kong. Minat penyelidikannya termasuk model bahasa besar multimodal, kecerdasan buatan berpusatkan data, dan pembelajaran mesin automatik. Dengan kemajuan model bahasa besar (LLM), model bahasa besar multimodal (MLLM) berkembang pesat. Mereka menggunakan pengekod visual yang telah terlatih untuk memproses imej, dan memasukkan imej ke LLM sebagai pembenaman token bersama dengan maklumat teks, sekali gus memanjangkan keupayaan perbualan model untuk memproses input imej. Peningkatan keupayaan ini membawa kemungkinan untuk pelbagai bidang aplikasi yang berpotensi seperti pemanduan autonomi dan pembantu perubatan.
Walaupun MLLM mempunyai keupayaan pemahaman imej dan teks yang sangat baik, mereka masih mengalami ralat atau halusinasi, menghasilkan respons yang tidak sepadan dengan imej input, seperti menjawab objek yang tidak wujud atau salah mengenal pasti atribut. Kami percaya bahawa ketidakseimbangan volum data dan masa latihan dalam peringkat latihan yang berbeza bagi model besar berbilang modal adalah salah satu sebab utama untuk jenis berat sebelah ini. Modul bahasa bagi model berbilang modal yang besar sering menggunakan data teks besar-besaran untuk pra-latihan, manakala peringkat penjajaran modal menggunakan saiz data yang lebih kecil dan masa latihan yang lebih singkat. Untuk menyelesaikan masalah di atas, kami mencadangkan kaedah penjajaran keutamaan - Pengoptimuman Keutamaan Bootstrapped (BPO), yang boleh mengurangkan fenomena halusinasi model besar berbilang modal sambil meningkatkan keupayaan pemahaman visual model.
- Tajuk kertas: Memperkukuh Model Bahasa Besar Berbilang Modal dengan Pengoptimuman Keutamaan Bootstrapped
- Pautan kertas: https://arxiv.org/pdf/2403.08730
- Co. com/pipilurj/bootstrapped-preference-optimization-BPO-
Secara khusus, kami mereka bentuk dua kaedah untuk membina sampel negatif secara automatik untuk pembelajaran keutamaan, mendedahkan terlalu bergantung model berbilang modal pada latihan. Selepas itu, kami menggunakan anotasi data asal sebagai sampel positif untuk memperhalusi pilihan model berbilang modal. Secara keseluruhannya, sumbangan utama kami ialah: 1 Kami mencadangkan perspektif baharu yang mengubah masalah penjajaran pelbagai mod kepada tugas pembelajaran keutamaan, di mana kecenderungan pra-latihan dan keupayaan pemahaman visual dianggap sebagai keutamaan lama dan baharu 2. Kami memperkenalkan kaedah untuk mengautomasikan pembinaan set data keutamaan berskala besar. Melalui kaedah ini, sejumlah besar sampel negatif dengan maklumat bias pra-latihan boleh dibina 3 Sebilangan besar eksperimen telah membuktikan bahawa kaedah kami dapat meningkatkan keupayaan kognitif model besar berbilang modal untuk. imej, latihan Model yang terakhir telah meningkatkan prestasi dalam pelbagai penanda aras. Pembinaan set data keutamaan boleh skala Untuk contoh positif set data keutamaan, sudah terdapat banyak set data siap sedia direka untuk penalaan halus yang diselia, seperti jawapan soalan beranotasi MiniGP4 yang berkualiti tinggi dan dijana oleh MiniGPTla. Data,ShareGPTV memanfaatkan GPT4-V yang berkuasa sebagai alat untuk, menjana kapsyen berkualiti tinggi untuk imej. Kami menggunakan set data awam beranotasi ini sebagai respons positif dalam set data keutamaan untuk mengelakkan anotasi manual yang mahal sambil memastikan pasangan data berkualiti tinggi. Untuk mengumpul data tindak balas negatif yang mencerminkan kecenderungan pra-latihan, kami mencadangkan dua kaedah. a. Melemahkan gesaan imej: Kami menambah hingar pada data imej dalam set data keutamaan untuk memusnahkan ciri imej dan menjadikan model besar berbilang modal lebih cenderung kepada pengedaran asal yang telah dilatih semasa menjawab Respons ralat akan mengandungi bias sedia ada modul LLM. Seperti yang dapat dilihat daripada rajah, dengan menambahkan tahap hingar yang berbeza pada imej, kebarangkalian jawapan yang betul muncul adalah lebih kecil, dan kebarangkalian jawapan dengan berat sebelah pra-latihan muncul adalah lebih besar.
b Suntikan ralat: Kami memerlukan model bahasa besar yang sepadan dengan model besar berbilang modal untuk menulis semula respons secara terus, dan memerlukan model menjana jawapan yang tidak betul yang serupa tetapi tidak sama dengan jawapan. . Seterusnya, kami menggunakan pengoptimuman keutamaan langsung (DPO) untuk mengoptimumkan model berbilang modal:
VA
VA
yang halus BPO -BPO dan LLaVA-13B-BPO) diuji pada MM-Vet, LLaVA-Wild dan Object HalBench. MM-Vet dan LlaVA-Bench ialah senarai yang digunakan khusus untuk mengukur keupayaan komprehensif model, manakala Object HalBench digunakan untuk menilai kredibiliti visual model besar berbilang modal.
Hasil eksperimen menunjukkan bahawa model yang diperhalusi oleh BPO menerajui semua tugasan pada tiga senarai penanda aras. Pada kebanyakan tugas, LLaVA-7B-BPO malah mengatasi model LLaVa1.5-13B yang belum ditala.
Kami juga membandingkan BPO dengan latihan penalaan halus (SFT) yang diselia. Kami memperhalusi model dengan terus menggunakan sampel positif daripada set data sebagai data yang diselia. Eksperimen menunjukkan bahawa model besar berbilang mod yang diperhalusi oleh BPO berprestasi lebih baik daripada penalaan halus SFT pada kategori subtugas yang berbeza.
Dari segi keputusan kualitatif, kami membandingkan prestasi model besar berbilang modal sebelum dan selepas penalaan halus BPO. Kami mendapati bahawa model BPO-finetuned menghasilkan jawapan yang lebih setia kepada input imej dan mengandungi kurang maklumat yang salah. 🎜🎜🎜🎜Untuk butiran penyelidikan lanjut, sila rujuk kertas asal. 🎜
Atas ialah kandungan terperinci ECCV 2024|Adakah anda benar-benar melihatnya, atau adakah anda fikir anda melihatnya? Pergantungan berlebihan model berbilang modal besar pada pengetahuan pra-latihan teks harus diselesaikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!