La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Pi Renjie, le premier auteur de cet article, est un doctorant de troisième année à l'Université des sciences et technologies de Hong Kong, étudiant sous Professeur Zhang Tong et professeur Zhou Xiaofang. Auparavant, il a obtenu un baccalauréat en génie informatique de l'Université de Hong Kong. Ses intérêts de recherche incluent les grands modèles de langage multimodaux, l’intelligence artificielle centrée sur les données et l’apprentissage automatique automatisé. Avec l'avancement des grands modèles de langage (LLM), les grands modèles de langage multimodaux (MLLM) se développent rapidement. Ils utilisent des encodeurs visuels pré-entraînés pour traiter les images et entrent des images dans les LLM sous forme d'intégrations de jetons avec des informations textuelles, étendant ainsi les capacités conversationnelles du modèle pour le traitement des entrées d'images. Cette amélioration des capacités ouvre des possibilités dans divers domaines d’application potentiels tels que la conduite autonome et les assistants médicaux.
Bien que les MLLM aient d'excellentes capacités de compréhension d'images et de textes, ils souffrent toujours d'erreurs ou d'hallucinations, générant des réponses qui ne correspondent pas à l'image d'entrée, comme répondre à des objets inexistants ou identifier des attributs de manière erronée. Nous pensons que le déséquilibre entre le volume de données et le temps de formation dans les différentes étapes de formation des grands modèles multimodaux est l'une des principales raisons de ce type de biais. Les modules linguistiques des grands modèles multimodaux utilisent souvent des données textuelles massives pour la pré-formation, tandis que l'étape d'alignement modal utilise des données de plus petite taille et un temps de formation plus court. Afin de résoudre les problèmes ci-dessus, nous proposons une méthode d'alignement des préférences - Bootstrapped Preference Optimization (BPO), qui peut atténuer le phénomène d'hallucination des grands modèles multimodaux tout en améliorant la capacité de compréhension visuelle du modèle.
- Titre de l'article : Renforcement du modèle multimodal de grand langage avec l'optimisation des préférences bootstrapées
- Lien de l'article : https://arxiv.org/pdf/2403.08730
- Lien du code : https://github. com/pipilurj/bootstrapped-preference-optimization-BPO-
Secara khusus, kami mereka bentuk dua kaedah untuk membina sampel negatif secara automatik untuk pembelajaran keutamaan, mendedahkan terlalu bergantung model berbilang modal pada latihan. Selepas itu, kami menggunakan anotasi data asal sebagai sampel positif untuk memperhalusi pilihan model berbilang modal. Secara keseluruhannya, sumbangan utama kami ialah: 1 Kami mencadangkan perspektif baharu yang mengubah masalah penjajaran pelbagai mod kepada tugas pembelajaran keutamaan, di mana kecenderungan pra-latihan dan keupayaan pemahaman visual dianggap sebagai keutamaan lama dan baharu 2. Kami memperkenalkan kaedah untuk mengautomasikan pembinaan set data keutamaan berskala besar. Melalui kaedah ini, sejumlah besar sampel negatif dengan maklumat bias pra-latihan boleh dibina 3 Sebilangan besar eksperimen telah membuktikan bahawa kaedah kami dapat meningkatkan keupayaan kognitif model besar berbilang modal untuk. imej, latihan Model yang terakhir telah meningkatkan prestasi dalam pelbagai penanda aras. Pembinaan set data keutamaan boleh skala Untuk contoh positif set data keutamaan, sudah terdapat banyak set data siap sedia direka untuk penalaan halus yang diselia, seperti jawapan soalan beranotasi MiniGP4 yang berkualiti tinggi dan dijana oleh MiniGPTla. Data,ShareGPTV memanfaatkan GPT4-V yang berkuasa sebagai alat untuk, menjana kapsyen berkualiti tinggi untuk imej. Kami menggunakan set data awam beranotasi ini sebagai respons positif dalam set data keutamaan untuk mengelakkan anotasi manual yang mahal sambil memastikan pasangan data berkualiti tinggi. Untuk mengumpul data tindak balas negatif yang mencerminkan kecenderungan pra-latihan, kami mencadangkan dua kaedah. a. Melemahkan gesaan imej: Kami menambah hingar pada data imej dalam set data keutamaan untuk memusnahkan ciri imej dan menjadikan model besar berbilang modal lebih cenderung kepada pengedaran asal yang telah dilatih semasa menjawab Respons ralat akan mengandungi bias sedia ada modul LLM. Seperti yang dapat dilihat daripada rajah, dengan menambahkan tahap hingar yang berbeza pada imej, kebarangkalian jawapan yang betul muncul adalah lebih kecil, dan kebarangkalian jawapan dengan berat sebelah pra-latihan muncul adalah lebih besar.
b Suntikan ralat: Kami memerlukan model bahasa besar yang sepadan dengan model besar berbilang modal untuk menulis semula respons secara terus, dan memerlukan model menjana jawapan yang tidak betul yang serupa tetapi tidak sama dengan jawapan. . Seterusnya, kami menggunakan pengoptimuman keutamaan langsung (DPO) untuk mengoptimumkan model berbilang modal:
VA
VA
yang halus BPO -BPO dan LLaVA-13B-BPO) diuji pada MM-Vet, LLaVA-Wild dan Object HalBench. MM-Vet dan LlaVA-Bench ialah senarai yang digunakan khusus untuk mengukur keupayaan komprehensif model, manakala Object HalBench digunakan untuk menilai kredibiliti visual model besar berbilang modal.
Hasil eksperimen menunjukkan bahawa model yang diperhalusi oleh BPO menerajui semua tugasan pada tiga senarai penanda aras. Pada kebanyakan tugas, LLaVA-7B-BPO malah mengatasi model LLaVa1.5-13B yang belum ditala.
Kami juga membandingkan BPO dengan latihan penalaan halus (SFT) yang diselia. Kami memperhalusi model dengan terus menggunakan sampel positif daripada set data sebagai data yang diselia. Eksperimen menunjukkan bahawa model besar berbilang mod yang diperhalusi oleh BPO berprestasi lebih baik daripada penalaan halus SFT pada kategori subtugas yang berbeza.
Dari segi keputusan kualitatif, kami membandingkan prestasi model besar berbilang modal sebelum dan selepas penalaan halus BPO. Kami mendapati bahawa model BPO-finetuned menghasilkan jawapan yang lebih setia kepada input imej dan mengandungi kurang maklumat yang salah. 🎜🎜🎜🎜Untuk butiran penyelidikan lanjut, sila rujuk kertas asal. 🎜
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!