Maison Périphériques technologiques IA ECCV 2024|L'avez-vous vraiment vu, ou pensez-vous l'avoir vu ? La dépendance excessive des grands modèles multimodaux à l'égard des connaissances préalables à la formation textuelle devrait être résolue.

ECCV 2024|L'avez-vous vraiment vu, ou pensez-vous l'avoir vu ? La dépendance excessive des grands modèles multimodaux à l'égard des connaissances préalables à la formation textuelle devrait être résolue.

Jul 28, 2024 am 07:49 AM
工程 Alignement des préférences

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Pi Renjie, le premier auteur de cet article, est un doctorant de troisième année à l'Université des sciences et technologies de Hong Kong, étudiant sous Professeur Zhang Tong et professeur Zhou Xiaofang. Auparavant, il a obtenu un baccalauréat en génie informatique de l'Université de Hong Kong. Ses intérêts de recherche incluent les grands modèles de langage multimodaux, l’intelligence artificielle centrée sur les données et l’apprentissage automatique automatisé.

Avec l'avancement des grands modèles de langage (LLM), les grands modèles de langage multimodaux (MLLM) se développent rapidement. Ils utilisent des encodeurs visuels pré-entraînés pour traiter les images et entrent des images dans les LLM sous forme d'intégrations de jetons avec des informations textuelles, étendant ainsi les capacités conversationnelles du modèle pour le traitement des entrées d'images. Cette amélioration des capacités ouvre des possibilités dans divers domaines d’application potentiels tels que la conduite autonome et les assistants médicaux.

Bien que les MLLM aient d'excellentes capacités de compréhension d'images et de textes, ils souffrent toujours d'erreurs ou d'hallucinations, générant des réponses qui ne correspondent pas à l'image d'entrée, comme répondre à des objets inexistants ou identifier des attributs de manière erronée. Nous pensons que le déséquilibre entre le volume de données et le temps de formation dans les différentes étapes de formation des grands modèles multimodaux est l'une des principales raisons de ce type de biais. Les modules linguistiques des grands modèles multimodaux utilisent souvent des données textuelles massives pour la pré-formation, tandis que l'étape d'alignement modal utilise des données de plus petite taille et un temps de formation plus court.

Afin de résoudre les problèmes ci-dessus, nous proposons une méthode d'alignement des préférences - Bootstrapped Preference Optimization (BPO), qui peut atténuer le phénomène d'hallucination des grands modèles multimodaux tout en améliorant la capacité de compréhension visuelle du modèle.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

  • Titre de l'article : Renforcement du modèle multimodal de grand langage avec l'optimisation des préférences bootstrapées
  • Lien de l'article : https://arxiv.org/pdf/2403.08730
  • Lien du code : https://github. com/pipilurj/bootstrapped-preference-optimization-BPO-

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Secara khusus, kami mereka bentuk dua kaedah untuk membina sampel negatif secara automatik untuk pembelajaran keutamaan, mendedahkan terlalu bergantung model berbilang modal pada latihan. Selepas itu, kami menggunakan anotasi data asal sebagai sampel positif untuk memperhalusi pilihan model berbilang modal. Secara keseluruhannya, sumbangan utama kami ialah:
1 Kami mencadangkan perspektif baharu yang mengubah masalah penjajaran pelbagai mod kepada tugas pembelajaran keutamaan, di mana kecenderungan pra-latihan dan keupayaan pemahaman visual dianggap sebagai keutamaan lama dan baharu

2. Kami memperkenalkan kaedah untuk mengautomasikan pembinaan set data keutamaan berskala besar. Melalui kaedah ini, sejumlah besar sampel negatif dengan maklumat bias pra-latihan boleh dibina

3 Sebilangan besar eksperimen telah membuktikan bahawa kaedah kami dapat meningkatkan keupayaan kognitif model besar berbilang modal untuk. imej, latihan Model yang terakhir telah meningkatkan prestasi dalam pelbagai penanda aras.
Pembinaan set data keutamaan boleh skala

Untuk contoh positif set data keutamaan, sudah terdapat banyak set data siap sedia direka untuk penalaan halus yang diselia, seperti jawapan soalan beranotasi MiniGP4 yang berkualiti tinggi dan dijana oleh MiniGPTla. Data,ShareGPTV memanfaatkan GPT4-V yang berkuasa sebagai alat untuk, menjana kapsyen berkualiti tinggi untuk imej. Kami menggunakan set data awam beranotasi ini sebagai respons positif dalam set data keutamaan untuk mengelakkan anotasi manual yang mahal sambil memastikan pasangan data berkualiti tinggi.

Untuk mengumpul data tindak balas negatif yang mencerminkan kecenderungan pra-latihan, kami mencadangkan dua kaedah.

a. Melemahkan gesaan imej: Kami menambah hingar pada data imej dalam set data keutamaan untuk memusnahkan ciri imej dan menjadikan model besar berbilang modal lebih cenderung kepada pengedaran asal yang telah dilatih semasa menjawab Respons ralat akan mengandungi bias sedia ada modul LLM. Seperti yang dapat dilihat daripada rajah, dengan menambahkan tahap hingar yang berbeza pada imej, kebarangkalian jawapan yang betul muncul adalah lebih kecil, dan kebarangkalian jawapan dengan berat sebelah pra-latihan muncul adalah lebih besar.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

b Suntikan ralat: Kami memerlukan model bahasa besar yang sepadan dengan model besar berbilang modal untuk menulis semula respons secara terus, dan memerlukan model menjana jawapan yang tidak betul yang serupa tetapi tidak sama dengan jawapan. .
Seterusnya, kami menggunakan pengoptimuman keutamaan langsung (DPO) untuk mengoptimumkan model berbilang modal:

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Penilaian percubaan

VA
VA

VA
yang halus BPO -BPO dan LLaVA-13B-BPO) diuji pada MM-Vet, LLaVA-Wild dan Object HalBench. MM-Vet dan LlaVA-Bench ialah senarai yang digunakan khusus untuk mengukur keupayaan komprehensif model, manakala Object HalBench digunakan untuk menilai kredibiliti visual model besar berbilang modal.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Hasil eksperimen menunjukkan bahawa model yang diperhalusi oleh BPO menerajui semua tugasan pada tiga senarai penanda aras. Pada kebanyakan tugas, LLaVA-7B-BPO malah mengatasi model LLaVa1.5-13B yang belum ditala.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Kami juga membandingkan BPO dengan latihan penalaan halus (SFT) yang diselia. Kami memperhalusi model dengan terus menggunakan sampel positif daripada set data sebagai data yang diselia. Eksperimen menunjukkan bahawa model besar berbilang mod yang diperhalusi oleh BPO berprestasi lebih baik daripada penalaan halus SFT pada kategori subtugas yang berbeza.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

Dari segi keputusan kualitatif, kami membandingkan prestasi model besar berbilang modal sebelum dan selepas penalaan halus BPO. Kami mendapati bahawa model BPO-finetuned menghasilkan jawapan yang lebih setia kepada input imej dan mengandungi kurang maklumat yang salah.
🎜🎜🎜🎜Untuk butiran penyelidikan lanjut, sila rujuk kertas asal. 🎜

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète Jul 23, 2024 pm 02:05 PM

Actuellement, les modèles linguistiques autorégressifs à grande échelle utilisant le prochain paradigme de prédiction de jetons sont devenus populaires partout dans le monde. Dans le même temps, un grand nombre d'images et de vidéos synthétiques sur Internet nous ont déjà montré la puissance des modèles de diffusion. Récemment, une équipe de recherche de MITCSAIL (dont Chen Boyuan, doctorant au MIT) a intégré avec succès les puissantes capacités du modèle de diffusion en séquence complète et du prochain modèle de jeton, et a proposé un paradigme de formation et d'échantillonnage : le forçage de diffusion (DF ). Titre de l'article : DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Adresse de l'article : https://

See all articles