Maison Périphériques technologiques IA Doubao Big Model Team publie un nouveau benchmark d'évaluation des légendes d'images détaillées pour améliorer la fiabilité de l'évaluation des légendes VLM

Doubao Big Model Team publie un nouveau benchmark d'évaluation des légendes d'images détaillées pour améliorer la fiabilité de l'évaluation des légendes VLM

Jul 18, 2024 pm 08:10 PM
入门 CAPTURE

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Le modèle de langage visuel (VLM) actuel effectue principalement une évaluation des performances via un formulaire de questions et réponses d'assurance qualité, mais manque d'évaluation de la capacité de compréhension de base du modèle, tel que les détails légende de l'imageUne mesure fiable des performances.

En réponse à ce problème, l'Académie chinoise des sciences, l'Université de Pékin et l'équipe Byte Doubao Big Model ont publié l'ensemble de données DetailCaps-4870 et proposé un indice d'évaluation efficace CAPTURE, qui a obtenu le plus haut consensus d'évaluation d'experts parmi l'open source. indices d'évaluation des performances et obtient des résultats comparables à GPT-Eval à faible coût.

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

  • Papier : https://arxiv.org/abs/2405.19092
  • Ensemble de données : https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
  • Code : https://github.com/foundation-multimodal-models/CAPTURE

Introduction

L'évaluation actuelle du LVLM (grand modèle de langage de vision) présente les problèmes suivants :

  • La solution d'évaluation LVLM existante adopte principalement le formulaire VQA, qui est grandement affecté par la capacité à suivre les instructions, et la conception des invites d'assurance qualité peut facilement introduire des préjugés humains.
  • La tâche de légende d'image peut évaluer efficacement la capacité de compréhension du modèle, mais les références de légende existantes utilisent principalement des légendes courtes comme vérité terrain, ce qui est complètement obsolète à l'ère LVLM.
  • Dans le même temps, les indicateurs d'évaluation des légendes d'images existants ont une mauvaise cohérence avec les résultats d'évaluation d'experts tels que les humains et le GPT. Les indicateurs couramment utilisés tels que les n-grammes d'extrait de bleu et de rouge pour la correspondance, qui ne sont pas assez sensibles. à l'exactitude des informations clés. Bien que GPT-Eval soit plus cohérent avec une évaluation par des experts, il entraînera des coûts d'évaluation élevés.

En réponse à ces problèmes, cette recherche propose un nouveau benchmark de légende d'image détaillée et une nouvelle métrique d'évaluation pour obtenir une évaluation précise des capacités de compréhension des images LVLM à moindre coût.

Sous la direction de l'ensemble de données et des indicateurs d'évaluation proposés, cette recherche a également exploré la méthode de construction de données consistant à explorer les propres capacités de LVLM en matière de légende d'image détaillée, améliorant ainsi efficacement la qualité des données de légende détaillée. C Figure 1 : Le côté gauche est l'affichage de l'instance Capture Metric, et le côté droit est la méthode de construction de légende détaillée, le benchmark de légende d'image détaillée proposé par cette étude a une longueur de texte plus longue, un nombre significativement plus grand de non répétitifs 2. -grammes, et contient des informations visuelles plus riches :

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

Tableau 1 : Évaluation des informations statistiques de référence DetailCaps par ex
Tracing et coUpling co RE
information) effectue une évaluation de la qualité des sous-titres en 4 étapes. Comme le montre la figure ci-dessous, utilisez d'abord Factual Praser [1] pour extraire les éléments d'objet, d'attribut et de relation dans la légende détaillée, puis filtrez les objets qui n'ont aucune signification pratique. Après cela, les scores de correspondance (scores F1) des éléments obj, attr et rel sont calculés selon trois étapes de correspondance (correspondance exacte, correspondance de synonymes et correspondance d'intégration) et pondérés en tant que résultat final.

                                                                                                                                                                  
Sous la direction du benchmark DetailCaps et de la métrique CAPTURE, cette recherche propose une méthode basée sur la méthode diviser pour régner qui explore le potentiel de LVLM pour la synchronisation des données. thèse, améliorant efficacement la qualité des données de légende détaillée . Cette solution utilise d'abord LVLM pour générer des légendes d'image complète, puis utilise des méthodes de filtrage telles que le modèle de segmentation (SAM [2]) et le clustering pour trouver les positions clés dans l'image et les recadrer pour la génération de légendes locales. L'article utilise une méthode de filtrage au niveau des mots pour réduire les hallucinations dans les légendes. Cette méthode analyse d'abord les mots et les phrases qui décrivent les éléments visuels de l'image, puis filtre les objets à faible score via un modèle de détection de cible (Owlv2 [3]. ]). Éléments. Enfin, la légende filtrée de l’image complète et la légende locale sont envoyées au LLM (LLaMA2 [4]) pour être fusionnées dans la description finale de l’image. Expérience

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

Indicateur CAPTURE
(1) CAPTURE vs autres indicateurs de légende

Cette étude est en DetailCaps -1 00 (annotation manuelle du libellé de référence, évaluation manuelle du modèle Les légendes générées par trois modèles : LLaVA-1.5 [5], CogVLM [6] et ShareCaptioner [7] ont été testées sur le score des Experts et calculent la cohérence entre chaque indicateur d'évaluation et l'évaluation experte :

?                                                                                                                    Indicateurs d'évaluation La cohérence avec l'évaluation d'experts est mesurée par la corrélation de Pearson (corrélation linéaire), R^2 (taille absolue), le tau de Kendall (cohérence des paires d'ordres partiels de classement) et le tau (par) échantillon (de Kendall) (chaque échantillon est calculé séparément moyenne) les indicateurs sont mesurés.

Les résultats montrent que CAPTURE a atteint la meilleure cohérence d'évaluation experte dans divers indicateurs. Parmi ces indicateurs, la méthode de calcul de Sample tau est la plus proche de l'évaluation réelle des légendes d'images détaillées. CAPTURE est également la seule méthode proche de GPT4-Eval sur cet indicateur, permettant d'obtenir un bon équilibre entre la précision et le coût de l'évaluation.
(2) Analyse d'ablation
Les chercheurs ont également effectué une analyse d'ablation sur chaque module de CAPTURE et vérifié son efficacité :

                                                                                                                                    Tableau 3 : Analyse d'ablation de chaque module de CAPTURE

Les résultats expérimentaux montrent que les mots vides améliorent efficacement l'échantillon tau, ce qui illustre l'efficacité de ce module. Cependant, le filtrage des mots vides aura des effets différents sur la légende détaillée des différents échantillons, entraînant une légère diminution du pcc et du kendall tau. La correspondance douce améliore également le tau de l'échantillon et a un effet de gain significatif sur le score 1-R2, alignant le score de prédiction CAPTURE sur le score absolu obtenu par les experts. Lors du calcul du score final de manière pondérée, le rapport par défaut obj:attr:rel est de 5:5:2, ce qui est optimal. L'augmentation ou la diminution de la proportion de chaque élément entraînera une dégradation des performances. (3) Performances de légende détaillées du LVLM open source

Dans l'ensemble, InternVL-1.5 est la performance actuelle du meilleur LVLM open source. Il ressort des résultats de LLaVA et MiniGemini que l'augmentation du nombre de paramètres LLM a un effet constant sur l'amélioration des capacités de légende détaillée du modèle. Dans le même temps, les modèles avec une résolution plus élevée et formés avec des légendes détaillées de haute qualité fonctionneront mieux.

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

Structure des données de légende détaillée
Sur la base de l'ensemble de données d'évaluation de légende détaillée et des indicateurs d'évaluation, les chercheurs ont vérifié l'efficacité du schéma de synthèse de données de légende détaillée proposé.
(1) L'efficacité de la méthode de synthèse de légende détaillée sur différents LVLM

Comme le montre le tableau ci-dessous, la méthode de synthèse de légende détaillée proposée dans cette étude est efficace sur LLaVA-1.5-7B, LLaVA -1.5-13B, LLaVA-NEXT-7B et Mini-Gemini-7B-HD ont obtenu une amélioration constante de la qualité des sous-titres détaillés :

                                                                                                                                                               -- à obtenir une amélioration cohérente de la qualité des légendes détaillées sur LLaVA-NEXT-7B et Mini- Gemini-7B-HD :


(2) Améliorer encore les performances des légendes détaillées grâce à l'auto-boucle 豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

Les chercheurs ont également essayé d'améliorer davantage les détails LVLM en effectuant une auto-boucle via le processus de formation de l'étiquetage des données -> formation du modèle -> légende de réétiquetage Les performances ont obtenu des résultats positifs dans les quatre boucles. Dans le même temps, comparer la solution open source [8] avec la solution de filtrage des hallucinations au niveau des mots proposée dans cet article prouve l'efficacité de sa conception :                                                            Tableau 6 : Effet de boucle automatique et analyse d'ablation de le schéma de synthèse de la légende détaillée

(3) La légende détaillée auto-marquée de LVLM peut améliorer ses performances globales

Cette étude a utilisé LLaVA-1.5 pour analyser les données sharegpt4v-100k en fonction des détails donnés plan de construction de la légende. Re-marqué et utilisé les données marquées pour la formation SFT de LLaVA-1.5, obtenant des améliorations constantes des performances sur plusieurs benchmarks :

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                             表七:合成 légende détaillée 数据在 LLaVA-1.5-7B
参考文献
[1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji et Quan Hung Tran. Factuel : une référence pour une analyse fidèle et cohérente des graphiques de scènes textuelles. arXiv : 2305.17497, 2023
[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segmentez n'importe quoi. ICCV 2023
[3] Matthias Minderer, Alexey Gritsenko et Neil Houlsby. Mise à l'échelle de la détection d'objets à vocabulaire ouvert. NIPS 2024
[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2 : fondation ouverte et modèles de discussion affinés. arXiv : 2307.09288, 2023
[5] Haotian Liu, Chunyuan Li, Yuheng Li et Yong Jae Lee. Lignes de base améliorées avec réglage des instructions visuelles. Atelier NeurIPS 2023 sur le réglage et le suivi des instructions, 2023
[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding et Jie Tang. Cogvlm : expert visuel pour les modèles de langage pré-entraînés. arXiv : 2311.03079, 2023
[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao et Dahua Lin. Sharegpt4v : amélioration des grands modèles multimodaux avec de meilleures légendes. arXiv : 2311.12793, 2023
[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu et Xiang Bai. Monkey : La résolution de l'image et l'étiquette du texte sont des éléments importants pour les grands modèles multimodaux. arXiv:2311.06607, 2023
大模型团队
字节跳动豆包大模型团队成立于 2023年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。

豆包大模型团队在 AI 领域拥有长期愿景与决心,研究方向涵盖 NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等 50 + 业务,并通过火山引擎开放给Il s'agit d'une application pour l'application AIGC. 。

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Un didacticiel sur le modèle de diffusion qui vaut votre temps, de l'Université Purdue Un didacticiel sur le modèle de diffusion qui vaut votre temps, de l'Université Purdue Apr 07, 2024 am 09:01 AM

La diffusion permet non seulement de mieux imiter, mais aussi de « créer ». Le modèle de diffusion (DiffusionModel) est un modèle de génération d'images. Par rapport aux algorithmes bien connus tels que GAN et VAE dans le domaine de l’IA, le modèle de diffusion adopte une approche différente. Son idée principale est un processus consistant à ajouter d’abord du bruit à l’image, puis à la débruiter progressivement. Comment débruiter et restaurer l’image originale est la partie centrale de l’algorithme. L'algorithme final est capable de générer une image à partir d'une image bruitée aléatoirement. Ces dernières années, la croissance phénoménale de l’IA générative a permis de nombreuses applications passionnantes dans la génération de texte en image, la génération de vidéos, et bien plus encore. Le principe de base de ces outils génératifs est le concept de diffusion, un mécanisme d'échantillonnage spécial qui surmonte les limites des méthodes précédentes.

Générez du PPT en un seul clic ! Kimi : Que les « travailleurs migrants PPT » deviennent d'abord populaires Générez du PPT en un seul clic ! Kimi : Que les « travailleurs migrants PPT » deviennent d'abord populaires Aug 01, 2024 pm 03:28 PM

Kimi : En une seule phrase, un PPT est prêt en seulement dix secondes. PPT est tellement ennuyeux ! Pour tenir une réunion, vous devez avoir un PPT ; pour rédiger un rapport hebdomadaire, vous devez avoir un PPT ; pour solliciter des investissements, vous devez présenter un PPT ; même pour accuser quelqu'un de tricherie, vous devez envoyer un PPT ; L'université ressemble plus à une spécialisation PPT. Vous regardez le PPT en classe et faites le PPT après les cours. Peut-être que lorsque Dennis Austin a inventé le PPT il y a 37 ans, il ne s'attendait pas à ce qu'un jour le PPT devienne aussi répandu. Parler de notre dure expérience de création de PPT nous fait monter les larmes aux yeux. "Il m'a fallu trois mois pour réaliser un PPT de plus de 20 pages, et je l'ai révisé des dizaines de fois. J'avais envie de vomir quand j'ai vu le PPT." "À mon apogée, je faisais cinq PPT par jour, et même ma respiration." était PPT." Si vous avez une réunion impromptue, vous devriez le faire

Tous les prix CVPR 2024 annoncés ! Près de 10 000 personnes ont assisté à la conférence hors ligne et un chercheur chinois de Google a remporté le prix du meilleur article. Tous les prix CVPR 2024 annoncés ! Près de 10 000 personnes ont assisté à la conférence hors ligne et un chercheur chinois de Google a remporté le prix du meilleur article. Jun 20, 2024 pm 05:43 PM

Tôt le matin du 20 juin, heure de Pékin, CVPR2024, la plus grande conférence internationale sur la vision par ordinateur qui s'est tenue à Seattle, a officiellement annoncé le meilleur article et d'autres récompenses. Cette année, un total de 10 articles ont remporté des prix, dont 2 meilleurs articles et 2 meilleurs articles étudiants. De plus, il y a eu 2 nominations pour les meilleurs articles et 4 nominations pour les meilleurs articles étudiants. La conférence la plus importante dans le domaine de la vision par ordinateur (CV) est la CVPR, qui attire chaque année un grand nombre d'instituts de recherche et d'universités. Selon les statistiques, un total de 11 532 articles ont été soumis cette année, dont 2 719 ont été acceptés, avec un taux d'acceptation de 23,6 %. Selon l'analyse statistique des données CVPR2024 du Georgia Institute of Technology, du point de vue des sujets de recherche, le plus grand nombre d'articles est la synthèse et la génération d'images et de vidéos (Imageandvideosyn

Du bare metal au grand modèle avec 70 milliards de paramètres, voici un tutoriel et des scripts prêts à l'emploi Du bare metal au grand modèle avec 70 milliards de paramètres, voici un tutoriel et des scripts prêts à l'emploi Jul 24, 2024 pm 08:13 PM

Nous savons que le LLM est formé sur des clusters informatiques à grande échelle utilisant des données massives. Ce site a présenté de nombreuses méthodes et technologies utilisées pour aider et améliorer le processus de formation LLM. Aujourd'hui, ce que nous souhaitons partager est un article qui approfondit la technologie sous-jacente et présente comment transformer un ensemble de « bare metals » sans même un système d'exploitation en un cluster informatique pour la formation LLM. Cet article provient d'Imbue, une startup d'IA qui s'efforce d'atteindre une intelligence générale en comprenant comment les machines pensent. Bien sûr, transformer un tas de « bare metal » sans système d'exploitation en un cluster informatique pour la formation LLM n'est pas un processus facile, plein d'exploration et d'essais et d'erreurs, mais Imbue a finalement réussi à former un LLM avec 70 milliards de paramètres et dans. le processus s'accumule

Cinq logiciels de programmation pour débuter l'apprentissage du langage C Cinq logiciels de programmation pour débuter l'apprentissage du langage C Feb 19, 2024 pm 04:51 PM

En tant que langage de programmation largement utilisé, le langage C est l'un des langages de base qui doivent être appris pour ceux qui souhaitent se lancer dans la programmation informatique. Cependant, pour les débutants, l’apprentissage d’un nouveau langage de programmation peut s’avérer quelque peu difficile, notamment en raison du manque d’outils d’apprentissage et de matériel pédagogique pertinents. Dans cet article, je présenterai cinq logiciels de programmation pour aider les débutants à démarrer avec le langage C et vous aider à démarrer rapidement. Le premier logiciel de programmation était Code :: Blocks. Code::Blocks est un environnement de développement intégré (IDE) gratuit et open source pour

Guide d'installation de PyCharm Community Edition : maîtrisez rapidement toutes les étapes Guide d'installation de PyCharm Community Edition : maîtrisez rapidement toutes les étapes Jan 27, 2024 am 09:10 AM

Démarrage rapide avec PyCharm Community Edition : Tutoriel d'installation détaillé Analyse complète Introduction : PyCharm est un puissant environnement de développement intégré (IDE) Python qui fournit un ensemble complet d'outils pour aider les développeurs à écrire du code Python plus efficacement. Cet article présentera en détail comment installer PyCharm Community Edition et fournira des exemples de code spécifiques pour aider les débutants à démarrer rapidement. Étape 1 : Téléchargez et installez PyCharm Community Edition Pour utiliser PyCharm, vous devez d'abord le télécharger depuis son site officiel

L'IA utilisée | L'IA a créé un vlog sur la vie d'une fille vivant seule, qui a reçu des dizaines de milliers de likes en 3 jours L'IA utilisée | L'IA a créé un vlog sur la vie d'une fille vivant seule, qui a reçu des dizaines de milliers de likes en 3 jours Aug 07, 2024 pm 10:53 PM

Rédacteur du Machine Power Report : Yang Wen La vague d’intelligence artificielle représentée par les grands modèles et l’AIGC a discrètement changé notre façon de vivre et de travailler, mais la plupart des gens ne savent toujours pas comment l’utiliser. C'est pourquoi nous avons lancé la rubrique « AI in Use » pour présenter en détail comment utiliser l'IA à travers des cas d'utilisation de l'intelligence artificielle intuitifs, intéressants et concis et stimuler la réflexion de chacun. Nous invitons également les lecteurs à soumettre des cas d'utilisation innovants et pratiques. Lien vidéo : https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Récemment, le vlog de la vie d'une fille vivant seule est devenu populaire sur Xiaohongshu. Une animation de style illustration, associée à quelques mots de guérison, peut être facilement récupérée en quelques jours seulement.

A lire absolument pour les débutants en technique : Analyse des niveaux de difficulté du langage C et Python A lire absolument pour les débutants en technique : Analyse des niveaux de difficulté du langage C et Python Mar 22, 2024 am 10:21 AM

Titre : Une lecture incontournable pour les débutants en technique : Analyse des difficultés du langage C et de Python, nécessitant des exemples de code spécifiques. À l'ère numérique d'aujourd'hui, la technologie de programmation est devenue une capacité de plus en plus importante. Que vous souhaitiez travailler dans des domaines tels que le développement de logiciels, l'analyse de données, l'intelligence artificielle ou simplement apprendre la programmation par intérêt, choisir un langage de programmation adapté est la première étape. Parmi les nombreux langages de programmation, le langage C et Python sont deux langages de programmation largement utilisés, chacun ayant ses propres caractéristiques. Cet article analysera les niveaux de difficulté du langage C et Python

See all articles