Un grand modèle capable d'analyser automatiquement le contenu des PDF, des pages Web, des affiches et des graphiques Excel n'est pas très pratique pour les travailleurs à temps partiel.
Le modèle InternLM-XComposer2-4KHD (en abrégé IXC2-4KHD) proposé par le Shanghai AI Lab, l'Université chinoise de Hong Kong et d'autres instituts de recherche en fait une réalité.
Par rapport à d'autres grands modèles multimodaux qui ont une limite de résolution ne dépassant pas 1 500 x 1 500, ce travail augmente l'image d'entrée maximale du grand modèle multimodal à une résolution supérieure à 4K (3 840 x 1 600) et prend en charge tout Rapport de longueur et de largeur et changements de résolution dynamique de 336 pixels ~ 4K.
Trois jours après sa sortie, le modèle était en tête de la liste de popularité des modèles visuels de questions et réponses de Hugging Face.
Compréhension facile des images 4K
Jetons d'abord un coup d'œil à l'effet ~
Le chercheur a saisi une capture d'écran de la page d'accueil de l'article (ShareGPT4V : amélioration des grands modèles multimodaux avec de meilleures légendes) (la résolution est de 2 550 x 3 300). ), et a demandé quel papier Le modèle a les performances les plus élevées sur MMBench.
Il est à noter que cette information n'est pas mentionnée dans la partie texte de la capture d'écran de saisie, mais n'apparaît que dans un graphique radar assez compliqué. Face à une question aussi délicate, IXC2-4KHD a réussi à comprendre les informations contenues dans la carte radar et à répondre correctement à la question.
Face à une entrée d'image à résolution plus extrême (816 x 5133), IXC2-4KHD comprend facilement que l'image se compose de 7 parties et explique avec précision le contenu des informations textuelles contenues dans chaque partie.
Par la suite, les chercheurs ont également testé de manière approfondie les capacités d'IXC2-4KHD sur 16 indicateurs d'évaluation multimodaux de grands modèles, dont 5 évaluations (DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench) axées sur la haute résolution de la capacité de compréhension de l'image du taux de modèle.
En utilisant uniquement les paramètres 7B, IXC2-4KHD a obtenu des résultats comparables, voire supérieurs, à GPT4V et Gemini Pro dans 10 des évaluations, démontrant qu'il ne se limite pas à la compréhension d'images haute résolution, mais qu'il est polyvalent pour diverses tâches et capacités de scénarios. .
△Les performances du IXC2-4KHD avec seulement 7B de paramètres sont comparables à celles du GPT-4V et du Gemini-Pro. Comment obtenir une résolution dynamique 4K ?
Afin d'atteindre l'objectif de résolution dynamique 4K, IXC2-4KHD comprend trois conceptions principales :
(1) Formation à la résolution dynamique :
△Stratégie de traitement d'image en résolution 4K
Dans IXC2-4KHD Dans le cadre , l'image d'entrée est agrandie de manière aléatoire à une taille intermédiaire entre la zone d'entrée et la zone maximale (ne dépassant pas 55x336x336, équivalent à une résolution de 3840x1617) tout en conservant le rapport hauteur/largeur.
Par la suite, l'image est automatiquement découpée en plusieurs zones de 336 x 336 pour extraire respectivement les caractéristiques visuelles. Cette stratégie d'entraînement à la résolution dynamique permet au modèle de s'adapter à l'entrée visuelle de n'importe quelle résolution, tout en compensant également le problème de l'insuffisance des données d'entraînement à haute résolution.
Les expériences montrent qu'à mesure que la limite supérieure de la résolution dynamique augmente, le modèle obtient une amélioration stable des performances sur les tâches de compréhension d'images haute résolution (InfographicVQA, DocVQA, TextVQA), et n'atteint toujours pas la limite supérieure à la résolution 4K, montrant un potentiel d'amélioration supplémentaire. expansion à des résolutions plus élevées.
(2) Ajouter des informations sur la disposition des tuiles :
Afin de permettre au modèle de s'adapter aux résolutions dynamiques changeantes, les chercheurs ont constaté qu'il était nécessaire d'ajouter des informations sur la disposition des tuiles comme entrée supplémentaire. Pour y parvenir, les chercheurs ont adopté une stratégie simple : un jeton spécial « nouvelle ligne » (« n ») est inséré après chaque rangée de tuiles pour informer le modèle de la disposition des tuiles. Les expériences montrent que l'ajout d'informations sur la disposition des tuiles a peu d'impact sur l'entraînement à la résolution dynamique avec des changements relativement faibles (HD9 signifie que le nombre de zones de tuiles ne dépasse pas 9), mais peut apporter des améliorations significatives des performances à l'entraînement à la résolution dynamique 4K.
(3) Extension de la résolution pendant la phase d'inférence
Les chercheurs ont également découvert qu'en utilisant un modèle de résolution dynamique, la résolution peut être directement étendue pendant la phase d'inférence en augmentant la limite supérieure maximale des tuiles, et apporter des gains de performances supplémentaires . Par exemple, en testant un modèle entraîné sur HD9 (jusqu'à 9 blocs) directement à l'aide de HD16, une amélioration des performances allant jusqu'à 8 % peut être observée sur InfographicVQA.
IXC2-4KHD augmente la résolution prise en charge par les grands modèles multimodaux jusqu'au niveau 4K. Les chercheurs ont déclaré que la stratégie actuelle consistant à prendre en charge une entrée d'image plus grande en augmentant le nombre de tuiles se heurte à des contraintes de coût de calcul et de mémoire. ils prévoient de proposer des stratégies plus efficaces pour obtenir un support de résolution plus élevée à l’avenir.
Lien papier :
https://arxiv.org/pdf/2404.06512.pdf
Lien du projet :
https://github.com/InternLM/InternLM-XComposer
—Fin—
Veuillez envoyer vos soumissions Envoyez un e-mail à :
ai@qbitai.com
Indiquez le titre et dites-nous :
Qui êtes-vous, d'où venez-vous, le contenu de votre soumission
Joignez le lien de la page d'accueil de l'article/du projet et les coordonnées
Nous ferons de mon mieux pour vous répondre à temps
Cliquez ici pour me suivre et n'oubliez pas de mettre en vedette~
"Partager", "J'aime" et "Regarder" en trois clics
À tous les jours sur les progrès de pointe de la science et de la technologie ~
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!