Après avoir regardé un film de 2 heures en 4 secondes, la nouvelle réalisation de l'équipe Alibaba a été officiellement dévoilée -
a lancé le grand modèle multimodal général mPLUG-Owl3, spécialement utilisé pour comprendre plusieurs images et de longues vidéos.
Plus précisément, en utilisant LLaVA-Next-Interleave comme référence, mPLUG-Owl3 réduit la latence du premier jeton du modèle de 6 fois, et un seul Le nombre d'images que l'A100 peut modéliser a été multiplié par huit pour atteindre 400 images. Selon les mesures réelles, un film de 2 heures peut être regardé en 4 secondes.
En d’autres termes, l’efficacité du raisonnement du modèle a été grandement améliorée.
sans sacrifier la précision du modèle.
mPLUG-Owl3 a également atteint SOTA dans divers scénarios impliquant de grands modèles multimodaux, y compris des champs d'image unique, multi-images et vidéo.
Les auteurs de l'article sont issus de l'équipe Alibaba mPLUG. Ils ont également été profondément impliqués dans les grandes bases multimodales. proposé:
#🎜 🎜#Base multimodale efficace série mPLUGBase de modèle de langage grand multimodal modulaire mPLUG-série OwlBase de compréhension des documents mPLUG- Série DocOwl# 🎜🎜# Jetons un coup d'œil à la technologie noire apportée par cette version de mPLUG-Owl3. L'équipe a démontré plusieurs utilisations courantes de mPLUG-Owl3.
Amélioration de la récupération multimodale
De manière générale, il est courant de compléter les connaissances que le modèle n'a pas acquises via le système de récupération. Cela nécessite que le modèle comprenne avec précision les connaissances multimodales entrantes et les utilise pour répondre aux questions.
Dans l'exemple suivant, mPLUG-Owl3 peut non seulement répondre correctement en fonction des connaissances récupérées, mais également donner un jugement en fonction de l'élément de connaissance sur lequel il est basé et fournir une base de jugement détaillée. Ceci est très convivial pour le personnel de R&D en aval pour le développement et le débogage.
Section de récupération : Voici plusieurs connaissances multimodales récupérées pour que vous puissiez prendre une décision.
Question : D'après vos observations des quatre photos de chiens ci-dessus, pouvez-vous classer le chien de la photo 5 ? Donnez des raisons.
Réponse : Sur la base des observations des quatre photos de chiens, le chien de la photo 5 peut être classé comme un Terrier irlandais. Le chien de la photo 1 est décrit comme un Terrier irlandais et le chien de la photo 5 présente des similitudes physiques avec le chien de la photo 1...
# 🎜🎜#multiple raisonnement d'image
Des situations comme celle-ci se produisent souvent dans la vie -
De nombreux utilisateurs n'ont pas seulement des conversations autour d'une image, mais les utilisateurs peuvent avoir plusieurs copies. Les matériaux nécessitent des modèles qui peuvent correctement. comprendre la relation entre le contenu de différents matériaux.
Dans l'exemple ci-dessous, mPLUG-Owl3 peut activer la connaissance du bon sens du modèle de langage à travers ce qu'il voit dans deux images, et faire des inférences autour des deux images. Question : L'animal de gauche peut-il survivre dans l'environnement de droite ? Des réponses et des explications sont nécessaires. Réponse (la bonne réponse est marquée en vert) : L'idée générale est qu'il ne peut pas survivre car l'environnement est trop froid.Dans un autre exemple, mPLUG-Owl3 peut non seulement détecter la différence de style entre les deux images, mais également être conscient des personnages des deux images Bien que les styles soient différents, il s’agit en fait du même personnage.
Première question : Quels styles artistiques sont représentés dans les images et en quoi sont-ils différents ?
Réponse : La première image est en style pixel, la deuxième image est en style dessin animé... (donnez la raison)
Deuxième question : Apparaît dans les deux peintures Qui ? Quelles sont leurs caractéristiques ? Réponse : Dans les deux tableaux, un homme portant un chapeau de cowboy apparaît, et il est représenté dans deux styles différents.Compréhension des vidéos longues
Regarder de très longues vidéos est une tâche que la plupart des modèles ne peuvent pas accomplir de bout en bout. Basé sur le framework Agent, il est difficile de garantir la vitesse de réponse.
mPLUG-Owl3 peut regarder un film de 2 heures et commencer à répondre aux questions des utilisateurs en 4 secondes.
Que les utilisateurs posent des questions sur des clips très détaillés du début, du milieu et de la fin du film, mPLUG-Owl3 peut y répondre couramment.Comment as-tu fait ?
Contrairement aux modèles traditionnels, mPLUG-Owl3 n'a pas besoin de fusionner à l'avance la séquence visuelle dans la séquence de texte du modèle de langage.
En d'autres termes, peu importe ce qui est entré (des dizaines d'images ou des heures de vidéo), il n'occupe pas la capacité de séquence du modèle de langage, ce qui évite l'énorme surcharge de calcul et de mémoire vidéo causée par de longs visuels séquences occupées.
Quelqu'un peut se demander, comment les informations visuelles sont-elles intégrées dans le modèle de langage ?Pour y parvenir, l'équipe a proposé un module Hyper Attention léger, qui peut étendre un bloc Transformer existant qui ne peut modéliser que du texte. Il devient un nouveau module capable de faire du graphique et l'interaction des fonctionnalités de texte et la modélisation de texte en même temps.
En étendant légèrement 4 blocs Transformer à travers l'ensemble du modèle de langage, mPLUG-Owl3 peut mettre à niveau LLM vers le multi-mode à un très faible coût.
Une fois les caractéristiques visuelles extraites de l'encodeur visuel, les dimensions sont alignées sur les dimensions du modèle de langage via un simple mappage linéaire.
Par la suite, les fonctionnalités visuelles n'interagiront qu'avec le texte dans ces 4 couches de Transformer Block. Puisque le jeton visuel n'a subi aucune compression, des informations fines peuvent être conservées.
Jetons un coup d'œil à la façon dont l'Hyper Attention est conçue.
Hyper Attention Afin de permettre au modèle de langage de percevoir les caractéristiques visuelles, une opération d'Attention croisée est introduite, utilisant les caractéristiques visuelles comme clé et valeur, et utilisant l'état caché du modèle de langage comme requête pour extraire les caractéristiques visuelles.
Ces dernières années, d'autres recherches ont également envisagé d'utiliser Cross-Attention pour la fusion multimodale, comme Flamingo et IDEFICS, mais ces travaux n'ont pas atteint de bonnes performances.
Dans le rapport technique de mPLUG-Owl3, l'équipe a comparé la conception de Flamingo pour expliquer plus en détail les points techniques clés d'Hyper Attention :
#🎜🎜 #
Tout d'abord, l'Hyper Attention n'adopte pas la conception de la cascade Cross-Attention et Self-Attention, mais est intégrée dans le bloc Self-Attention. Son avantage est qu'il réduit considérablement le nombre de nouveaux paramètres supplémentaires introduits, ce qui rend le modèle plus facile à entraîner, et l'efficacité de l'entraînement et de l'inférence peut être encore améliorée. Deuxièmement, Hyper Attention choisit LayerNorm qui partage le modèle de langage, car la distribution produite par LayerNorm est exactement la distribution stable que la couche Attention a formée. Le partage de cette couche est crucial pour un apprentissage stable de la couche nouvellement introduite. Attention croisée importante. En fait, l'Hyper Attention adopte une stratégie parallèle d'attention croisée et d'auto-attention, utilisant une requête partagée pour interagir avec les fonctionnalités visuelles et fusionnant les deux fonctionnalités via une porte adaptative. Cela permet à Query de sélectionner sélectivement les fonctionnalités visuelles qui lui sont liées en fonction de sa propre sémantique. L'équipe a constaté que la position relative de l'image et du texte dans le contexte d'origine est très importante pour que le modèle puisse mieux comprendre la saisie multimodale. Afin de modéliser cette propriété, ils ont introduit une position de rotation entrelacée multimodale codant MI-Rope pour modéliser les informations de position pour la clé visuelle. Plus précisément, ils ont pré-enregistré les informations de position de chaque image dans le texte original, et utiliseront cette position pour calculer l'intégration de corde correspondante, et chaque patch de la même image partagera cette intégration. De plus, ils ont également introduit le masque Attention dans Cross-Attention, afin que le texte précédant l'image dans le contexte d'origine ne puisse pas voir les caractéristiques correspondantes des images suivantes. En résumé, ces points de conception d'Hyper Attention ont apporté de nouvelles améliorations d'efficacité à mPLUG-Owl3 et ont permis de garantir qu'il puisse toujours disposer de capacités multimodales de premier ordre. Résultats expérimentaux En menant des expériences sur un large éventail d'ensembles de données, mPLUG-Owl3 obtient les meilleures performances dans la plupart des multimode à image unique Il peut obtenir des résultats SOTA dans tous les benchmarks de pointe, et même de nombreux tests peuvent surpasser les modèles avec des tailles de modèle plus grandes. Dans le même temps, dans l'évaluation multi-images, mPLUG-Owl3 a également surpassé LLAVA-Next-Interleave et Mantis, qui sont spécifiquement optimisés pour scénarios multi-images. De plus, il a surpassé les modèles existants sur LongVideoBench (52,1 points), une liste qui évalue spécifiquement la compréhension du modèle des vidéos longues. L'équipe R&D a également proposé une méthode intéressante d'évaluation de séquences visuelles longues. Comme nous le savons tous, dans les scénarios réels d'interaction homme-machine, toutes les images ne répondent pas aux problèmes des utilisateurs. Plus la séquence est longue, plus le contexte historique est rempli de contenu multimodal qui n'a aucun rapport avec le problème. , plus ce phénomène est grave. Afin d'évaluer la capacité anti-interférence du modèle lors de la saisie de longues séquences visuelles, ils ont construit un nouvel ensemble de données d'évaluation basé sur MMBench-dev.Introduisez des images non pertinentes pour chaque échantillon d'évaluation du cycle MMBench et perturbez l'ordre des images, puis posez des questions sur les images originales pour voir si le modèle peut répondre correctement et de manière stable. (Pour la même question, 4 échantillons avec un ordre différent d'options et d'images d'interférence seront construits, et une seule bonne réponse sera enregistrée si toutes les réponses sont correctes.)
L'expérience est divisée en plusieurs niveaux en fonction du nombre d'entrées. des photos.
On peut constater que les modèles sans formation multi-graphiques tels que Qwen-VL et mPLUG-Owl2 ont rapidement échoué.
LLAVA-Next-Interleave et Mantis, qui ont été formés sur plusieurs images, peuvent maintenir une courbe de désintégration similaire à celle de mPLUG-Owl3 au début, mais à mesure que le nombre d'images atteint le niveau de 50, ces modèles peuvent ne répond plus correctement.
Et mPLUG-Owl3 peut maintenir une précision de 40 % même avec 400 photos.
Cependant, il y a une chose à dire. Bien que mPLUG-Owl3 surpasse les modèles existants, sa précision est loin d'être un excellent niveau. On peut seulement dire que cette méthode d'évaluation révèle la capacité anti-interférence de tous les modèles sous de longues séquences. doit encore être amélioré à l’avenir.
Pour plus de détails, veuillez vous référer au papier et au code.
Papier : https://arxiv.org/abs/2408.04840
Code : https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
demo (câlin) : https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo (Magic Community) : https://modelscope.cn/studios/iic/mPLUG-Owl3
Modèle 7B (câlin) : https:// /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
Modèle 7B (Magic Community) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
— Fin—
Veuillez envoyer un e-mail à :
ai@qbitai.com
Indiquez le titre et dites-nous :
Qui êtes-vous, d'où venez-vous, le contenu de votre soumission
Joignez le lien vers la page d'accueil de l'article/du projet et contactez informations
Nous vous répondrons (autant que possible) à temps
Cliquez ici pour me suivre et n'oubliez pas de mettre une étoile~
"Partager", "J'aime" et "Regarder" en trois clics
À tous les jours pour le progrès de pointe de la science et de la technologie ~
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!