Maison > Périphériques technologiques > IA > le corps du texte

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

WBOY
Libérer: 2024-04-25 20:04:15
avant
898 Les gens l'ont consulté

Récemment, le professeur Yan Shuicheng team A publié conjointement et en open source le grand modèle de langage visuel multimodal universel au niveau des pixels Vitron.

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Page d'accueil et démo du projet : https://www.php.cn/link/d8a3b2dde3181c8257e2e45efbd1e8aeLien papier : https://www.php.cn/link/0ec5ba 872f117 9835987f9028c4cc4df code open source :https://www.php.cn/link/26d6e896db39edc7d7bdd357d6984c95

Il s'agit d'un modèle multimodal visuel général robuste qui prend en charge tout, depuis une série de tâches visuelles allant de la compréhension visuelle à la génération visuelle, du niveau bas au niveau élevé, résout le problème de séparation des modèles image/vidéo qui tourmente depuis longtemps la grande industrie des modèles de langage et fournit une compréhension complète et unifiée et la génération d'images statiques et de contenu vidéo dynamique. Le grand modèle visuel multimodal à usage général au niveau des pixels pour des tâches telles que la segmentation et l'édition jette les bases de la forme ultime du grand modèle visuel à usage général de nouvelle génération. , et marque également un autre grand pas vers l’intelligence artificielle générale (AGI) pour les grands modèles.

Vitron, en tant que grand modèle de langage visuel multimodal unifié au niveau des pixels, offre une prise en charge complète des tâches visuelles de bas niveau à haut niveau, peut gérer des tâches visuelles complexes et comprendre et générer des images. et du contenu vidéo, offrant de puissantes capacités de compréhension visuelle et d’exécution de tâches. Dans le même temps, Vitron prend en charge les opérations continues avec les utilisateurs, permettant une interaction homme-machine flexible, démontrant le grand potentiel vers un modèle universel multimodal visuel plus unifié.

Les articles, codes et démonstrations liés à Vitron ont tous été rendus publics. Ses avantages et son potentiel uniques en termes d'exhaustivité, d'innovation technologique, d'interaction homme-machine et de potentiel d'application n'ont pas seulement favorisé la multimodalité. le développement de grands modèles ouvre également une nouvelle direction pour la recherche future sur les grands modèles visuels. Le développement actuel des grands modèles de langage visuels (LLM) a fait des progrès gratifiants. La communauté croit de plus en plus que la construction de grands modèles multimodaux (MLLM) plus généraux et plus puissants sera le seul moyen de parvenir à une intelligence artificielle générale (AGI). Cependant, il reste encore quelques défis majeurs dans le processus d'évolution vers un modèle général multimodal (Généraliste). Par exemple, une grande partie du travail ne parvient pas à une compréhension visuelle fine au niveau des pixels, ou manque de prise en charge unifiée pour les images et les vidéos. Ou bien la prise en charge de diverses tâches visuelles est insuffisante, et c'est loin d'être un grand modèle universel. Afin de combler cette lacune, l'équipe a récemment publié conjointement le grand modèle de langage visuel multimodal universel open source Vitron au niveau des pixels. Vitron prend en charge une série de tâches visuelles allant de la compréhension visuelle à la génération visuelle, du niveau bas au niveau élevé, y compris la compréhension, la génération, la segmentation et l'édition complètes d'images statiques et de contenu vidéo dynamique. Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiéeLa figure ci-dessus décrit de manière exhaustive le support fonctionnel de Vitron pour quatre tâches majeures liées à la vision, ainsi que ses principaux avantages. Vitron prend également en charge un fonctionnement continu avec les utilisateurs pour obtenir une interaction homme-machine flexible. Ce projet démontre le grand potentiel d’un modèle général multimodal de vision plus unifiée, jetant les bases de la forme ultime de la prochaine génération de grands modèles de vision générale. Les articles, codes et démos liés à Vitron sont désormais tous publics.

Le modèle de grand langage multimodal unifié ultime

Ces dernières années, les grands modèles de langage (LLM) ont démontré des capacités puissantes sans précédent, et ils ont été progressivement vérifiés comme la voie technique vers l'AGI. Les grands modèles de langage multimodaux (MLLM) se développent rapidement dans de nombreuses communautés et émergent rapidement. En introduisant des modules capables d'effectuer une perception visuelle, les LLM purement linguistiques sont étendus aux MLLM. De nombreux MLLM puissants et excellents dans la compréhension des images ont été développés. tels que BLIP-2, LLaVA, MiniGPT-4, etc. Parallèlement, des MLLM axés sur la compréhension de la vidéo ont également été lancés, tels que VideoChat, Video-LLaMA, Video-LLaVA, etc.

Par la suite, les chercheurs ont principalement tenté d'étendre davantage les capacités des MLLM à partir de deux dimensions. D'une part, les chercheurs tentent d'approfondir la compréhension de la vision par les MLLM, en passant d'une compréhension approximative au niveau de l'instance à une compréhension fine des images au niveau des pixels, obtenant ainsi des capacités de positionnement de région visuelle (Regional Grounding), telles que GLaMM, PixelLM. , NExT-Chat et MiniGPT-v2 etc.

D'autre part, les chercheurs tentent d'étendre les fonctions visuelles que les MLLM peuvent prendre en charge. Certaines recherches ont commencé à étudier comment les MLLM non seulement comprennent les signaux visuels d'entrée, mais prennent également en charge la génération de contenu visuel de sortie. Par exemple, les MLLM tels que GILL et Emu peuvent générer du contenu d'image de manière flexible, et GPT4Video et NExT-GPT réalisent la génération de vidéo.

À l'heure actuelle, la communauté de l'intelligence artificielle est progressivement parvenue à un consensus selon lequel la tendance future des MLLM visuels évoluera inévitablement dans le sens de capacités hautement unifiées et plus fortes. Cependant, malgré les nombreux MLLM développés par la communauté, une lacune évidente existe encore.

1. Presque tous les LLM visuels existants traitent les images et les vidéos comme des entités différentes et ne prennent en charge que les images ou uniquement les vidéos.

Les chercheurs préconisent que la vision devrait inclure à la fois des images statiques et des vidéos dynamiques - les deux sont des composants essentiels du monde visuel et peuvent même être interchangés dans la plupart des scénarios. Par conséquent, il est nécessaire de créer un cadre MLLM unifié pouvant prendre en charge à la fois les modalités image et vidéo.

2. Actuellement, la prise en charge des fonctions visuelles par les MLLM est encore insuffisante.

La plupart des modèles sont uniquement capables de comprendre, ou tout au plus de générer des images ou des vidéos. Les chercheurs estiment que les futurs MLLM devraient être un grand modèle de langage général capable de couvrir un plus large éventail de tâches et d'opérations visuelles, d'obtenir une prise en charge unifiée de toutes les tâches liées à la vision et d'atteindre des capacités « un pour tous ». Ceci est crucial pour les applications pratiques, notamment dans la création visuelle qui implique souvent une série d’opérations itératives et interactives.

Par exemple, les utilisateurs commencent généralement par du texte et convertissent une idée en contenu visuel via des diagrammes de Vincent ; puis affinent l'idée initiale et ajoutent plus de détails grâce à une édition d'image plus fine, puis génèrent une vidéo via des images ; du contenu dynamique ; enfin, effectuer plusieurs séries d'interactions itératives, comme le montage vidéo, pour affiner la création.

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Le tableau ci-dessus résume simplement les capacités du MLLM visuel existant (n'inclut que de manière représentative certains modèles et la couverture est incomplète). Pour combler ces lacunes, l'équipe propose Vitron, un MLLM visuel général au niveau des pixels.

Architecture du système Vitron : trois modules clés

Le cadre global de Vitron est présenté dans la figure ci-dessous. Vitron adopte une architecture similaire aux MLLM associés existants, comprenant trois parties clés : 1) module d'encodage visuel et linguistique frontal, 2) module central de compréhension et de génération de texte du LLM, et 3) réponse de l'utilisateur back-end et appels de module pour le contrôle visuel. module.

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Module frontal : Codage visuo-linguistique

Afin de percevoir les signaux modaux d'image et de vidéo et de prendre en charge la saisie visuelle fine de l'utilisateur, Vitron intègre un encodeur d'image, un encodeur vidéo, Encodeur de boîte de région/croquis.

Module central : Core LLM

Vitron utilise Vicuna (7B, v1.5) pour parvenir à la compréhension, au raisonnement, à la prise de décision et à plusieurs cycles d'interaction utilisateur.

Module Backend : Réponse de l'utilisateur et appel de module

Vitron adopte une stratégie d'appel centrée sur le texte et intègre plusieurs modules de traitement d'image et vidéo disponibles sur étagère (SoTA) puissants et avancés pour le décodage et effectuer une gamme de tâches de terminal visuel de niveaux bas à élevés. En adoptant une méthode d'appel d'intégration de module centrée sur le texte, Vitron réalise non seulement l'unification du système, mais garantit également l'efficacité de l'alignement et l'évolutivité du système.

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Trois étapes principales de la formation du modèle Vitron

Basé sur l'architecture ci-dessus, Vitron est formé et affiné pour lui donner de puissantes capacités de compréhension visuelle et d'exécution de tâches. La formation du modèle comprend principalement trois étapes différentes.

Étape 1 : Apprentissage de l'alignement global visuel-verbal. Les caractéristiques du langage visuel d'entrée sont mappées dans un espace de caractéristiques unifié, lui permettant ainsi de comprendre efficacement les signaux multimodaux d'entrée. Il s’agit d’un apprentissage d’alignement visuo-linguistique à gros grain qui permet au système de traiter efficacement les signaux visuels entrants dans leur ensemble. Les chercheurs ont utilisé des ensembles de données existants de paire image-légende (CC3M), de paire vidéo-légende (Webvid) et de paire région-légende (RefCOCO) pour la formation.

Étape 2 : Ajustement fin des instructions de positionnement visuel spatio-temporel. Le système utilise des modules externes pour effectuer diverses tâches visuelles au niveau des pixels, mais LLM lui-même n'a subi aucune formation visuelle fine, ce qui empêchera le système d'atteindre une véritable compréhension visuelle au niveau des pixels. À cette fin, les chercheurs ont proposé une formation de réglage précis des instructions de positionnement visuel spatio-temporel. L’idée principale est de permettre à LLM de localiser la spatialité fine de l’image et les caractéristiques temporelles spécifiques de la vidéo.

Étape 3 : Affinez la fin de sortie de l'appel de commande. La deuxième étape de la formation décrite ci-dessus donne au LLM et à l'encodeur frontal la capacité de comprendre la vision au niveau des pixels. Cette dernière étape, le réglage fin des instructions pour l'invocation de commandes, vise à doter le système de la capacité d'exécuter des commandes avec précision, permettant à LLM de générer un texte d'invocation approprié et correct. Étant donné que différentes tâches de vision du terminal peuvent nécessiter différentes commandes d'appel, afin d'unifier cela, les chercheurs ont proposé de standardiser la réponse de LLM dans un format de texte structuré, qui comprend :

1) Sortie de réponse de l'utilisateur, réponse directe au Entrée de l'utilisateur

2) Nom du module pour indiquer la fonction ou la tâche qui sera effectuée.

3) Appelez la commande pour déclencher la méta-instruction du module de tâches.

4) Région (sortie facultative) qui spécifie les fonctionnalités visuelles fines requises pour certaines tâches, comme le suivi vidéo ou l'édition visuelle, où les modules backend nécessitent ces informations. Pour les régions, sur la base de la compréhension au niveau des pixels de LLM, des cadres de délimitation décrits par des coordonnées seront générés.

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Expériences d'évaluation

Les chercheurs ont mené des évaluations expérimentales approfondies sur 22 ensembles de données de référence communs et 12 tâches de vision image/vidéo basées sur Vitron. Vitron démontre de solides capacités dans quatre grands groupes de tâches visuelles (segmentation, compréhension, génération et édition de contenu), tout en disposant de capacités flexibles d’interaction homme-machine. Ce qui suit montre de manière représentative quelques résultats de comparaison qualitative :

Segmentation de la vision

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Résultats de la segmentation d'image faisant référence à une image

Compréhension fine de la vision

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

Résultats de compréhension de l'expression de référence d'image.

Yan Shuicheng a pris les commandes et a établi la forme ultime du « grand modèle visuel multimodal universel » ! Compréhension/génération/segmentation/édition unifiée

S'il vous plaît reportez-vous à l’article pour un contenu expérimental et des détails plus détaillés.

Future Direction Outlook

En général, ce travail démontre le grand potentiel du développement d'un grand modèle général visuel multimodal unifié, établissant une nouvelle forme pour la prochaine génération de recherche sur les grands modèles visuels et faisant le premier pas dans cette direction. Bien que le système Vitron proposé par l’équipe présente de fortes capacités générales, il présente néanmoins ses propres limites. Les chercheurs suivants énumèrent quelques directions qui pourraient être explorées davantage à l’avenir.

Architecture système

Le système Vitron utilise toujours une approche semi-union, semi-agent pour appeler des outils externes. Bien que cette méthode basée sur les appels facilite l'expansion et le remplacement de modules potentiels, cela signifie également que les modules back-end de cette structure de pipeline ne participent pas à l'apprentissage conjoint des modules front-end et de base LLM.

Cette limitation n'est pas propice à l'apprentissage global du système, ce qui signifie que la limite supérieure de performance des différentes tâches visuelles sera limitée par le module back-end. Les travaux futurs devraient intégrer divers modules de tâches de vision dans une unité unifiée. Parvenir à une compréhension et une production unifiées d’images et de vidéos tout en prenant en charge les capacités de génération et d’édition via un paradigme génératif unique reste un défi. Actuellement, une approche prometteuse consiste à combiner la tokenisation persistante en termes de modularité pour améliorer l'unification du système sur différentes entrées et sorties et diverses tâches.

Interactivité utilisateur

Contrairement aux modèles précédents qui se concentraient sur une tâche à vision unique (par exemple, Stable Diffusion et SEEM), Vitron vise à faciliter une interaction profonde entre LLM et les utilisateurs, similaire à l'industrie au sein du DALL d'OpenAI. -Série E, Midjourney, etc. Atteindre une interactivité utilisateur optimale est l’un des objectifs principaux de ce travail.

Vitron exploite le LLM basé sur la langue existante, combiné à des ajustements pédagogiques appropriés pour atteindre un certain niveau d'interactivité. Par exemple, le système peut répondre de manière flexible à tout message attendu saisi par l'utilisateur et produire des résultats d'opération visuels correspondants sans exiger que l'entrée de l'utilisateur corresponde exactement aux conditions du module principal. Cependant, ces travaux laissent encore beaucoup de marge d’amélioration en termes de renforcement de l’interactivité. Par exemple, en s'inspirant du système Midjourney à source fermée, quelle que soit la décision prise par LLM à chaque étape, le système doit fournir activement des commentaires aux utilisateurs pour garantir que ses actions et décisions sont cohérentes avec les intentions des utilisateurs.

Capacités modales

Actuellement, Vitron intègre un modèle 7B Vicuna, qui peut avoir certaines limitations sur sa capacité à comprendre le langage, les images et les vidéos. Les orientations futures de l'exploration pourraient consister à développer un système complet de bout en bout, par exemple en élargissant l'échelle du modèle pour parvenir à une compréhension plus approfondie et plus complète de la vision. En outre, des efforts devraient être faits pour permettre au LLM d’unifier pleinement la compréhension des modalités de l’image et de la vidéo.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal