VisCPM, le grand modèle multimodal chinois open source intelligent et intelligent face aux murs de l'Université Tsinghua : prend en charge la génération bidirectionnelle de textes et d'images de dialogue et possède d'incroyables capacités de poésie et de peinture.-IA-php.cn

Le CPM-1 sorti en décembre 2020 est le premier grand modèle chinois en Chine ; le CPM-Ant sorti en septembre 2022 peut surpasser l'effet de réglage fin des paramètres en n'affinant que 0,06 % des paramètres publiés ; en mai 2023, le chinois est le premier modèle de questions-réponses open source basé sur la recherche. Le grand modèle CPM-Bee 10 milliards est le dernier modèle de base publié par l'équipe. Sa capacité en chinois est en tête de la liste faisant autorité ZeroCLUE, et sa capacité en anglais égale LLaMA.

Réalisant à plusieurs reprises des réalisations révolutionnaires, la série de grands modèles CPM a conduit les grands modèles nationaux à grimper au sommet, et le VisCPM récemment publié en est une autre preuve ! VisCPM est une grande série de modèles multimodaux open source conjointe de Wallface Intelligence, du laboratoire NLP de l'Université Tsinghua et de Zhihu dans OpenBMB. Parmi eux, le modèle VisCPM-Chat prend en charge les capacités de dialogue multimodal bilingue chinois et anglais, ainsi que VisCPM-Paint. Le modèle prend en charge la capacité de génération de graphiques WenDao, l'évaluation montre que VisCPM atteint le meilleur niveau parmi les modèles open source multimodaux chinois.

VisCPM est formé sur la base des dizaines de milliards de modèles de base de paramètres CPM-Bee et intègre l'encodeur visuel (Q-Former et le décodeur visuel (Diffusion-UNet) pour prendre en charge l'entrée et la sortie de signaux visuels. Grâce à CPM-Bee Grâce aux excellentes capacités bilingues de la base, VisCPM peut être pré-entraîné avec uniquement des données multimodales en anglais et généralisé pour obtenir d'excellentes capacités multimodales en chinois

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳 Schéma d'architecture simple VisCPM

Regardons de plus près VisCPM-Chat. Où est la vache avec VisCPM-Paint ? VisCPM-Chat prend en charge le traitement bilingue orienté image en chinois et en anglais.

Le modèle utilise Q-Former comme encodeur visuel, utilise CPM-Bee (10B) comme modèle de base d'interaction linguistique et fusionne le visuel. et des modèles linguistiques via des objectifs de formation à la modélisation linguistique. La formation des modèles comprend une pré-formation et un réglage précis des instructions. 清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

L'équipe a utilisé environ

100 millions de données d'images et de texte en anglais de haute qualité pour pré-entraîner VisCPM-Chat. , CC12M, COCO, Visual Genome, Laion, etc. en pré-formation. À ce stade, les paramètres du modèle de langage restent fixes et seuls certains paramètres de Q-Former sont mis à jour pour prendre en charge un alignement efficace des représentations visuelles et linguistiques à grande échelle. L'équipe a ensuite affiné les instructions de VisCPM-Chat,

en utilisant les données de réglage fin de la commande LLaVA-150K

, et a mélangé les données chinoises traduites correspondantes pour affiner le modèle afin d'aligner le multi du modèle. -capacités de base modales et intentions d'utilisation des utilisateurs. Lors de la phase de réglage fin de la commande, ils ont mis à jour tous les paramètres du modèle pour améliorer l'efficacité de l'utilisation des données de réglage fin Fait intéressant, l'équipe a constaté que même s'il ne s'agissait que d'instructions en anglais. les données ont été utilisées pour affiner l'instruction, le modèle a pu comprendre les questions en chinois, mais n'a pu répondre qu'en anglais. Cela montre que les capacités modales ont été bien généralisées en ajoutant davantage de données de traduction en chinois. lors de la phase de mise au point de l'instruction, le langage de réponse du modèle peut être aligné sur le langage des questions de l'utilisateur

L'équipe a testé l'ensemble de tests d'anglais LLaVA et la traduction en chinois. Le modèle a été évalué sur ce référentiel d'évaluation. examine les performances du modèle dans le dialogue en domaine ouvert, la description détaillée de l'image et le raisonnement complexe, et utilise GPT-4 pour la notation. On peut observer que VisCPM-Chat a d'excellentes capacités multimodales chinoises. a bien performé dans le dialogue de domaine général et le raisonnement complexe, et a également montré de bonnes capacités multimodales en anglais

VisCPM-Chat propose deux versions de modèle, respectivement VisCPM -Chat-balance et VisCPM-Chat-zhplus, La première a un. une capacité plus équilibrée en anglais et en chinois, tandis que ce dernier est plus important en matière de chinois. Les deux modèles utilisent les mêmes données dans la phase de réglage fin des instructions. VisCPM-Chat-zhplus ajoute 20 millions de données supplémentaires de paire image-texte chinoise native nettoyées et 120 millions de données de paire image-texte chinois traduites dans la phase de pré-formation.

photos

Ce qui suit est une démonstration des capacités de dialogue multimodal de VisCPM-Chat. Il peut non seulement reconnaître des cartes de zones spécifiques, mais également lire des graffitis et des affiches de films, et même reconnaître le logo Starbucks. De plus, je suis très bilingue en chinois et en anglais !