Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport d'aspect-IA-php.cn

Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport d'aspect

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2024-04-28 16:43:08

avant

795 Les gens l'ont consulté

83 % des informations que les humains obtiennent proviennent de la vision. Les grands modèles multimodaux de graphiques et de textes peuvent percevoir des informations du monde réel plus riches et plus précises, construire une intelligence cognitive plus complète et ainsi faire de plus grands pas vers l'AGI (Intelligence Générale Artificielle). .

Yuanxiang a lancé aujourd'hui le grand modèle multimodal XVERSE-V, qui prend en charge la saisie d'images avec n'importe quel rapport d'aspect et est en tête des évaluations grand public. Ce modèle est entièrement open source et inconditionnellement gratuit pour un usage commercial, et continue de promouvoir la R&D et l'innovation applicative d'un grand nombre de petites et moyennes entreprises, de chercheurs et de développeurs. Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect XVERSE-V a d'excellentes performances, surpassant les modèles open source tels que Yi-VL-34B, l'OmniLMM-12B intelligent face au mur et DeepSeek-VL-7B dans plusieurs évaluations multimodales faisant autorité et dans l'évaluation complète des capacités MMBench Il dépasse modèles fermés bien connus tels que Google GeminiProVision, Alibaba Qwen-VL-Plus et Claude-3V Sonnet. Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect Figure. Évaluation complète des grands modèles multimodaux

Fusion de la représentation d'image haute définition globale et locale

La représentation d'image de modèle multimodale traditionnelle n'a que le tout, XVERSE-V adopte de manière innovante une stratégie d'intégration du tout. et la partie prend en charge la saisie d'images avec n'importe quel rapport hauteur/largeur. En prenant en compte à la fois les informations globales et les informations locales détaillées, il peut identifier et analyser les caractéristiques subtiles des images, voir plus clairement et comprendre plus précisément. E Remarque : Concate* indique que la méthode de traitement est effectuée en fonction de la colonne. Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect ^{Les modèles peuvent être utilisés dans un large éventail de domaines, notamment la reconnaissance de diagrammes panoramiques, les images satellite et l'analyse par balayage d'antiquités.}

Exemple - Reconnaissance panoramique HD, reconnaissance de texte détaillé de l'image

Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect Téléchargement gratuit du grand modèle

•Hugging Face : https://huggingface.co/xverse/XVERSE-V-13B

•ModelScope ：https ://modelscope.cn/models/xverse/XVERSE-V-13B

•Github : https://github.com/xverse-ai/XVERSE-V-13B

•Pour toute demande de renseignements, veuillez envoyer : opensource@xverse .cn

Yuanxiang continue de construire des références open source nationales, avec

le premier open source en Chine avec un paramètre maximum de 65B

, le premier open source au monde avec le contexte le plus long de 256K

et le MoE international de pointe modèle, et leader du pays dans l'évaluation SuperCLUE. Le lancement du modèle MoE comble cette fois le vide de l’open source national et le propulse au premier niveau international. En termes d'application commerciale, le grand modèle Yuanxiang est l'un des premiers modèles du Guangdong à obtenir un enregistrement national et peut fournir des services à l'ensemble de la société. Yuanxiang Large Model mène une coopération approfondie et une exploration d'applications avec un certain nombre de produits Tencent depuis l'année dernière, notamment

QQ Music

, Huya Live, National Karaoke, Tencent Cloud, etc., pour créer des produits innovants et leaders dans les domaines de la culture, du divertissement, du tourisme et de la finance. Performances exceptionnelles dans les applications pratiques multidirectionnelles Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect

Le modèle fonctionne non seulement bien dans les capacités de base, mais fonctionne également bien dans les scénarios d'application réels. Avoir la capacité de comprendre différents scénarios et être capable de gérer différents besoins tels que des graphiques d'information, des documents, des scénarios réels, des questions mathématiques, des documents scientifiques, la conversion de code, etc. •

Compréhension des graphiques

Qu'il s'agisse de la compréhension de graphiques d'informations combinant des graphiques et du texte complexes, ou de l'analyse et du calcul d'un seul graphique, le modèle peut le gérer facilement. Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect

•Scènes réelles de déficience visuelle

Dans l'ensemble de tests de scènes réelles pour malvoyants VizWiz, XVERSE-V a bien fonctionné, surpassant presque tous les open source grand public tels que InternVL-Chat-V1.5 et DeepSeek-VL- 7B Grands modèles multimodaux. Cet ensemble de tests contient plus de 31 000 questions et réponses visuelles provenant de vrais utilisateurs malvoyants, qui peuvent refléter avec précision les besoins réels et les problèmes triviaux des utilisateurs, et aider les personnes malvoyantes à surmonter leurs véritables défis visuels quotidiens.测试 Exemple de test Vizwiz Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect

• ^•

Xverse-V a une capacité multimodale tout en conservant une forte capacité de génération de texte.

Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect

•

Résolution de problèmes éducatifs

Le modèle dispose d'un large éventail de réserves de connaissances et de capacités de raisonnement logique, et peut reconnaître des images pour répondre à des questions dans différentes disciplines.

Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect

•

Réponses de l'Encyclopédie

Le modèle stocke des connaissances sur divers sujets tels que l'histoire, la culture, la technologie et la sécurité.

Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport daspect