Le 5 juillet, lors du forum « Trusted Large Models Help Industrial Innovation and Development » lors de la Conférence mondiale sur l'intelligence artificielle 2024, Ant Group a annoncé les derniers progrès de développement de son modèle Bailing auto-développé : le modèle Bailing a la capacité de « voir " Les capacités multimodales natives de « écouter », « parler » et « dessiner » peuvent directement comprendre et entraîner des données multimodales telles que l'audio, la vidéo, les images, le texte, etc. La multimodalité native est considérée comme le seul moyen d'accéder à l'AGI. En Chine, seuls quelques grands fabricants de modèles ont atteint cette capacité. Le journaliste a vu lors de la démonstration lors de la conférence que la technologie multimodale peut permettre aux grands modèles de percevoir et d'interagir davantage comme des humains, soutenant ainsi la mise à niveau de l'expérience corporelle intelligente. Les capacités multimodales de Bailing ont été appliquées à « l'assistant intelligent d'Alipay » et le seront. Être utilisé à l'avenir. Prend en charge des mises à niveau d'agent plus intelligentes sur Alipay.
1. (Xu Peng, vice-président de Ant Group, a présenté les capacités multimodales natives de Bailing Large Model)Sur le site de lancement, Xu Peng, vice-président du groupe Ant, a présenté davantage de scénarios d'application que la technologie multimodale récemment améliorée peut réaliser :
Le « Modèle médical multimodal Alipay » publié simultanément sur le forum est la pratique de cette exploration. Il est entendu que le modèle médical multimodal d'Alipay a ajouté des dizaines de milliards de graphiques et de textes en chinois et en anglais, des centaines de milliards de corpus de textes médicaux et des dizaines de millions de cartes de connaissances médicales de haute qualité comprenant des rapports, des images, des médicaments et autres. informations multimodales. , possède des connaissances médicales professionnelles et s'est classé premier sur la liste A et deuxième sur la liste B sur promptCBLUE, la liste d'évaluation médicale chinoise LLM.
Basé sur les capacités multimodales du grand modèle Bailing, SkySense, un modèle de télédétection développé conjointement par Ant Group et l'Université de Wuhan, a également annoncé un plan open source sur le forum. SkySense est actuellement le modèle de base de télédétection multimodale avec la plus grande échelle de paramètres, la couverture de tâches la plus complète et la plus grande précision de reconnaissance.
« De la compréhension sémantique d'un texte unique aux capacités multimodales, il s'agit d'une itération clé de la technologie de l'intelligence artificielle, et les scénarios d'application de « regarder, écouter, écrire et dessiner » engendrés par la technologie multimodale rendront les performances de l'IA plus performantes. réaliste, pour être plus proche des humains, Ant continuera à investir dans la recherche et le développement de technologies multimodales natives », a déclaré Xu Peng.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!