Selon les informations du 4 mars, le chat Bing basé sur ChatGPT a permis à de nombreux utilisateurs de ressentir la puissance de l'IA, et Microsoft a récemment lancé une IA polyvalente plus puissante : Kosmos-1. ChatGPT est un LLM en texte brut, qui est un modèle de langage étendu multimodal (MLLM) plus puissant.
Kosmos-1 peut analyser le contenu des images, résoudre des énigmes visuelles, effectuer une reconnaissance visuelle de texte, réussir des tests de QI visuel, comprendre les commandes en langage naturel, et bien plus encore.
IT House a appris des rapports que Kosmos-1 peut traiter du texte, de l'audio, des images, des vidéos et d'autres contenus, créant ainsi une intelligence artificielle complète capable de gérer des tâches telles que la pensée humaine.
Les chercheurs ont écrit dans leur article académique : "En tant que composante fondamentale de l'intelligence, la perception multimodale est une condition nécessaire à la réalisation de l'intelligence artificielle." Des exemples visuels de l'article Kosmos-1 montrent le modèle analysant des images et répondant à des questions à leur sujet, lisant le texte des images, écrivant des légendes pour les images et effectuant un test de QI visuel avec une précision de 22 à 26 %.
Microsoft annonce son intention de mettre Kosmos-1 à la disposition des développeurs, bien que la page GitHub référencée par le journal ne contienne aucun code apparent spécifique à Kosmos au moment de la publication.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!