Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos-IA-php.cn

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2023-11-17 23:39:01

avant

1185 Les gens l'ont consulté

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Le 16 novembre, Google a récemment publié un communiqué de presse présentant Mirasol, un petit modèle d'intelligence artificielle capable de répondre aux questions sur les vidéos et d'établir de nouveaux records.

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Il est actuellement difficile pour les modèles d'IA de gérer différents flux de données. Si vous souhaitez que l'IA comprenne la vidéo, vous devez intégrer des informations provenant de différentes modalités telles que la vidéo, l'audio et le texte, ce qui augmente considérablement la difficulté.

Des chercheurs de Google et de Google Deepmind ont proposé de nouvelles méthodes pour étendre la compréhension multimodale au domaine des vidéos longues.

Avec le modèle Mirasol AI, l'équipe a travaillé pour résoudre deux défis clés :

La vidéo et l'audio génèrent une grande quantité de données, ce qui peut mettre à rude épreuve la capacité du modèle.

À Mirasol, Google a adopté le modèle de combineur et de convertisseur autorégressif

Ce composant de modèle traitera les signaux vidéo et audio synchronisés dans le temps, puis divisera la vidéo en segments indépendants

Le convertisseur traite chaque fragment et apprend les connexions entre chaque fragment utilise ensuite un autre transformateur pour traiter le texte contextuel, les deux composants échangeant des informations sur leurs entrées respectives.

Un nouveau module de transformation appelé Combiner est capable d'extraire une représentation commune de chaque fragment et de compresser les données grâce à une réduction de dimensionnalité. Chaque clip contient 4 à 64 images, et le modèle dispose actuellement de 3 milliards de paramètres et peut gérer des vidéos de 128 à 512 images

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Lors des tests, Mirasol3B a atteint une nouvelle référence en matière d'analyse de problèmes vidéo, avec un volume nettement plus petit et peut gérer des vidéos plus longues. En utilisant une variante de combinateur avec mémoire, l'équipe a pu réduire encore la puissance de calcul requise de 18%

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos