


Modèle de questions et réponses vidéo « Iterative Joint Certification » de Google et du MIT : performances SOTA, utilisant 80 % de puissance de calcul en moins
La vidéo est une source omniprésente de contenu médiatique qui touche de nombreux aspects de la vie quotidienne des gens. Un nombre croissant d'applications vidéo réelles, telles que le sous-titrage vidéo, l'analyse de contenu et la réponse aux questions vidéo (VideoQA), s'appuient sur des modèles capables de connecter le contenu vidéo au texte ou au langage naturel.
Parmi eux, le modèle de questions et réponses vidéo est particulièrement difficile car il doit saisir à la fois des informations sémantiques, telles que les cibles dans la scène, et des informations temporelles, telles que comment les choses bougent et interagissent. Les deux types d’informations doivent être placés dans le contexte d’une question en langage naturel avec une intention spécifique. De plus, étant donné que les vidéos comportent de nombreuses images, les traiter toutes pour apprendre des informations spatio-temporelles peut s'avérer prohibitif sur le plan informatique.
Lien papier : https://arxiv.org/pdf/2208.00934.pdf#🎜 🎜# Afin de résoudre ce problème, dans l'article « Réponse aux questions vidéo avec co-tokenisation itérative de texte vidéo », des chercheurs de Google et du MIT ont présenté une nouvelle méthode d'apprentissage de texte vidéo appelée. « co-étiquetage itératif », il peut fusionner efficacement des informations spatiales, temporelles et linguistiques pour le traitement de l'information dans les questions et réponses vidéo.
Cette méthode est multi-flux , utilisez des modèles de base indépendants pour traiter des vidéos de différentes échelles, produisant ainsi des représentations vidéo qui capturent différentes caractéristiques, telles qu'une résolution spatiale élevée ou des vidéos de longue durée. Le modèle applique le module « co-authentification » pour apprendre des représentations efficaces issues de la fusion de flux vidéo et de texte. Le modèle est très efficace sur le plan informatique, ne nécessitant que 67 GFLOP, ce qui est au moins 50 % inférieur à la méthode précédente, et offre de meilleures performances que les autres modèles SOTA.
Itération vidéo-texteL'objectif principal de ce modèle est de générer des fonctionnalités à partir de la vidéo et du texte (c'est-à-dire des questions des utilisateurs) qui permettent conjointement eux pour interagir avec l’entrée correspondante. Le deuxième objectif est de le faire de manière efficace, ce qui est très important pour les vidéos car elles contiennent des dizaines, voire des centaines d'images d'entrée.
Le modèle apprend à étiqueter l'entrée conjointe du langage vidéo en petits ensembles d'étiquettes pour représenter conjointement et efficacement les deux modalités. Lors de la tokenisation, les chercheurs utilisent les deux modes pour produire une représentation compacte commune, qui est introduite dans une couche de transformation pour produire la représentation de niveau suivant.
Un défi ici, qui est également un problème typique de l'apprentissage multimodal, est que les images vidéo ne correspondent souvent pas directement au texte associé. Les chercheurs ont résolu ce problème en ajoutant deux couches linéaires apprenables qui unifient les dimensions des caractéristiques visuelles et textuelles avant la tokenisation. Cela a permis aux chercheurs de déterminer à la fois la vidéo et le texte de la manière dont les balises vidéo ont été apprises.
De plus, une seule étape de tokenisation ne permet pas une interaction supplémentaire entre les deux modes. Pour ce faire, les chercheurs utilisent cette nouvelle représentation de fonctionnalités pour interagir avec les fonctionnalités d'entrée vidéo et produire un autre ensemble de fonctionnalités tokenisées, qui sont ensuite introduites dans la couche de transformateur suivante. Ce processus itératif crée de nouvelles caractéristiques ou marqueurs qui représentent l'amélioration continue de la représentation conjointe des deux modes. Enfin, ces fonctionnalités sont introduites dans un décodeur qui génère une sortie texte.
Conformément à la pratique de l'évaluation de la qualité vidéo, évaluation individuelle de la qualité vidéo données Avant d'affiner l'ensemble, les chercheurs ont pré-entraîné le modèle. Dans ce travail, les chercheurs ont automatiquement annoté les vidéos avec du texte basé sur la reconnaissance vocale, en utilisant l'ensemble de données HowTo100M au lieu d'une pré-formation sur le grand ensemble de données VideoQA. Ces données de pré-entraînement plus faibles ont néanmoins permis au modèle des chercheurs d'apprendre les fonctionnalités du texte vidéo.
Mise en œuvre d'une réponse vidéo efficace aux questionsLes chercheurs ont appliqué l'algorithme de co-authentification itérative du langage vidéo à trois principaux benchmarks VideoQA, MSRVTT-QA, MSVD-QA et IVQA, et démontrent que cette approche permet d'obtenir de meilleurs résultats que d'autres modèles de pointe sans rendre le modèle trop grand. De plus, l’apprentissage itératif co-labellisé nécessite également une puissance de calcul inférieure pour les tâches d’apprentissage vidéo-texte.
Ce modèle utilise uniquement une puissance de calcul de 67GFLOPS et est une vidéo 3D-ResNet modèle Un sixième de la puissance de calcul (360GFLOP) requise lors du traitement du texte et du texte, et plus de deux fois l'efficacité du modèle X3D. et génère des résultats très précis, dépassant les méthodes de pointe.
Entrée vidéo multi-flux
Pour VideoQA ou d'autres tâches impliquant une entrée vidéo, les chercheurs ont constaté que l'entrée multi-flux est plus précise pour Il est important de répondre aux questions sur la relation entre l’espace et le temps.
Les chercheurs ont utilisé trois flux vidéo avec des résolutions et des fréquences d'images différentes : un flux vidéo d'entrée basse résolution et à fréquence d'images élevée (32 images par seconde, spatial A résolution de 64 x 64 (notée 32 x 64 x 64) ; une vidéo haute résolution à faible fréquence d'images (8 x 224 x 224) et une vidéo intermédiaire (16 x 112 x 112).
Bien qu'il y ait évidemment plus d'informations à traiter avec trois flux de données, un modèle très efficace est obtenu grâce à la méthode de co-étiquetage itérative. Parallèlement, ces flux de données supplémentaires permettent d’extraire les informations les plus pertinentes.
Par exemple, comme le montre la figure ci-dessous, les questions liées à des activités spécifiques produiront des activations plus élevées dans les entrées vidéo avec des résolutions inférieures mais des fréquences d'images plus élevées, et les questions liées à les activités générales peuvent être répondues à partir d’entrées haute résolution avec très peu d’images. Un autre exemple de cet algorithme. La bonne nouvelle est que la tokenisation change en fonction de la question posée.
ConclusionLes chercheurs ont proposé une nouvelle méthode d'apprentissage des langues par vidéo qui se concentre sur l'apprentissage conjoint à travers les modalités vidéo-texte. Les chercheurs s’attaquent à la tâche importante et difficile de répondre aux questions par vidéo. L’approche des chercheurs est efficace et précise, surpassant les modèles de pointe actuels bien qu’elle soit plus efficace.
L'approche des chercheurs de Google repose sur une taille de modèle modeste et pourrait améliorer encore les performances avec des modèles et des données plus volumineux. Les chercheurs espèrent que ces travaux susciteront davantage de recherches sur l’apprentissage visuel du langage afin de permettre des interactions plus fluides avec les médias visuels.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
