Actuellement, Video Pose Transformer (VPT) a atteint les performances les plus importantes dans le domaine de l'estimation de pose humaine 3D basée sur la vidéo. Ces dernières années, la charge de travail informatique de ces VPT est devenue de plus en plus importante, et ces énormes charges de travail informatique ont également limité le développement ultérieur dans ce domaine. Il est très hostile aux chercheurs disposant de ressources informatiques insuffisantes. Par exemple, la formation d'un modèle VPT de 243 images prend généralement plusieurs jours, ce qui ralentit considérablement la progression de la recherche et devient un problème majeur dans le domaine qui doit être résolu de toute urgence.
Alors, comment améliorer efficacement l'efficacité du VPT sans presque perdre en précision ?
Une équipe de l'Université de Pékin a proposé un cadre efficace d'estimation de pose humaine 3D HoT basé sur le sablier Tokenizer pour résoudre le problème des exigences informatiques élevées du Video Pose Transformer (VPT) existant. Le framework peut être plug-and-play et intégré de manière transparente dans des modèles tels que MHFormer, MixSTE et MotionBERT, réduisant ainsi les calculs du modèle de près de 40 % sans perte de précision. Le code est open source.
Dans le modèle VPT, chaque image de la vidéo est généralement traitée en Un jeton de pose autonome qui atteint des performances supérieures en traitant des séquences vidéo d'une longueur de centaines d'images (généralement de 243 à 351 images) et conserve une représentation de séquence complète sur toutes les couches du Transformer. Cependant, étant donné que la complexité informatique du mécanisme d'auto-attention dans VPT est proportionnelle au carré du nombre de jetons (c'est-à-dire le nombre d'images vidéo), ces modèles entraînent inévitablement d'énormes inefficacités lors du traitement des entrées vidéo avec une résolution de série temporelle plus élevée. La surcharge de calcul rend difficile leur déploiement à grande échelle dans des applications pratiques avec des ressources informatiques limitées. De plus, cette façon de traiter la séquence entière ne prend pas en compte la redondance au sein de la séquence vidéo, notamment la redondance entre des images consécutives où les changements visuels ne sont pas évidents, de sorte que la duplication de ces informations non seulement ajoute une charge de calcul inutile, mais dans une large mesure, n’apporte pas une contribution substantielle à l’amélioration des performances du modèle.
Par conséquent, afin d'obtenir un VPT efficace, cet article estime que deux facteurs doivent être pris en compte en premier :
Sur la base de ces deux observations, l'auteur propose d'élaguer le Pose Token du deep Transformer pour réduire la redondance des images vidéo tout en améliorant l'efficacité globale du VPT. Cependant, cela soulève un nouveau défi : l'opération d'élagage entraîne une réduction du nombre de jetons. À l'heure actuelle, le modèle ne peut pas estimer directement le nombre de résultats d'estimation de pose tridimensionnelle qui correspondent à la séquence vidéo originale. En effet, dans le modèle VPT traditionnel, chaque jeton correspond généralement à une image de la vidéo, et la séquence restante après l'élagage ne sera pas suffisante pour couvrir toutes les images de la vidéo originale. Cela pose problème lors de l'estimation du volume tridimensionnel. la pose humaine de toutes les images de la vidéo devient un obstacle important. Par conséquent, afin d’obtenir un VPT efficace, un autre facteur important doit être pris en considération :
Sur la base des trois considérations ci-dessus, l'auteur propose un cadre d'estimation de pose humaine tridimensionnelle efficace basé sur la structure du sablier, ⏳ Hourglass Tokenizer (HoT). De manière générale, cette méthode présente deux points forts majeurs :
HoT est la première estimation efficace de pose humaine 3D basée sur Transformer A plug- cadre de jeu et de jeu. Comme le montre la figure ci-dessous, le VPT traditionnel adopte un paradigme « rectangulaire », c'est-à-dire qu'il conserve toute la longueur du Pose Token dans toutes les couches du modèle, ce qui entraîne des coûts de calcul élevés et une redondance des fonctionnalités. Différent du VPT traditionnel, HoT élague d'abord pour supprimer les jetons redondants, puis restaure toute la séquence de jetons (ressemblant à un "sablier"), de sorte que seule une petite quantité de jetons soit conservée dans la couche intermédiaire du transformateur, ce qui est ainsi efficace. améliorer l’efficacité du modèle. HoT fait également preuve d'une polyvalence extrêmement élevée. Non seulement il peut être intégré de manière transparente aux modèles VPT conventionnels, qu'il s'agisse de VPT basés sur seq2seq ou seq2frame, mais il peut également être adapté à diverses stratégies d'élagage et de récupération de jetons.
HoT a révélé que le maintien de la séquence de poses complète est redondant et que l'utilisation d'un petit nombre d'images représentatives de Pose Token peut simultanément atteindre des niveaux élevés. Efficacité et haute performance. Par rapport au modèle VPT traditionnel, HoT améliore non seulement considérablement l'efficacité du traitement, mais permet également d'obtenir des résultats très compétitifs, voire meilleurs. Par exemple, il peut réduire les FLOP de MotionBERT de près de 50 % sans sacrifier les performances, tout en réduisant les FLOP de MixSTE de près de 40 % avec seulement une légère baisse de performances de 0,2 %. Le cadre global de HoT proposé par
est présenté dans la figure ci-dessous. Afin d'effectuer plus efficacement l'élagage et la récupération des jetons, cet article propose deux modules : Token Pruning Cluster (TPC) et Token Recovering Attention (TRA). Parmi eux, le module TPC sélectionne dynamiquement un petit nombre de jetons représentatifs avec une grande diversité sémantique tout en atténuant la redondance des images vidéo. Le module TRA récupère des informations spatio-temporelles détaillées sur la base de jetons sélectionnés, étendant ainsi la sortie du réseau à la résolution temporelle complète d'origine pour une inférence rapide.
Module d'élagage et de regroupement de jetons
Cet article estime qu'il est difficile de sélectionner un petit nombre de jetons de pose avec des informations riches pour une estimation précise de la pose humaine en trois dimensions.
Afin de résoudre ce problème, cet article estime que la clé est de sélectionner ces jetons représentatifs avec une grande diversité sémantique, car ces jetons peuvent conserver les informations nécessaires tout en réduisant la redondance vidéo. Basé sur ce concept, cet article propose un module Token Pruning Cluster (TPC) simple et efficace qui ne nécessite aucun paramètre supplémentaire. Le cœur de ce module est d'identifier et de supprimer les jetons qui contribuent peu sémantiquement, et de se concentrer sur les jetons qui peuvent fournir des informations clés pour l'estimation finale de la pose humaine en trois dimensions. En utilisant un algorithme de clustering, TPC sélectionne dynamiquement le centre du cluster comme jeton représentatif, utilisant ainsi les caractéristiques du centre du cluster pour conserver la riche sémantique des données d'origine. La structure de
TPC est illustrée dans la figure ci-dessous. Il regroupe d'abord le jeton de pose d'entrée dans la dimension spatiale, puis utilise la similarité des caractéristiques du jeton regroupé pour regrouper le jeton d'entrée et sélectionner le centre du cluster. jeton représentatif.
Module d'attention de restauration de jeton
Le module TPC réduit efficacement le nombre de jetons de pose. Cependant, la diminution de la résolution temporelle provoquée par l'opération d'élagage limite le VPT pour une inférence seq2seq rapide. Par conséquent, le jeton doit être restauré. Dans le même temps, compte tenu des facteurs d'efficacité, le module de récupération doit être conçu pour être léger afin de minimiser l'impact sur le coût de calcul global du modèle.
Afin de résoudre les défis ci-dessus, cet article conçoit un module léger de récupération d'attention (TRA) de jeton, qui peut récupérer des informations spatio-temporelles détaillées en fonction du jeton sélectionné. De cette manière, la faible résolution temporelle provoquée par l'opération d'élagage est efficacement étendue à la résolution temporelle de la séquence complète d'origine, permettant au réseau d'estimer la séquence de poses humaines tridimensionnelles de toutes les images à la fois, obtenant ainsi un raisonnement seq2seq rapide. La structure du module
TRA est illustrée dans la figure ci-dessous. Il utilise les jetons représentatifs de la dernière couche de Transformer et les jetons apprenables initialisés à zéro pour récupérer la séquence complète de jetons via un simple mécanisme d'attention croisée.
Appliquée au VPT existant
Avant d'expliquer comment appliquer la méthode proposée au VPT existant, cet article résume d'abord l'architecture VPT existante. Comme le montre la figure ci-dessous, l'architecture VPT se compose principalement de trois composants : un module d'intégration de pose pour coder les informations spatiales et temporelles de la séquence de pose, un transformateur multicouche pour l'apprentissage de la représentation spatio-temporelle globale et un module de tête de régression pour la régression. produire des résultats de posture humaine 3D.
Selon le nombre de trames de sortie, le VPT existant peut être divisé en deux processus d'inférence : seq2frame et seq2seq. Dans le pipeline seq2seq, la sortie correspond à toutes les images de la vidéo d'entrée, la résolution temporelle complète d'origine doit donc être restaurée. Comme le montre le diagramme du cadre HoT, les modules TPC et TRA sont intégrés dans VPT. Dans le processus seq2frame, le résultat est la pose 3D de l'image centrale de la vidéo. Par conséquent, dans ce processus, le module TRA est inutile et seul le module TPC est intégré dans le VPT. Son cadre est présenté dans la figure ci-dessous.
Expérience d'ablation
Dans le tableau ci-dessous, cet article donne une comparaison sous les processus d'inférence seq2seq (*) et seq2frame (†). Les résultats montrent qu'en appliquant la méthode proposée au VPT existant, cette méthode peut réduire considérablement les FLOP et améliorer considérablement les FPS tout en gardant le nombre de paramètres du modèle presque inchangé. De plus, par rapport au modèle original, la méthode proposée est fondamentalement la même en termes de performances ou peut obtenir de meilleures performances.
Cet article compare également différentes stratégies d'élagage de jetons, y compris l'élagage du score d'attention, l'échantillonnage uniforme et une stratégie d'élagage de mouvement qui sélectionne les k premiers jetons avec des quantités de mouvement plus importantes. On peut voir que le TPC proposé obtient pour. La meilleure performance.
Cet article compare également différentes stratégies de récupération de jetons, y compris l'interpolation du voisin le plus proche et l'interpolation linéaire. On peut voir que le TRA proposé atteint les meilleures performances.
Comparaison avec les méthodes SOTA
Actuellement, sur l'ensemble de données Human3.6M, les principales méthodes d'estimation de pose humaine 3D utilisent toutes des architectures basées sur Transformer. Afin de vérifier l'efficacité de cette méthode, les auteurs l'appliquent à trois derniers modèles VPT : MHForme, MixSTE et MotionBERT, et comparent avec eux en termes de quantités de paramètres, FLOP et MPJPE.
Comme le montre le tableau ci-dessous, cette méthode réduit considérablement la quantité de calcul du modèle SOTA VPT tout en conservant la précision d'origine. Ces résultats vérifient non seulement l'efficacité et la haute efficience de cette méthode, mais révèlent également qu'il existe des redondances informatiques dans les modèles VPT existants, et que ces redondances contribuent peu aux performances d'estimation finale, et peuvent même conduire à une dégradation des performances. De plus, cette méthode peut éliminer ces calculs inutiles tout en obtenant des performances très compétitives, voire meilleures.
L'auteur propose également une exécution de démonstration (https://github.com/NationalGAILab/HoT), qui intègre le détecteur humain YOLOv3, le détecteur d'attitude bidimensionnelle HRNet, HoT w . Optimiseur de pose MixSTE 2D à 3D. Téléchargez simplement le modèle pré-entraîné fourni par l'auteur, saisissez une courte vidéo contenant des personnes et vous pourrez directement produire une démo d'estimation de pose humaine 3D avec une seule ligne de code.
python demo/vis.py --video sample_video.mp4
Résultats obtenus en exécutant l'exemple de vidéo :
Cet article propose le Hourglass Tokenizer (Hourglass Tokenizer) pour résoudre le problème du coût de calcul élevé de la pose vidéo existante Transforme (VPT), HoT), qui est un cadre d'élagage et de restauration de jetons plug-and-play pour une estimation efficace de la pose humaine 3D basée sur Transformer à partir de vidéos. L'étude a révélé qu'il n'est pas nécessaire de conserver des séquences de poses complètes dans VPT et que l'utilisation d'un petit nombre d'images représentatives de jetons de pose peut atteindre à la fois une précision et une efficacité élevées. Un grand nombre d’expériences ont vérifié la haute compatibilité et la large applicabilité de cette méthode. Il peut être facilement intégré à divers modèles VPT courants, qu'il s'agisse de VPT basés sur seq2seq ou seq2frame, et peut s'adapter efficacement à une variété de stratégies d'élagage et de récupération de jetons, démontrant ainsi son grand potentiel. Les auteurs s’attendent à ce que HoT stimule le développement de VPT plus puissants et plus rapides.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!