À l'heure actuelle, bien que de grands progrès aient été réalisés dans la recherche sur l'estimation expressive de la pose et de la forme humaine (EHPS, Expressive Human Pose and Shape estimation), les méthodes les plus avancées sont encore limitées par les limites de l'ensemble de données d'entraînement
Récemment , des chercheurs du S-Lab de l'Université technologique de Nanyang, de SenseTime, du Laboratoire d'intelligence artificielle de Shanghai, de l'Université de Tokyo et de l'Institut de recherche IDEA ont proposé pour la première fois le modèle de capture de mouvement à grande échelle SMPLer-X pour les tâches d'estimation de la posture et de la taille du corps humain. L'étude a utilisé jusqu'à 4,5 millions d'instances provenant de différentes sources de données pour entraîner le modèle, obtenant ainsi les meilleures performances sur 7 listes clés.
SMPLer-X peut non seulement capturer les mouvements du corps, mais également générer des visages et des mouvements de main, et estimer les forme du corps
Lien papier : https://arxiv.org/abs/2309.17448
Page d'accueil du projet : https://caizhongang.github.io/projects/ SMPLer-X/
Avec des données riches et des modèles énormes, SMPLer-X a démontré de solides performances dans divers tests et classements, et possède une excellente polyvalence même dans des environnements inconnus
en termes d'expansion des données, les chercheurs ont mené une évaluation et une analyse complètes de 32 3D Ensembles de données sur le corps humain pour fournir une référence pour la formation du modèle
2 En termes de mise à l'échelle du modèle, un grand modèle visuel a été utilisé pour étudier l'impact de l'augmentation du nombre de paramètres du modèle sur l'effet amélioré
3. Le grand modèle général SMPLer-X peut être transformé en un grand modèle dédié grâce à des stratégies de réglage fin, lui permettant d'améliorer encore les performances.
En résumé, SMPLer-X a mené une exploration de la mise à l'échelle des données et de la modélisation (voir Figure 1) et s'est classé sur 32 ensembles de données académiques tout en effectuant sa formation de 4,5 millions d'instances, obtenant les meilleures performances sur 7 listes clés. y compris AGORA, UBody, EgoBody et EHF
Figure 1 L'augmentation de la quantité de données et des paramètres du modèle réduit la liste des clés (AGORA, UBody, EgoBody, 3DPW et EHF) sont tous efficaces en termes d'erreur principale moyenne ( MPE)
Réalisation d'une étude de généralisation sur des ensembles de données 3D existants sur le corps humain
Des chercheurs ont mené une étude de généralisation sur 32 universitaires. Les ensembles de données ont été classés : Pour mesurer les performances de chaque ensemble de données, un modèle a été formé à l'aide de cet ensemble de données. et le modèle a été évalué sur cinq ensembles de données d'évaluation : AGORA, UBody, EgoBody, 3DPW et EHF.
L'erreur primaire moyenne (MPE) est également calculée dans le tableau pour faciliter une comparaison simple entre différents ensembles de données.
Inspiration de l'étude de la généralisation des ensembles de données
En analysant un grand nombre d'ensembles de données (voir Figure 3), les quatre conclusions suivantes peuvent être tirées :
1. le volume de données d'un seul ensemble de données, un ensemble de données de l'ordre de 100 000 instances peut être utilisé pour la formation du modèle afin d'obtenir des performances de coût plus élevées
2 Concernant le scénario de collecte de l'ensemble de données, l'In-the ; -l'ensemble de données sauvages a le meilleur effet. Si les données ne peuvent être collectées qu'à l'intérieur, afin d'améliorer l'effet de l'entraînement, vous devez éviter d'utiliser les données d'une seule scène
Concernant la collecte d'ensembles de données, deux des trois principaux ensembles de données sont des ensembles de données générés. Ces dernières années, les ensembles de données générés ont montré de fortes performances
Concernant l'annotation des ensembles de données, les pseudo-étiquettes jouent également un rôle très important dans la formation
De nos jours les méthodes les plus avancées n'utilisent généralement que quelques ensembles de données (par exemple, MSCOCO, MPII et Human3.6M) pour la formation, tandis que cet article étudie l'utilisation de plus d'ensembles de données
Considérant que les ensembles de données de rang supérieur sont préférés, nous avons utilisé quatre tailles de données différentes : 5, 10, 20 et 32 ensembles de données comme ensembles d'entraînement, avec une taille totale de 750 000, 1,5 million, 3 millions et 4,5 millions d'instances.
De plus, les chercheurs ont également démontré des stratégies de réglage fin à faible coût pour adapter les grands modèles généraux à des scénarios spécifiques.
Le tableau ci-dessus montre certains des principaux tests, tels que l'ensemble de tests AGORA (Tableau 3), l'ensemble de vérification AGORA (Tableau 4), EHF (Tableau 5), UBody (Tableau 6) , EgoBody-EgoSet (Tableau 7).
En outre, les chercheurs ont également évalué la généralisation du grand modèle de capture de mouvement sur deux ensembles de tests, ARCTIC et DNA-Rendering
Les chercheurs espèrent que SMPLer-X pourra apporter des avantages au-delà de la conception d'algorithmes. Inspirer et fournir le communauté universitaire avec de puissants modèles de capture de mouvement humain sur tout le corps.
Le code et le modèle pré-entraîné ont été open source sur la page d'accueil du projet. Bienvenue sur https://caizhongang.github.io/projects/SMPLer-X/ pour plus de détails
.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!