CVPR'24 Highlight | Un framework pour générer des mouvements de personnages, jusqu'aux mouvements des mains-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article, Jiang Nan, est doctorant en deuxième année à l'École d'intelligence de l'Université de Pékin, avec l'instructeur. Le professeur Zhu Yixin et le Dr Huang Siyuan de l'Institut d'intelligence artificielle générale de Pékin mènent conjointement des travaux de recherche. Ses recherches portent sur la compréhension de l'interaction homme-objet et la génération d'actions humaines numériques, et il a publié plusieurs articles lors de conférences de premier plan telles que ICCV, CVPR et ECCV.

Ces dernières années, la recherche sur la génération d'actions de personnages a fait des progrès significatifs et a reçu une large attention dans de nombreux domaines, tels que la vision par ordinateur, l'infographie, la robotique et l'interaction homme-machine. Cependant, la plupart des travaux existants se concentrent uniquement sur l’action elle-même, et les recherches utilisant à la fois les catégories de scène et d’action comme contraintes en sont encore à leurs balbutiements.

Afin de résoudre ce problème, l'Institut d'intelligence artificielle générale de Pékin et des chercheurs de l'Université de Pékin et de l'Institut de technologie de Pékin ont proposé un cadre de génération d'action utilisant le modèle de diffusion conditionnelle autorégressive pour atteindre le réalisme, la sémantique et les scénarios. génération d'action sans limite de longueur. En outre, l'article a publié l'ensemble de données d'interaction personnage-scène à grande échelle TRUMANS, qui contient des informations d'annotation précises et riches pour les actions des personnages et les scènes tridimensionnelles.

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

Lien papier : https://arxiv.org/pdf/2403.08629
Page d'accueil du projet : https://jnnan.github.io/trumans/
Lien code et données : https ://github.com/jnnan/trumans_utils

Aperçu de la recherche

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{Ensemble de données TRUMANS}

avec L'interaction des objets de la scène est une partie importante du quotidien des gens activités, comme s'asseoir sur une chaise, ramasser une bouteille ou ouvrir un tiroir. De nos jours, simuler les mouvements du corps humain est devenu une tâche importante dans les domaines de la vision par ordinateur, de l’infographie, de la robotique et de l’interaction homme-machine. L’objectif principal de la génération de mouvement humain est de créer des modèles dynamiques naturels, réalistes et diversifiés. L’essor de la technologie du deep learning a conduit au développement rapide de méthodes de génération d’actions humaines. Des avancées majeures dans la technologie de modélisation du corps humain ont également facilité la création d’une énorme base de données sur l’action humaine. Sur la base de ces développements, la technologie de génération d’actions humaines basée sur les données a reçu une attention croissante de la part de la communauté des chercheurs ces dernières années.

Actuellement, la plupart des méthodes de génération d'actions utilisent la sémantique comme variable de contrôle, et la recherche sur la génération d'actions sous des objets interactifs [1] et des scènes [2] donnés en est encore à ses balbutiements, principalement en raison du manque de connaissances de haut niveau. Ensemble de données d'action et d'interaction de scène du corps humain de qualité. Les ensembles de données de scènes réelles existants ne sont toujours pas à la hauteur en termes de qualité de capture du mouvement humain. Bien que les ensembles de données de capture de mouvement enregistrés avec des appareils tels que VICON puissent apporter des améliorations de qualité, ces ensembles de données manquent de la diversité des interactions homme-objet dans les scènes 3D. Récemment, des ensembles de données synthétiques utilisant la technologie de simulation virtuelle ont attiré l'attention des chercheurs en raison de leur faible coût et de leur grande adaptabilité.

Visant les lacunes des méthodes existantes, cet article propose un cadre de génération d'actions qui fusionne les informations de scène et sémantiques. Il est piloté par un modèle de diffusion autorégressif et peut générer des actions en fonction de catégories d'action et de points de cheminement conformes. aux contraintes de la scène. Afin d'obtenir des données d'action dans la scène, ce travail publie un nouvel ensemble de données d'interaction personnage-scène TRUMANS, qui contient 15 heures de données d'action capturées dans le monde réel et synthétisées en scènes virtuelles 3D, couvrant les chambres, les restaurants, les bureaux, etc. . 100 configurations de scènes. TRUMANS englobe une gamme complète de comportements quotidiens, notamment la recherche de chemin, la manipulation d'objets et l'interaction avec des objets rigides et articulés.

Cadre de génération d'action

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{Figure 2. Le cadre de génération d'actions proposé dans cet article utilise un mécanisme autorégressif pour utiliser la scène et la catégorie d'action comme conditions pour contrôler la génération d'actions.}

La méthode proposée dans cette étude utilise une approche autorégressive pour générer des actions pièce par pièce. L'action initiale au sein d'un segment provient de la fin du segment précédent et les actions ultérieures sont générées par le modèle de diffusion. Afin de rendre les actions générées conformes aux contraintes de la scène, l'auteur propose un perceptron de scène local basé sur la grille d'occupation de l'espace, qui code les caractéristiques de l'environnement vers la fin de chaque action et les intègre dans les conditions du modèle de génération d'action. . Afin d'incorporer des étiquettes d'action image par image en tant que conditions contrôlables, l'encodeur d'informations d'action intègre des informations temporelles dans des segments d'action, permettant au modèle d'accepter des instructions à tout moment et de générer un mouvement conforme aux étiquettes d'action données.

La méthode proposée dans cet article peut prendre en charge les contraintes de trajectoire et le contrôle précis de la position des articulations. Étant donné que la méthode présentée dans cet article adopte un mécanisme de génération autorégressif segment par segment, les contraintes de chemin et d'articulation peuvent être obtenues en définissant des sous-objectifs pour chaque segment de génération d'action. Pour le contrôle du mouvement de marche, chaque sous-objectif décrit la position prédéfinie du bassin du personnage sur le plan horizontal à la fin du segment actuel. Sur la base des informations de scène entre les positions de début et de fin du segment actuel, le modèle génère des mouvements de tout le corps, y compris des trajectoires de mouvement pelvien. Par exemple, lorsque la sous-cible est sur une chaise, le personnage doit s'asseoir. Pour les actions impliquant la saisie d’objets, la même technique est utilisée pour le contrôle de la position des mains. Par exemple, lors de la génération d'actions telles que saisir une bouteille ou pousser une porte, la position de l'articulation de la main est définie comme sous-cible et l'utilisateur définit la position souhaitée sur l'objet. Le modèle élimine le bruit sur les articulations et remplit le reste du mouvement humain. Un contact plus fin est obtenu en optimisant la position relative de la main par rapport à l'objet.

Le perceptron de scène locale est utilisé pour obtenir des informations sur la géométrie de la scène locale et les utiliser comme condition pour la génération de mouvement. Plus précisément, étant donné un scénario, une grille d'occupation globale est d'abord générée, et chaque cellule se voit attribuer une valeur booléenne indiquant si elle est accessible, 1 indiquant atteignable et 0 indiquant inaccessible. La grille d'occupation locale est une grille tridimensionnelle centrée sur la sous-cible de la section de boucle actuelle, allant verticalement de 0 à 1,8 mètres, orientée pour s'aligner avec la direction de lacet du bassin du personnage dans la première image. La valeur de la grille d'occupation locale est obtenue en interrogeant la grille d'occupation globale. Cet article propose l'utilisation de Vision Transformer (ViT) pour coder des grilles de voxels. Les jetons sont construits en divisant la grille d'occupation locale le long du plan xy, en traitant l'axe z comme un canal de fonctionnalités et en saisissant ces jetons dans le modèle ViT. La sortie de la scène codée en ViT est utilisée comme condition pour le modèle de génération d'action.

Différent des méthodes précédentes qui génèrent des séquences d'actions complètes basées sur une seule description d'action, cet article utilise des étiquettes d'action comme conditions image par image lors de la génération d'actions à long terme. Dans ce modèle, une action spécifique peut s'étendre au-delà d'une section du cycle et se poursuivre dans plusieurs sections du cycle. Par conséquent, le modèle doit comprendre la progression de l’exécution de l’action. Pour résoudre ce problème, cette étude introduit un identifiant de progression pour prendre en charge l'étiquetage des catégories d'action image par image. La méthode de mise en œuvre spécifique consiste à ajouter un nombre compris entre 0 et 1 qui augmente linéairement avec le temps pour chaque interaction complète sur la balise d'action multi-hot d'origine. De telles opérations permettent au modèle de gérer des actions s'étendant sur plusieurs sections de boucle et améliorent l'intégrité sémantique et la continuité des séquences d'actions générées.

Dataset

En termes de données, cet article publie un nouvel ensemble de données d'interaction personnage-scène TRUMANS, qui reproduit avec précision des scènes synthétiques 3D dans l'environnement physique, avec à la fois la qualité et l'échelle des données ; 15 heures de capture de mouvements humains sur de longues séquences, prenant en charge 100 scènes intérieures, y compris des chambres, des salons, des bureaux, etc. Bien que les scènes soient synthétiques, l'auteur veille à ce que les interactions entre les personnes et les objets restent naturelles et précises grâce à une restauration minutieuse de chaque scène synthétique. Les actions de TRUMANS couvrent le comportement humain quotidien, y compris la recherche de chemin, la saisie et l'interaction avec des objets rigides et articulés. Afin d'améliorer encore l'évolutivité des données, cet article applique une méthode d'amélioration des données basée sur les données existantes, de sorte que les objets de l'ensemble de données puissent changer leur position et leur taille dans une certaine plage, et que les actions du personnage soient automatiquement mises à jour pour correspondre aux changements. Figure 3. Ensemble de données de capture de mouvement TRUMANS的 Figure 4. Ajustez automatiquement l'action en fonction de la taille des objets changeants et élargissez efficacement l'échelle des données

Résultats expérimentaux

Vous trouverez ci-dessous le scénario d'application de la méthode de génération d'action proposé dans cet article.

(1) Sur la base des points clés du chemin donnés, cette méthode peut générer des actions de marche dans une variété de scènes, et les personnages ont un retour naturel sur les obstacles de la scène.

(2) La méthode décrite dans cet article convient à la saisie et à la génération d'actions interactives de petits objets portables. Par exemple, approchez-vous et saisissez une bouteille d’eau posée sur la table, et faites le geste de boire de l’eau. Pendant le processus de réalisation, les actions doivent être ajustées en fonction de la configuration de la scène.

(3) Sur la base de la trajectoire de mouvement de la main donnée, générez une action de tout le corps qui satisfait la trajectoire et n'entre pas en conflit avec les objets de la scène. Figure 5. Affichage de la diversité de la génération d'actions en utilisant en utilisant à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à travers à out à out

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{7. Génération d'action interactive de petits objets portables}

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

Afin de quantifier les performances de cette méthode, l'auteur a construit deux ensembles de systèmes d'évaluation selon que les objets interactifs sont mobiles ou non. Pour les objets interactifs statiques, les actions évaluées dans cet article incluent s'asseoir, s'allonger et marcher dans la scène. Les indicateurs d'évaluation se concentrent principalement sur la question de savoir si l'action traverse la scène et le pied glisse, ainsi que sur l'évaluation subjective par le sujet de la qualité de la génération. Pour les objets interactifs dynamiques, cet article se concentre sur le processus de saisie et les actions interactives ultérieures. L'indice d'évaluation quantifie si l'action est conforme à une catégorie donnée, la variété des actions, le degré d'usure du moule et l'évaluation subjective du sujet. De plus, l'étude compare la qualité de la génération d'actions obtenue par la formation avec TRUMANS et les ensembles de données PROX et GRAB existants. Les résultats expérimentaux confirment la supériorité de la méthode proposée dans cet article et l'amélioration globale de la qualité apportée par les données TRUMANS à la tâche de génération d'interactions personnage-scène.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!