Dans les domaines de la réalité virtuelle, de la réalité augmentée, des jeux et de l'interaction homme-machine, il est souvent nécessaire de permettre aux personnages virtuels d'interagir avec les joueurs en dehors de l'écran. Cette interaction est en temps réel, nécessitant que le personnage virtuel s'ajuste dynamiquement en fonction des mouvements de l'opérateur. Certaines interactions impliquent également des objets, comme déplacer une chaise avec un avatar, ce qui nécessite une attention particulière aux mouvements précis des mains de l'opérateur. L'émergence de personnages virtuels intelligents et interactifs améliorera considérablement l'expérience sociale entre les joueurs humains et les personnages virtuels et apportera une nouvelle façon de se divertir.
Dans cette étude, l'auteur se concentre sur les tâches d'interaction entre humains et humains virtuels, en particulier les tâches d'interaction impliquant des objets, et propose une nouvelle tâche appelée synthèse action-réponse en ligne du corps entier. La nouvelle tâche générera des réactions humaines virtuelles basées sur les mouvements humains. Les recherches antérieures se concentraient principalement sur les interactions interhumaines, sans prendre en compte les objets de la tâche, et les réactions corporelles générées n’incluaient pas les mouvements des mains. De plus, les travaux antérieurs ne traitaient pas les tâches comme un raisonnement en ligne. Dans des situations réelles, les humains virtuels prédisent la prochaine étape en fonction de la situation de mise en œuvre.
Pour prendre en charge la nouvelle tâche, l'auteur a d'abord construit deux ensembles de données, nommés respectivement HHI et CoChair, et a proposé une méthode unifiée. Plus précisément, les auteurs construisent d’abord une représentation de l’affordance sociale. Pour ce faire, ils sélectionnent un vecteur d'accessibilité sociale, apprennent un système de coordonnées local pour ce vecteur à l'aide d'un réseau neuronal équivariant SE (3), et enfin normalisent ses opportunités sociales. En outre, l'auteur propose également un système de prédiction de l'accessibilité sociale pour permettre aux humains virtuels de prendre des décisions basées sur des prédictions.
Les résultats de la recherche montrent que cette méthode peut générer efficacement des actions de réaction de haute qualité sur les ensembles de données HHI et CoChair, et peut atteindre une vitesse d'inférence en temps réel de 25 images par seconde sur un A100. En outre, les auteurs démontrent également l’efficacité de la méthode grâce à la vérification des ensembles de données existants sur les interactions humaines, Interhuman et Chi3D.
Veuillez vous référer à l'adresse papier suivante pour des informations plus détaillées : [https://arxiv.org/pdf/2312.08983.pdf]. J'espère que cela aidera les joueurs qui cherchent encore un moyen de résoudre le puzzle.
Veuillez visiter la page d'accueil du projet https://yunzeliu.github.io/iHuman/ pour plus d'informations sur les méthodes de résolution d'énigmes.
Dans cet article, l'auteur a construit deux ensembles de données pour prendre en charge la tâche de synthèse action-réponse en ligne du corps entier. L'un d'eux est l'ensemble de données HHI de l'interaction à deux personnes, et l'autre est l'ensemble de données CoChair de l'interaction à deux personnes avec des objets. Ces deux ensembles de données fournissent aux chercheurs des ressources précieuses pour explorer davantage le domaine de la synthèse du mouvement du corps entier. L'ensemble de données HHI enregistre diverses interactions entre deux personnes, tandis que l'ensemble de données CoChair enregistre les interactions entre deux personnes et objets. L'établissement de ces ensembles de données offre aux chercheurs davantage d'expériences
L'ensemble de données HHI est un ensemble de données de réponse à l'action du corps entier à grande échelle, comprenant 30 catégories d'interaction, 10 paires de types de squelette humain et un total de 5 000 an séquence interactive.
L'ensemble de données HHI présente trois caractéristiques. La première fonctionnalité est l’inclusion d’une interaction multi-corps sur tout le corps, y compris l’interaction du corps et des mains. L'auteur estime que dans les interactions à plusieurs personnes, l'interaction des mains ne peut être ignorée. Lors des poignées de main, des câlins et des transferts, de riches informations sont transmises par les mains. La deuxième caractéristique est que l’ensemble de données HHI peut distinguer clairement les initiateurs et les répondeurs comportementaux. Par exemple, dans des situations telles que se serrer la main, pointer dans la direction, saluer, passer le relais, etc., l'ensemble de données HHI peut identifier l'initiateur de l'action, ce qui aide les chercheurs à mieux définir et évaluer le problème. La troisième caractéristique est que l’ensemble de données HHI contient des types d’interactions et de réactions plus diversifiés, incluant non seulement 30 types d’interactions entre deux personnes, mais fournissant également de multiples réactions raisonnables au même acteur. Par exemple, lorsque quelqu'un vous salue, vous pouvez répondre par un signe de tête, d'une main ou des deux mains. Il s’agit également d’une caractéristique naturelle, mais les ensembles de données précédents y prêtaient rarement attention et en discutaient.
CoChair est un ensemble de données d'interaction multi-personnes et objets à grande échelle, qui comprend 8 chaises différentes, 5 modes d'interaction et 10 paires de squelettes différents, pour un total de 3000 séquences. CoChair présente deux caractéristiques importantes : Premièrement, CoChair présente une asymétrie d'information dans le processus de collaboration. Chaque action a un exécuteur/initiateur (qui connaît la destination du bagage à main) et un intervenant (qui ne connaît pas la destination). Deuxièmement, il dispose de différents modes de transport. L'ensemble de données comprend cinq modes de transport : transport fixe à une main, transport mobile à une main, transport fixe à deux mains, transport mobile à deux mains et transport flexible à deux mains.
Un porteur d'aide sociale fait référence à un objet ou à une personne qui code des informations sur l'aide sociale. Lorsque des humains interagissent avec des humains virtuels, les humains entrent généralement en contact avec les humains virtuels directement ou indirectement. Et lorsqu’il s’agit d’objets, les humains touchent généralement les objets.
Afin de simuler des informations de contact directs ou potentiels dans une interaction, un vecteur doit être sélectionné pour représenter simultanément l'être humain, le vecteur lui-même et la relation entre eux. Dans cette étude, le porteur fait référence à des objets ou à des modèles humains virtuels avec lesquels les humains peuvent entrer en contact.
Sur cette base, l'auteur définit une représentation de l'affordance sociale centrée sur les porteurs. Plus précisément, étant donné un vecteur, nous codons le comportement humain pour obtenir une représentation conjointe homme-véhicule dense. Sur la base de cette représentation, les auteurs proposent une représentation de l'affordance sociale qui contient les actions des actions humaines, les caractéristiques géométriques dynamiques du vecteur et la relation personne-véhicule à chaque pas de temps.
Il convient de noter que la représentation des moyens sociaux fait référence au flux de données depuis le moment de départ jusqu'à un pas de temps spécifique, plutôt qu'à la représentation d'une seule image. L’avantage de cette méthode est qu’elle associe étroitement les zones locales du porteur aux mouvements comportementaux humains, formant ainsi une représentation propice à l’apprentissage en réseau.
Grâce à la représentation des moyens sociaux, l'auteur adopte en outre la normalisation des moyens sociaux pour simplifier l'espace d'expression. La première étape consiste à apprendre le cadre local du vecteur. Grâce au réseau équivariant SE (3), le système de coordonnées local du porteur est appris. Plus précisément, les actions humaines sont d'abord converties en actions dans chaque système de coordonnées local. Ensuite, nous codons de manière dense les actions du personnage humain du point de vue de chaque point pour obtenir une représentation d’action dense centrée sur le vecteur. Cela peut être considéré comme liant un « observateur » à chaque point local du véhicule, chaque « observateur » codant les actions humaines du point de vue de la première personne. L'avantage de cette approche est que, tout en modélisant les informations générées par le contact entre les humains, les humains virtuels et les objets, la normalisation des moyens sociaux simplifie la distribution des moyens sociaux et facilite l'apprentissage en réseau.
Afin de prédire le comportement des humains interagissant avec des humains virtuels, l'auteur propose un module de prédiction d'affordance sociale. Dans des situations réelles, les humains virtuels ne peuvent qu’observer la dynamique historique du comportement humain. L’auteur estime que les humains virtuels devraient avoir la capacité de prédire le comportement humain afin de mieux planifier leurs propres actions. Par exemple, lorsque quelqu’un lève la main et vient vers vous, vous pourriez supposer qu’il est sur le point de vous serrer la main et qu’il est prêt à la recevoir.
Pendant la phase de formation, l'humain virtuel peut observer toutes les actions humaines. Pendant la phase de prédiction du monde réel, les humains virtuels ne peuvent qu’observer la dynamique passée du comportement humain. Le module de prédiction proposé peut prédire les actions que les humains entreprendront pour améliorer la perception des humains virtuels. Les auteurs utilisent un module de prédiction de mouvement pour prédire les actions des acteurs humains et les actions des objets. Dans l’interaction à deux, l’auteur a utilisé HumanMAC comme module de prédiction. Dans l'interaction à deux personnes-objet, l'auteur a construit un module de prédiction de mouvement basé sur InterDiff et a ajouté une condition préalable selon laquelle le contact personne-objet est stable pour simplifier la difficulté de prédire le mouvement de l'objet.
Les tests quantitatifs montrent que la méthode de recherche surpasse les méthodes existantes dans tous les paramètres. Pour vérifier l'efficacité de chaque conception de la méthode, les auteurs ont mené des expériences d'ablation sur l'ensemble de données HHI. On peut constater que les performances de cette méthode chutent considérablement sans normalisation des moyens sociaux. Cela suggère qu’il est nécessaire d’utiliser la normalisation des moyens sociaux pour simplifier la complexité de l’espace des fonctionnalités. Sans prédiction des moyens sociaux, notre méthode perd la capacité de prédire les actions des acteurs humains, ce qui entraîne une dégradation des performances. Afin de vérifier la nécessité d'utiliser le système de coordonnées local, l'auteur a également comparé l'effet de l'utilisation du système de coordonnées global, et on peut voir que le système de coordonnées local est nettement meilleur. Cela démontre également l’intérêt d’utiliser des systèmes de coordonnées locaux pour décrire la géométrie locale et les contacts potentiels.
Il ressort des résultats de visualisation que, par rapport au passé, les personnages virtuels formés à l'aide de la méthode décrite dans l'article réagissent plus rapidement et peuvent mieux capturer les gestes locaux, générant des images plus réalistes et interactives en collaboration. action saisissante.
Pour plus de détails sur la recherche, veuillez consulter l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!