Ouvrez un humain numérique, plein d'IA générative.
Le soir du 23 septembre, lors de la cérémonie d'ouverture des Jeux asiatiques de Hangzhou, l'allumage de la torche principale a montré les « petites flammes » de centaines de millions de relayeurs numériques en ligne rassemblés sur la rivière Qiantang, formant l'image d’un humain numérique. Ensuite, le porteur de la flamme humaine numérique et le sixième porteur de la flamme sur place ont marché ensemble jusqu'à la scène de la torche et ont allumé ensemble la torche principale
Comme l'idée centrale de la cérémonie d'ouverture, le format d'éclairage de la torche numérique dans le monde réel a est devenu un sujet de recherche brûlant et a attiré l'attention des gens. Contenu réécrit : En tant qu'idée centrale de la cérémonie d'ouverture, la méthode d'allumage des flambeaux de l'Internet de réalité numérique a suscité des discussions animées et attiré l'attention des gens
L'éclairage des personnes numériques est une initiative sans précédent. Des centaines de millions de personnes y ont participé. , impliquant un grand nombre de personnes. Technologie avancée et complexe. L’une des questions les plus importantes est de savoir comment faire « bouger » les personnes numériques. On voit clairement qu'avec le développement rapide de l'intelligence artificielle générative et des modèles à grande échelle, de nouveaux changements sont apparus dans la recherche humaine numérique
Lors de la prochaine conférence mondiale sur la vision par ordinateur ICCV 2023 début octobre, nous avons prêté attention à un des recherches sur la génération de mouvements humains numériques en 3D ont été incluses dans la conférence. L'article connexe s'intitule « Génération hiérarchique d'interactions homme-objet avec des modèles probabilistes de diffusion » et a été publié conjointement par l'Université du Zhejiang et Ant Group.
Selon l'introduction, cette recherche résout dans une certaine mesure le problème des humains numériques synthétisant des mouvements complexes sur de longues distances, et peut obtenir des effets qui ne peuvent être obtenus avec des modèles originaux ou une planification de chemin. La technologie liée à la conduite humaine numérique a également été appliquée à la livraison en ligne de 100 millions d'êtres humains numériques lors des Jeux asiatiques
Pilote d'IA générative pour faire bouger les humains numériques
Souvent, nous devons synthétiser la 3D dans une 3D donnée scène Le mouvement humain permet aux humains virtuels de se déplacer naturellement autour d'une scène et d'interagir avec des objets, un effet qui a de nombreuses applications en AR/VR, en production cinématographique et en jeux vidéo.
Ici, les méthodes traditionnelles de génération de mouvements de contrôle de personnages visent à générer des mouvements à court terme ou répétitifs guidés par les signaux de contrôle de l'utilisateur, tandis que de nouvelles recherches se concentrent sur la génération de mouvements à plus long terme en fonction d'une position de départ et d'un modèle d'objet cible. contenu.
Bien que cette idée soit plus efficace, elle est évidemment plus stimulante. Premièrement, les interactions homme-objet doivent être cohérentes, ce qui nécessite la capacité de modéliser les interactions à longue portée entre les humains et les objets. Deuxièmement, dans le contexte de la génération de contenu, les modèles génératifs devraient être capables de synthétiser des mouvements de différentes tailles, car il existe de multiples façons pour des personnes réelles d'approcher et d'interagir avec des objets cibles.
En termes de méthodes de génération d'actions humaines numériques, les méthodes de synthèse existantes peuvent être grossièrement divisées en génération en ligne et génération hors ligne. La plupart des méthodes en ligne se concentrent sur le contrôle du personnage en temps réel. Étant donné un objet cible, ils utilisent généralement des modèles autorégressifs pour générer de manière cyclique un mouvement futur grâce à des prédictions de rétroaction. Bien que cette méthode ait été largement utilisée dans des scénarios interactifs tels que les jeux vidéo, sa qualité reste encore insatisfaisante pour une génération à long terme.
Afin d'améliorer la qualité du mouvement, certaines méthodes hors ligne récentes ont commencé à adopter des cadres multi-niveaux, générant d'abord des trajectoires puis synthétisant le mouvement. Bien que cette stratégie puisse produire des chemins raisonnables, la diversité des chemins est limitée
Dans cette nouvelle étude, les auteurs proposent une nouvelle méthode hors ligne pour synthétiser les relations diverses et à long terme entre les personnes et les objets. L'innovation de cette méthode réside dans la stratégie de génération hiérarchique. Tout d'abord, la stratégie prédit une série d'étapes puis génère des actions humaines entre ces étapes
Plus précisément, étant donné une position de départ et un objet cible, les auteurs ont conçu un module de génération de jalons pour synthétiser un ensemble de nœuds le long de la trajectoire du mouvement, chaque jalon codant la pose locale et indiquant le point de transition pendant le mouvement humain. Sur la base de ces jalons, l'algorithme utilise un module de génération de mouvement pour générer des séquences de mouvement complètes. Grâce à l'existence de ces jalons, nous pouvons simplifier la génération de séquences longues à la synthèse de plusieurs séquences de mouvements courtes.
La pose locale de chaque jalon est générée par un modèle de transformateur qui prend en compte les dépendances globales pour produire des résultats cohérents dans le temps, facilitant ainsi un mouvement cohérent.
En plus du cadre de génération hiérarchique, les chercheurs ont également utilisé des modèles de diffusion pour créer des objets humains synthétiques. interactions. Certains modèles de diffusion synthétique de mouvement précédents combinaient des transformateurs et des modèles probabilistes de diffusion de débruitage (DDPM).
Il convient de mentionner qu'en raison des longues séquences de mouvements, les appliquer directement à une nouvelle configuration nécessite de nombreux calculs et peut provoquer une explosion de la mémoire GPU. Étant donné que le nouveau cadre de génération hiérarchique convertit la génération à long terme en synthèse de plusieurs séquences courtes, la mémoire GPU requise est réduite au même niveau que la génération de mouvements à court terme.
Par conséquent, les chercheurs peuvent utiliser efficacement Transformer DDPM pour synthétiser des séquences de mouvement à long terme, améliorant ainsi la qualité de la génération
Pour atteindre cet objectif, les chercheurs ont conçu un cadre de génération hiérarchique, comme le montre la figure ci-dessous
Premièrement, Ils utilisent GoalNet pour prédire les objectifs d'interaction sur les objets, puis génèrent des poses cibles pour modéliser explicitement les interactions homme-objet. Ensuite, ils utilisent le module de génération de jalon pour estimer la longueur du jalon, générant ainsi la trajectoire du jalon depuis le point de départ jusqu'à la cible, et plaçant la pose du jalon
De cette façon, la génération de mouvement longue distance est décomposée en un combinaison de plusieurs générations de mouvements à courte distance. Enfin, les auteurs ont conçu un module de génération de mouvements pour synthétiser les trajectoires entre les jalons et remplir les actions.
Génération de poses d'intelligence artificielle (IA)
Les chercheurs appellent la posture cible la posture dans laquelle une personne interagit avec un objet et reste immobile. Auparavant, la plupart des méthodes utilisaient des modèles cVAE pour générer des poses humaines, mais les chercheurs ont constaté que cette méthode fonctionnait mal dans leurs propres études.
Pour relever ce défi, ils ont adopté le modèle VQ-VAE pour modéliser la distribution des données. Ce modèle utilise une représentation discrète pour regrouper les données en un ensemble limité de points. De plus, d’après les observations, différentes poses humaines peuvent avoir des propriétés similaires. Par exemple, lorsqu’une personne est assise, les mouvements des mains peuvent être différents, mais la position des jambes peut être la même. Par conséquent, ils ont divisé les articulations en L (L = 5) groupes différents qui ne se chevauchent pas
Comme le montre la figure 3, la pose cible est divisée en groupes d'articulations indépendants
Selon la pose de départ et la pose cible, Nous pouvons demander à l'algorithme de générer des trajectoires de jalons et de synthétiser des poses locales aux jalons. Puisque la longueur des données de mouvement est inconnue et peut être arbitraire (par exemple, une personne peut marcher rapidement jusqu'à la chaise et s'asseoir, ou elle peut marcher lentement autour de la chaise puis s'asseoir), il est nécessaire de prédire la longueur du jalon, représenté par N . Ensuite, N points de repère sont synthétisés et des poses locales sont placées sur ces points.
La dernière étape est la génération d'actions. La méthode utilisée par les chercheurs n'est pas de prédire les actions image par image, mais de synthétiser l'ensemble de la séquence hiérarchiquement en fonction des jalons générés. Ils génèrent d’abord des trajectoires puis synthétisent des actions. Plus précisément, en deux étapes consécutives, ils terminent le parcours en premier. Complétez ensuite le mouvement en vous guidant par des gestes jalons successifs. Ces deux étapes sont réalisées respectivement à l'aide de deux Transformer DDPM.
Les chercheurs concevront soigneusement les conditions du DDPM pour chaque étape afin de générer le résultat cible
Le contenu réécrit est : l'effet en avance sur les autres produits
Les chercheurs ont comparé les résultats de différentes méthodes sur l'ensemble de données SAMP. On peut voir que la méthode proposée dans l’article a un FD plus faible, un score de recherche utilisateur plus élevé et un APD plus élevé. De plus, leur méthode permet d’obtenir une diversité de trajectoires plus élevée que SAMP.
Cette nouvelle méthode peut produire des résultats satisfaisants dans des scènes complexes. Le pourcentage de frames de pénétration générés par cette méthode est de 3,8%, et celui de SAMP est de 4,9%
Sur SAMP, COUCH et d'autres ensembles de données, les méthodes mentionnées dans l'étude ont obtenu de meilleurs résultats que la méthode de base
Complétez la mise en page du lien complet
L'humain numérique est un complexe qui intègre des technologies multimodales telles que la voix, la sémantique et la vision. Alors que l'IA générative a récemment fait des percées, le domaine des humains numériques connaît un développement rapide. La modélisation, l'interaction générative, le rendu et d'autres liens qui nécessitaient auparavant un travail manuel sont désormais entièrement artificialisés. Alors que les ingénieurs continuent d'optimiser, cette expérience de. La technologie mobile s'améliore également. Le relais de la flamme des Jeux asiatiques en ligne qui vient de se terminer en est un bon exemple : si nous voulons devenir porteur de la flamme, il suffit de cliquer sur le mini-programme de l'application Alipay.
On dit que afin d'assurer le bon déroulement du projet de cérémonie d'ouverture, les ingénieurs d'Ant Group ont effectué plus de 100 000 tests sur des centaines de modèles différents de téléphones mobiles, écrit plus de 200 000 lignes de code et utilisé le logiciel développé par eux-mêmes. Moteur interactif Web3D Galacean, IA numérique, services cloud, blockchain et autres technologies combinés pour garantir que chacun puisse devenir porteur du flambeau numérique et participer au relais de la flamme. La plate-forme porte-flambeau numérique des Jeux asiatiques peut atteindre des centaines de millions d'utilisateurs et prend en charge 97 % des smartphones courants.
Afin de permettre aux porteurs du flambeau numérique de participer de manière réaliste, l’équipe technique d’Ant a développé 58 contrôleurs qui pincent le visage. En utilisant la reconnaissance faciale et des algorithmes d'IA, ils peuvent cartographier le visage d'un porteur du flambeau numérique en fonction des traits du visage de chaque personne. Dans le même temps, les utilisateurs peuvent également ajuster librement la forme du visage, la coiffure, le nez, la bouche, les sourcils et d'autres caractéristiques pour obtenir un habillage libre. Cette technologie peut fournir 2 000 milliards de choix d'images numériques différents
De plus, après la cérémonie d'éclairage de la cérémonie d'ouverture, chaque relayeur numérique peut recevoir un certificat d'allumage numérique exclusif, qui est peint avec l'image unique de chaque relayeur numérique, ce certificat sera stocké sur la blockchain grâce à la technologie distribuée.
Il n'est pas difficile de voir à partir du contenu du document de recherche et du projet des Jeux asiatiques qu'il existe un système technologique humain numérique complet derrière lui. Il est entendu qu'Ant Group explore activement la technologie humaine numérique et a achevé la conception d'auto-recherche de la technologie de base à liaison complète de l'humain numérique.
Contrairement à la plupart des entreprises du marché, Ant Group développe sa technologie humaine numérique en interne et choisit une direction de développement combinée à l'IA générative. En termes de déploiement technologique, il couvre l'ensemble du cycle de vie de la modélisation humaine numérique, du rendu, de la conduite et de l'interaction. La combinaison de l'AIGC et de grands modèles réduit considérablement le coût de production complet des humains numériques. Actuellement, il peut prendre en charge les personnes numériques 2D et 3D et fournit une variété de solutions telles que le type de diffusion et le type interactif.
En plus des Jeux asiatiques, la plate-forme Ant Digital People prend également en charge Alipay d'Ant Group, la finance numérique, les affaires gouvernementales, Wufu et d'autres entreprises, et cette année a commencé à être utilisée dans de courtes vidéos, des émissions en direct, des mini-programmes et d'autres supports. fournir des services de base aux partenaires.
On peut prédire que dans un avenir proche, à mesure que les humains numériques alimentés par l'IA générative continuent de se mettre à niveau, nous connaîtrons également de meilleures interactions dans davantage de scénarios et entrerons véritablement dans une vie intelligente intégrant les choses numériques et réelles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!