Maison Périphériques technologiques IA CVPR 2024 | L'IA peut également restaurer fortement la jupe volante lors de la danse. Nanyang Polytechnic propose un nouveau paradigme pour le rendu dynamique du corps humain.

CVPR 2024 | L'IA peut également restaurer fortement la jupe volante lors de la danse. Nanyang Polytechnic propose un nouveau paradigme pour le rendu dynamique du corps humain.

Apr 22, 2024 pm 02:37 PM
git 工程 Reconstruction dynamique du corps humain Université technologique de Nanyang

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.

Dans les activités quotidiennes, les mouvements des personnes provoquent souvent un mouvement secondaire des vêtements et produisent ainsi différents plis de vêtements, ce qui nécessite une compréhension de la géométrie et du mouvement du corps humain et des vêtements (posture humaine et dynamique de vitesse, etc. .) et l'apparence sont modélisées dynamiquement simultanément. Étant donné que ce processus implique des interactions physiques complexes et non rigides entre les personnes et les vêtements, la représentation tridimensionnelle traditionnelle est souvent difficile à gérer.

L'apprentissage du rendu humain numérique dynamique à partir de séquences vidéo a fait de grands progrès ces dernières années. Les méthodes existantes considèrent souvent le rendu comme une cartographie neuronale de la posture humaine à l'image, en utilisant le paradigme « encodeur de mouvement-caractéristiques de mouvement-apparence » décodeur. Ce paradigme est basé sur la perte d'image pour la supervision. Il se concentre trop sur la reconstruction de chaque image et manque de modélisation de la continuité du mouvement. Il est donc difficile de modéliser efficacement des mouvements complexes tels que « le mouvement du corps humain et celui lié aux vêtements ». ".

Pour résoudre ce problème, l'équipe S-Lab de l'Université technologique de Nanyang à Singapour a proposé un nouveau paradigme de reconstruction dynamique du corps humain avec apprentissage conjoint mouvement-apparence, et a proposé une représentation du mouvement à trois plans basée sur le surface du corps humain (triplan basé sur la surface), qui unifie la modélisation de la physique du mouvement et la modélisation de l'apparence dans un seul cadre, ouvrant ainsi la voie à de nouvelles idées pour améliorer la qualité du rendu dynamique du corps humain. Ce nouveau paradigme modélise efficacement le mouvement attaché aux vêtements et peut être utilisé pour apprendre la reconstruction dynamique du corps humain à partir de vidéos en mouvement rapide (comme la danse) et restituer les ombres liées au mouvement. L'efficacité du rendu est 9 fois plus rapide que la méthode de rendu voxel 3D et la qualité de l'image LPIPS est améliorée d'environ 19 points de pourcentage.

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

  • Titre de l'article : SurMo : Modélisation de mouvements 4D basée sur une surface pour le rendu humain dynamique
  • Adresse de l'article : https://arxiv.org/pdf/2404.01225.pdf
  • Page d'accueil du projet : https ://taohuumd.github.io/projects/SurMo
  • Lien Github : https://github.com/TaoHuUMD/SurMo
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
Aperçu de la méthode

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

Visant aux lacunes du paradigme existant "Motion Encoder-Motion Features-Appearance Decoder" qui se concentre uniquement sur la reconstruction de l'apparence et ignore la modélisation de la continuité du mouvement, un nouveau paradigme SurMo est proposé : "①Motion Encoder-Motion Features-②Motion Decoder, ③ apparence décodeur". Comme le montre la figure ci-dessus, le paradigme est divisé en trois étapes :

  • Différent des méthodes existantes qui modélisent le mouvement dans un espace tridimensionnel clairsemé, SurMo propose basé sur le champ multiple de la surface humaine (ou compact espace UV texturé bidimensionnel) modélisation du mouvement en quatre dimensions (XYZ-T), et représente le mouvement à travers un à trois plans (triplan basé sur la surface) défini sur la surface du corps humain.
  • Proposer un décodeur physique du mouvement pour prédire l'état de mouvement de l'image suivante en fonction des caractéristiques du mouvement actuel (telles que la posture tridimensionnelle, la vitesse, la trajectoire du mouvement, etc.), telles que la déviation spatiale du mouvement – ​​surface vecteur normal et déviation temporelle - vitesse, pour modéliser la continuité des caractéristiques de mouvement.
  • Décodage d'apparence en quatre dimensions, décodage temporel des caractéristiques de mouvement pour restituer une vidéo tridimensionnelle à point de vue libre, principalement mis en œuvre via un rendu neuronal hybride à texture de voxel (Hybrid Volumetric-Textural Rendering, HVTR [Hu et al. 2022]) .

SurMo peut apprendre le rendu humain dynamique à partir de vidéos basées sur la perte de reconstruction et la formation de bout en bout sur les pertes contradictoires.

Résultats expérimentaux

Cette étude a mené des évaluations expérimentales sur 3 ensembles de données avec un total de 9 séquences vidéo humaines dynamiques : ZJU-MoCap [Peng et al. 2021], AIST++ [Li, Yang et al. .

Nouveau rendu temporel du point de vue

Cette étude explore les performances du nouveau point de vue sur l'ensemble de données ZJU-MoCap. L'effet d'une séquence temporelle (apparitions variables dans le temps), notamment de 2 séquences, est étudié, comme le montre la figure ci-dessous. Chaque séquence contient des gestes similaires mais apparaissent dans des trajectoires de mouvement différentes, telles que ①②, ③④, ⑤⑥. SurMo peut modéliser des trajectoires de mouvement et donc générer des effets dynamiques qui évoluent dans le temps, tandis que les méthodes associées génèrent des résultats qui dépendent uniquement de la posture, les plis des vêtements étant presque les mêmes selon les différentes trajectoires.

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

Rendu des ombres liées au mouvement et des mouvements affiliés aux vêtements

SurMo a exploré les ombres liées au mouvement et les mouvements affiliés aux vêtements sur l'ensemble de données MPII-RRDC, comme le montre la figure ci-dessous. La séquence a été tournée sur une scène sonore intérieure et les conditions d'éclairage ont produit des ombres liées au mouvement sur les artistes en raison de problèmes d'auto-occlusion.

SurMo peut restaurer ces ombres, telles que ①②, ③④, ⑦⑧ sous un nouveau rendu de point de vue. La méthode de contraste HumanNeRF [Weng et al.] est incapable de récupérer les ombres liées au mouvement. De plus, SurMo peut reconstruire le mouvement des accessoires vestimentaires qui change avec la trajectoire du mouvement, comme différents plis lors des mouvements de saut ⑤⑥, tandis que HumanNeRF ne peut pas reconstruire cet effet dynamique.

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

Rendu de corps humains en mouvement rapide

SurMo restitue également les corps humains à partir de vidéos en mouvement rapide et récupère les détails des plis de vêtements liés au mouvement que les méthodes contrastées ne peuvent pas restituer.

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

Expérience d'ablation

(1) Modélisation du mouvement de la surface humaine

Cette étude a comparé deux méthodes de modélisation de mouvement différentes : la modélisation de mouvement actuellement couramment utilisée dans l'espace voxel (espace volumétrique). , ainsi que la modélisation du mouvement du champ collecteur de surface humaine (Surface manifold) proposée par SurMo, comparant spécifiquement le triplan volumétrique et le triplan basé sur la surface, comme le montre la figure ci-dessous.

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

On peut constater que le triplan volumétrique est une expression clairsemée, avec seulement environ 21 à 35 % des fonctionnalités utilisées pour le rendu, tandis que l'utilisation des fonctionnalités du triplan basé sur la surface peut atteindre 85 %, il présente donc plus d'avantages dans la gestion de l'auto-occlusion, comme comme ( d) montré. Dans le même temps, le triplan basé sur surface peut obtenir un rendu plus rapide en filtrant les points éloignés de la surface dans le rendu voxel, comme le montre la figure (c).

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

Dans le même temps, cette étude démontre que le triplan basé sur la surface peut converger plus rapidement que le triplan volumétrique pendant le processus d'entraînement et présente des avantages évidents en termes de détails de pliage des vêtements et d'auto-occlusion, comme le montre la figure ci-dessus.

(2) Apprentissage dynamique

SurMo a étudié l'effet de la modélisation du mouvement à travers des expériences d'ablation, comme le montre la figure ci-dessous. Les résultats montrent que SurMo peut découpler les caractéristiques statiques du mouvement (telles que la posture fixe à un certain cadre) et les caractéristiques dynamiques (telles que la vitesse). Par exemple, lorsque la vitesse change, les plis des vêtements près du corps restent inchangés, comme ①, tandis que les plis des vêtements amples sont fortement affectés par la vitesse, comme ②, ce qui est cohérent avec les observations quotidiennes.

CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment installer Deepseek Comment installer Deepseek Feb 19, 2025 pm 05:48 PM

Il existe de nombreuses façons d'installer Deepseek, notamment: Compiler à partir de Source (pour les développeurs expérimentés) en utilisant des packages précompilés (pour les utilisateurs de Windows) à l'aide de conteneurs Docker (pour le plus pratique, pas besoin de s'inquiéter de la compatibilité), quelle que soit la méthode que vous choisissez, veuillez lire Les documents officiels documentent soigneusement et les préparent pleinement à éviter des problèmes inutiles.

Nvidia joue avec l'élagage et la distillation : réduisant de moitié les paramètres de Llama 3.1 8B pour obtenir de meilleures performances avec la même taille Nvidia joue avec l'élagage et la distillation : réduisant de moitié les paramètres de Llama 3.1 8B pour obtenir de meilleures performances avec la même taille Aug 16, 2024 pm 04:42 PM

L’essor des petits modèles. Le mois dernier, Meta a publié la série de modèles Llama3.1, qui comprend le plus grand modèle Meta à ce jour, le modèle 405B, et deux modèles plus petits avec respectivement 70 milliards et 8 milliards de paramètres. Llama3.1 est considéré comme inaugurant une nouvelle ère de l'open source. Cependant, bien que les modèles de nouvelle génération soient puissants en termes de performances, ils nécessitent néanmoins une grande quantité de ressources informatiques lors de leur déploiement. Par conséquent, une autre tendance est apparue dans l’industrie, qui consiste à développer des petits modèles de langage (SLM) qui fonctionnent suffisamment bien dans de nombreuses tâches linguistiques et sont également très peu coûteux à déployer. Récemment, des recherches de NVIDIA ont montré qu'un élagage structuré combiné à une distillation des connaissances permet d'obtenir progressivement des modèles de langage plus petits à partir d'un modèle initialement plus grand. Lauréat du prix Turing, Meta Chief A

Résumé des FAQ pour une utilisation profonde Résumé des FAQ pour une utilisation profonde Feb 19, 2025 pm 03:45 PM

Deepseekai Tool User Guide et FAQ Deepseek est un puissant outil intelligent AI. FAQ: La différence entre les différentes méthodes d'accès: il n'y a pas de différence de fonction entre la version Web, la version de l'application et les appels API, et l'application n'est qu'un wrapper pour la version Web. Le déploiement local utilise un modèle de distillation, qui est légèrement inférieur à la version complète de Deepseek-R1, mais le modèle 32 bits a théoriquement une capacité de version complète de 90%. Qu'est-ce qu'une taverne? SillyTavern est une interface frontale qui nécessite d'appeler le modèle AI via l'API ou le olllama. Qu'est-ce que la limite de rupture

Des progrès ont été réalisés pour la première fois depuis des décennies, les apprentis Tao Zhexuan et Zhao Yufei ont surmonté des problèmes de mathématiques combinatoires Des progrès ont été réalisés pour la première fois depuis des décennies, les apprentis Tao Zhexuan et Zhao Yufei ont surmonté des problèmes de mathématiques combinatoires Aug 15, 2024 pm 05:04 PM

Récemment, des progrès ont été réalisés pour la première fois sur une énigme mathématique restée non résolue pendant des décennies. James Leng, étudiant diplômé à l'UCLA, Ashwin Sah, étudiant diplômé en mathématiques au MIT, et Mehtaab Sawhney, professeur adjoint à l'Université Columbia, sont à l'origine de ces progrès. Parmi eux, James Leng a étudié auprès du célèbre mathématicien Terence Tao et Ashwin Sah a étudié auprès du maître de mathématiques discret Zhao Yufei. Adresse de l'article : https://arxiv.org/pdf/2402.17995 Pour comprendre l'avancée réalisée dans cette recherche, nous devons commencer par les progressions arithmétiques. La somme des n premiers termes d’une suite arithmétique est appelée série arithmétique, également appelée série arithmétique. En 1936, le mathématicien Paul Erdő

Comment s'inscrire à LBank Exchange ? Comment s'inscrire à LBank Exchange ? Aug 21, 2024 pm 02:20 PM

Pour vous inscrire à LBank, visitez le site officiel et cliquez sur « S'inscrire ». Entrez votre e-mail et votre mot de passe et vérifiez votre e-mail. Téléchargez l'application LBank iOS : recherchez « LBank » dans l'AppStore. Téléchargez et installez l'application "LBank-DigitalAssetExchange". Android : recherchez « LBank » dans le Google Play Store. Téléchargez et installez l'application "LBank-DigitalAssetExchange".

Quels sont les outils d'IA ? Quels sont les outils d'IA ? Nov 29, 2024 am 11:11 AM

Les outils d'IA incluent : Doubao, ChatGPT, Gemini, BlenderBot, etc.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation d'Apple surpasse tout SOTA en quelques secondes Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation d'Apple surpasse tout SOTA en quelques secondes Aug 11, 2024 pm 04:02 PM

Depuis la sortie de Sora, le domaine de la génération vidéo IA est devenu plus « occupé ». Au cours des derniers mois, nous avons vu Jimeng, RunwayGen-3, LumaAI et Kuaishou Keling exploser à tour de rôle. Contrairement au passé où l’on pouvait dire en un coup d’œil que les modèles étaient générés par l’IA, ce lot de grands modèles vidéo est peut-être le « meilleur » que nous ayons jamais vu. Cependant, derrière les performances étonnantes du modèle vidéo en grand langage (LLM) se cache un ensemble de données vidéo énormes et finement annotées, ce qui nécessite un coût très élevé. Récemment, un certain nombre de méthodes innovantes sont apparues dans le domaine de la recherche qui ne nécessitent pas de formation supplémentaire : utiliser de grands modèles de langage d'images entraînés pour traiter directement les tâches vidéo, contournant ainsi le processus de formation « coûteux ». De plus, la plupart des LLM vidéo existants

L'échantillonnage spéculatif perdra-t-il la précision d'inférence des grands modèles de langage ? L'échantillonnage spéculatif perdra-t-il la précision d'inférence des grands modèles de langage ? Aug 09, 2024 pm 01:09 PM

Le concept prototype d'échantillonnage spéculatif a été proposé par MitchellStern et al. Cette approche a depuis été développée et affinée par divers travaux, notamment LookaheadDecoding, REST, Medusa et EAGLE, où l'échantillonnage spéculatif accélère considérablement le processus d'inférence des grands modèles de langage (LLM). Une question importante est la suivante : l’échantillonnage spéculatif en LLM nuit-il à la précision du modèle original ? Permettez-moi de commencer par la réponse : non. L'algorithme d'échantillonnage spéculatif standard est sans perte, et cet article le prouvera par le biais d'analyses mathématiques et d'expériences. Mathématiquement, la formule d'échantillonnage spéculatif peut être définie comme suit : où : ? est un nombre réel échantillonné à partir d'une distribution uniforme. est le prochain jeton à prédire. ?(?) est donné par le projet de modèle

See all articles