Dans de nombreux domaines tels que l'AR, la VR, l'impression 3D, la construction de scènes et la production de films, des modèles 3D de haute qualité du corps humain portant des vêtements sont très importants.
Créer des modèles par des méthodes traditionnelles demande beaucoup de temps et ne peut être réalisé que par du matériel et des techniciens professionnels.
En revanche, dans la vie quotidienne, nous utilisons généralement les appareils photo des téléphones portables ou les portraits trouvés sur les pages Web.
Par conséquent, une méthode capable de reconstruire avec précision un modèle humain 3D à partir d'une seule image peut réduire considérablement les coûts et simplifier le processus de création indépendant.
Comparaison du parcours technique des méthodes précédentes (à gauche) et de cette méthode (à droite)
Les modèles de deep learning précédents utilisés pour la reconstruction 3D du corps humain nécessitent souvent trois étapes : extraire les caractéristiques 2D de l'image, Les caractéristiques 2D sont transférées dans l'espace 3D et les caractéristiques 3D sont utilisées pour la reconstruction du corps humain.
Cependant, ces méthodes ignorent souvent l'introduction des priorités du corps humain lors de l'étape de conversion des caractéristiques 2D en espace 3D, ce qui entraîne une extraction insuffisante des caractéristiques et divers défauts dans les résultats finaux de la reconstruction.
Comparaison de l'effet de reconstruction de SIFU et d'autres modèles SOTA
De plus, au stade de la prédiction de texture, les modèles précédents s'appuyaient uniquement sur les connaissances acquises dans l'ensemble d'entraînement et manquaient de connaissances préalables sur le le monde réel, ce qui aboutissait souvent à une prédiction de texture dans les zones invisibles, est médiocre.
SIFU introduit des connaissances préalables dans l'étape de prédiction de texture pour améliorer l'effet de texture des zones invisibles (dos, etc.).
À cet égard, des chercheurs du laboratoire ReLER de l'université du Zhejiang ont proposé le modèle SIFU, qui s'appuie sur la fonction implicite conditionnelle de la vue latérale pour reconstruire un modèle 3D du corps humain à partir d'une seule image.
Photos
Adresse papier : https://arxiv.org/abs/2312.06704
Adresse du projet : https://github.com/River-Zhang/SIFU
Ce modèle est adopté dans Les caractéristiques 2D sont converties en espace 3D et la vue latérale du corps humain est introduite comme condition a priori pour améliorer l'effet de reconstruction géométrique. Et un modèle de diffusion pré-entraîné est introduit dans la phase d'optimisation de la texture pour résoudre le problème de la mauvaise texture dans les zones invisibles.
Le pipeline du modèle est le suivant :
Images
L'opération du modèle peut être divisée en deux étapes. La première étape utilise la fonction implicite latérale pour reconstruire la géométrie (. mesh) du corps humain et de la texture grossière, la deuxième étape utilise le modèle de diffusion pré-entraîné pour affiner la texture.
Dans la première étape, l'auteur a conçu un transformateur de découplage de vue latérale unique. Après avoir extrait les caractéristiques 2D via l'encodeur global, la vue latérale du modèle antérieur SMPL-X du corps humain a été introduite comme requête dans le décodeur, ainsi. Les caractéristiques 3D du corps humain dans différentes directions (avant, arrière, gauche et droite) sont découplées des caractéristiques 2D de l'image et finalement utilisées pour la reconstruction.
Cette méthode combine avec succès les connaissances préalables du corps humain lors de la conversion de caractéristiques 2D en espace 3D, ce qui entraîne un meilleur effet de reconstruction du modèle.
Dans la deuxième étape, l'auteur propose un processus de raffinement de texture cohérent en 3D. Tout d'abord, les zones invisibles du corps humain (côtés, dos) peuvent être différenciées en un ensemble d'images avec des angles de vision continus, puis avec les angles de vue continus. L'aide d'un modèle de diffusion qui apprend des connaissances préalables à partir de données massives permet une édition cohérente d'images de texture grossière pour obtenir des résultats plus raffinés. Enfin, la carte de texture du modèle 3D est optimisée en calculant la perte des images avant et après raffinement.
Précision de reconstruction plus élevée
Dans la partie expérimentale, les auteurs testent leur modèle à l'aide d'un ensemble de tests très diversifié, notamment CAPE-NFP, CAPE-FP et THuman2.0, et le comparent à précédents modèles SOTA de reconstruction du corps humain à image unique publiés lors de grandes conférences. Après des tests quantitatifs, le modèle SIFU a montré les meilleurs résultats en matière de reconstruction géométrique et de reconstruction de texture.
Évaluer quantitativement la précision de la reconstruction géométrique
Évaluer quantitativement l'effet de reconstruction de texture
Utiliser des images publiques sur Internet comme entrée pour la démonstration de l'effet qualitatif
Lorsque les modèles précédents appliquent des données autres que l'ensemble d'apprentissage, parce que le modèle SMPL/SMPL-X antérieur estimé du corps humain n'est pas suffisamment précis, les résultats de la reconstruction sont souvent très différents des images d'entrée, ce qui rend difficile leur mise en application pratique.
À cet égard, l'auteur a spécifiquement testé la robustesse du modèle en ajoutant des perturbations aux paramètres du modèle antérieur de vérité terrain pour compenser la pose, l'auteur a simulé l'estimation SMPL-X inexacte dans des scènes réelles. précision de la reconstruction du modèle. Les résultats montrent que le modèle SIFU présente toujours la meilleure précision de reconstruction dans ce cas.
Évaluez la robustesse du modèle face à un modèle antérieur erroné du corps humain
En utilisant des images du monde réel, SIFU fonctionne toujours lorsque l'estimation du modèle antérieur du corps humain est inexacte Meilleur effet de reconstruction
L'effet de reconstruction de haute précision et de haute qualité du modèle SIFU le rend adapté à une variété de scénarios d'application, notamment l'impression 3D, la création de scènes, l'édition de textures, etc. Modèle de corps humain reconstruit SIFU imprimé en 3D
Avec l'aide des données de séquence d'action publique , vous pouvez Piloter le modèle reconstruit SIFU
RésuméCet article propose une fonction implicite conditionnelle de vue latérale et une méthode d'édition de texture cohérente en 3D, qui compense l'insuffisance des connaissances préalables introduites dans des travaux précédents lors de la conversion d'entités 2D en 3D. prédiction de l'espace et de la texture. Il améliore considérablement la précision et l'effet de la reconstruction du corps humain en une seule image, donnant au modèle des avantages significatifs dans les applications du monde réel, et fournit également de nouvelles idées pour les recherches futures dans ce domaine.Référence :
https://arxiv.org/abs/2312.06704
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!