Stability AI, la société derrière Stable Diffusion, a lancé quelque chose de nouveau.
Cette période apporte de nouveaux progrès dans le domaine graphique 3D :
Stable Video 3D (SV3D) basé sur la diffusion vidéo stable peut générer des maillages 3D de haute qualité avec une seule image.
Stable Video Diffusion (SVD) est un modèle précédemment publié par Stability AI pour générer des vidéos haute résolution. L'avènement du SV3D marque la première fois que le modèle de diffusion vidéo est appliqué avec succès au domaine de la génération 3D.
A déclaré officiellement que sur cette base, SV3D a considérablement amélioré la qualité et la cohérence de la génération 3D.
Les poids des modèles sont toujours open source, mais ils ne peuvent être utilisés qu'à des fins non commerciales. Si vous souhaitez les utiliser à des fins commerciales, vous devez acheter un abonnement Stability AI~
Sans plus tarder, prenons. un regard sur les détails du document.
Présentation du modèle de diffusion vidéo latente, l'objectif principal de SV3D est d'utiliser la cohérence temporelle du modèle vidéo pour améliorer la cohérence de la génération 3D.
Et les données vidéo elles-mêmes sont également plus faciles à obtenir que les données 3D.
Stability AI propose cette fois deux versions de SV3D :
Les chercheurs ont également amélioré la technologie d'optimisation 3D : en utilisant une stratégie d'entraînement grossière à fine, en optimisant les maillages NeRF et DMTet pour générer des objets 3D.
Ils ont également conçu une fonction de perte spéciale appelée échantillonnage de distillation de score masqué (SDS) pour améliorer la qualité et la cohérence des modèles 3D générés en optimisant les zones qui ne sont pas directement visibles dans les données d'entraînement.
Dans le même temps, SV3D introduit un modèle d'éclairage basé sur une gaussienne sphérique pour séparer les effets d'éclairage et les textures, réduisant ainsi efficacement les problèmes d'éclairage intégrés tout en conservant la clarté des textures.
Spécifiquement en termes d'architecture, SV3D contient les composants clés suivants :
Les informations sur la trajectoire de mouvement de la caméra et les informations temporelles du bruit de diffusion seront entrées ensemble dans le module résiduel et converties en intégration de position sinusoïdale. Ensuite, ces informations d'intégration seront intégrées et transformées linéairement, et ajoutées au temps de bruit. intégration par étapes.
Une telle conception vise à améliorer la capacité du modèle à traiter les images en contrôlant finement les trajectoires de la caméra et l'entrée de bruit.
De plus, SV3D utilise CFG (guidage sans classificateur) pendant le processus de génération pour contrôler la netteté de la génération, en particulier lors de la génération des dernières images de la piste, la mise à l'échelle triangulaire CFG est utilisée pour éviter une netteté excessive .
Les chercheurs ont formé SV3D sur l'ensemble de données Objaverse, avec une résolution d'image de 575×576 et un champ de vision de 33,8 degrés. Le document révèle que les trois modèles (SV3D_u, SV3D_c, SV3D_p) ont été formés sur 4 nœuds pendant environ 6 jours, chaque nœud étant équipé de 8 GPU A100 de 80 Go.
En termes de nouvelle synthèse de perspective (NVS) et de reconstruction 3D, SV3D surpasse les autres méthodes existantes et atteint SOTA.
À en juger par les résultats de la comparaison qualitative, la vue multi-vue générée par SV3D a des détails plus riches et est plus proche de l'image d'entrée d'origine. En d’autres termes, SV3D peut capturer les détails avec plus de précision et maintenir la cohérence lors des changements d’angle de visualisation afin de comprendre et de reconstruire la structure 3D des objets.
De tels résultats ont suscité l'émotion de nombreux internautes :
Il est concevable que dans les 6 à 12 prochains mois, la technologie de génération 3D soit utilisée dans les jeux et les projets vidéo.
Il y a toujours des idées audacieuses dans la zone de commentaires...
Et le projet est open source La première vague d'amis y a déjà joué et peut l'exécuter sur 4090.
Lien de référence :
[1]https://twitter.com/StabilityAI/status/1769817136799855098.
[2]https://stability.ai/news/introducing-stable-video-3d.
[3]https://sv3d.github.io/index.html.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!