Actuellement, l'intelligence artificielle se développe rapidement dans le domaine de l'intelligence humaine. En vision par ordinateur, la technologie de génération d’images et de vidéos est devenue de plus en plus mature et des modèles tels que Midjourney et Stable Video Diffusion sont largement utilisés. Cependant, les modèles génératifs dans le domaine de la vision 3D sont encore confrontés à des défis.
La technologie actuelle de génération de modèles 3D est généralement basée sur la génération et la reconstruction de vidéos multi-angles, telles que le modèle SV3D, qui construit progressivement la 3D en générant des vidéos multi-angles et en combinant des champs de rayonnement neuronal (NeRF) ou des modèles lisses gaussiens 3D ( (technologie 3D Gaussian Splatting). Cette méthode se limite principalement à générer des objets tridimensionnels simples et non auto-occlus, et ne peut pas présenter la structure interne de l'objet, ce qui rend l'ensemble du processus de génération complexe et imparfait, montrant la complexité et les limites de cette technologie.
La raison en est qu'il existe actuellement un manque de représentation 3D flexible, efficace et facile à généraliser (représentation 3D).
Figure 1. Représentation 3D sérialisée aux rayons X
Université nationale de Singapour (NUS), le Dr Hu Run a dirigé une équipe de recherche pour publier une nouvelle représentation 3D aux rayons X, qui peut être séquencée Il peut exprimer avec précision la forme et la texture de la surface des objets vus du point de vue de la caméra. Il peut utiliser pleinement la fonction de génération vidéo pour générer des avantages de modèle afin de générer des objets 3D. Il peut également générer les structures 3D internes et externes du. objet en même temps.
Cet article démontrera en détail les principes, les avantages et les larges perspectives d'application de la technologie des rayons X.
Figure 2. Comparaison avec les méthodes de génération de modèles 3D basées sur le rendu.
Dans chaque direction de rayon, les données d'attributs tridimensionnels L, notamment la profondeur, le vecteur normal, la couleur, etc., sont enregistrées une par une au point d'intersection avec la surface de l'objet, puis ces données sont organisées sous la forme L×H×W. pour réaliser la création de tout modèle 3D, représentation Tensorielle, c'est la méthode de représentation X-Ray proposée par l'équipe.
Il est à noter que la représentation est la même que le format vidéo, le modèle génératif vidéo peut donc être utilisé pour créer des modèles génératifs 3D. Le processus spécifique est le suivant.
Figure 3. Échantillons de rayons X avec différentes couches.
1. Processus d'encodage : convertir le modèle 3D en ) pour enregistrer les propriétés
de toutes les surfaces que chaque rayon de caméra croise avec l'objet, y compris la profondeur, le vecteur normal , la couleur , etc. de la surface Pour faciliter l'indication, ceci est représenté par Si une surface existe à l'emplacement. Ensuite, en obtenant tous les rayons de la caméra et autres points de surface d'intersection, une expression 3D complète aux rayons X peut être obtenue, comme le montrent l'expression suivante et la figure 3.
Convertissez un modèle 3D arbitraire en rayons X via le processus d'encodage. C'est le même que le format vidéo et a un nombre d'images différent. Normalement, le nombre d'images L=8 est suffisant pour représenter un objet 3D. 2. Processus de décodage : rayons X en modèle 3D Étant donné un rayon X, il peut également être reconverti en modèle 3D via le processus de décodage, de sorte que la 3D ne puisse être générée que par générer un modèle à rayons X. Le processus spécifique comprend deux processus : le processus de génération de nuages de points et le processus de reconstruction de la surface du nuage de points. où r_0 et r_d sont respectivement le point de départ et la direction normalisée du rayon de la caméra. En traitant chaque rayon de la caméra, un nuage de points complet peut être obtenu. Pour générer divers modèles de rayons X 3D haute résolution, l'équipe a utilisé une architecture de modèle de diffusion vidéo similaire aux formats vidéo. Cette architecture peut traiter des informations 3D continues et améliorer la qualité des rayons X grâce à des modules de suréchantillonnage pour générer une sortie 3D de haute précision. Le modèle de diffusion est chargé de générer progressivement des images 3D détaillées à partir de données bruitées, tandis que le module de suréchantillonnage améliore la résolution et les détails de l'image pour répondre à des normes de qualité élevées. La structure spécifique est illustrée à la figure 4. Le modèle de diffusion utilise l'espace latent dans la génération de rayons X et nécessite généralement le développement personnalisé d'un auto-encodeur variationnel de quantification vectorielle (VQ-VAE) [3] pour la compression des données. Ce processus Le manque de modèles prêts à l'emploi accroît la charge de formation. Pour entraîner efficacement le générateur haute résolution, l'équipe a adopté une stratégie de synthèse en cascade pour s'entraîner progressivement de la basse à la haute résolution grâce à des technologies telles que Imagen et Stable Cascaded afin de s'adapter aux ressources informatiques limitées et d'améliorer la qualité des images radiologiques. Plus précisément, utilisez l'architecture 3D U-Net dans Stable Video Diffusion comme modèle de diffusion pour générer des rayons X basse résolution et extraire des caractéristiques d'images 2D et de séries temporelles 1D via un mécanisme d'attention spatio-temporelle, améliorer le traitement et expliquer Capacités de rayons X, essentielles pour des résultats de haute qualité. Le modèle de diffusion de l'étape précédente ne peut générer que des images radiographiques basse résolution à partir de texte ou d'autres images. Dans les étapes suivantes, l’accent sera mis sur la mise à niveau de ces rayons X basse résolution vers des résolutions plus élevées. L'équipe a exploré deux méthodes principales : le suréchantillonnage de nuages de points et le suréchantillonnage vidéo. Puisqu'une représentation approximative de la forme et de l'apparence est déjà obtenue, l'encodage de ces données dans un nuage de points avec des couleurs et des normales est un processus simple. Cependant, la structure de représentation des nuages de points est trop lâche et ne convient pas à la prédiction dense. Les techniques traditionnelles de suréchantillonnage des nuages de points augmentent généralement simplement le nombre de points, ce qui peut ne pas être assez efficace pour améliorer des attributs tels que la texture et la couleur. Pour simplifier le processus et garantir la cohérence tout au long du pipeline, nous avons choisi d'utiliser un modèle de suréchantillonnage vidéo. Ce modèle est adapté du décodeur spatio-temporel VAE de Stable Video Diffusion (SVD) et est spécialement formé à partir de zéro pour suréchantillonner les images de rayons X synthétisées d'un facteur 4x tout en conservant le nombre de couches d'origine. Le décodeur est capable d'effectuer des opérations d'attention indépendamment au niveau de la trame et aux niveaux hiérarchiques. Ce mécanisme d’attention à double couche améliore non seulement la résolution, mais améliore également considérablement la qualité globale de l’image. Ces fonctionnalités font du modèle de suréchantillonnage vidéo une solution plus coordonnée et plus efficace pour la génération de rayons X haute résolution. Figure 4 : Cadre de génération de modèles 3D basé sur la représentation des rayons X, y compris le modèle de diffusion des rayons X et le modèle de suréchantillonnage des rayons X. 1. Ensemble de données : L'expérience a utilisé un sous-ensemble filtré de l'ensemble de données Objaverse, à partir duquel les entrées avec des textures manquantes et des indices insuffisants ont été supprimées. Ce sous-ensemble contient plus de 60 000 objets 3D. Pour chaque objet, 4 vues de caméra sont sélectionnées au hasard, couvrant des angles d'azimut de -180 à 180 degrés et des angles d'élévation de -45 à 45 degrés, et la distance entre la caméra et le centre de l'objet est fixée à 1,5. Utilisez ensuite le logiciel Blender pour le rendu, et générez la radiographie correspondante grâce à l'algorithme de diffusion de rayons fourni par la bibliothèque trimesh. Grâce à ces processus, plus de 240 000 paires d’images et d’ensembles de données X-Ray peuvent être créées pour former des modèles génératifs. 2. Détails de mise en œuvre : Le modèle de diffusion des rayons X est basé sur l'architecture spatio-temporelle UNet utilisée en Diffusion Vidéo Stable (SVD), avec de légers ajustements : le modèle est configuré pour synthétiser 8 canaux : 1 canal hit, 1 canal profondeur et 6 canaux normaux, comparés aux 4 chaînes du réseau d'origine. Compte tenu des différences significatives entre l'imagerie à rayons X et la vidéo traditionnelle, le modèle a été formé à partir de zéro pour combler le grand écart entre les domaines des rayons X et de la vidéo. La formation s'est déroulée sur une semaine sur 8 serveurs GPU NVIDIA A100. Pendant cette période, le taux d'apprentissage a été maintenu à 0,0001, à l'aide de l'optimiseur AdamW. Étant donné que différents rayons X ont un nombre différent de couches, remplissez-les ou recadrez-les sur les mêmes 8 couches pour un meilleur traitement par lots et un meilleur entraînement, la taille d'image de chaque couche est de 64 × 64. Pour le modèle de suréchantillonnage, la sortie de la couche L est toujours de 8, mais la résolution de chaque image est augmentée à 256 × 256, ce qui améliore les détails et la clarté des rayons X agrandis. Les résultats sont présentés dans les figures 5 et 6. . Figure 5 : Image aux rayons X et génération de modèles 3D Figure 6 : Texte aux rayons X et génération de modèles 3D Avec les progrès continus de la technologie d'apprentissage automatique et de traitement d'images, les perspectives d'application de X-Ray sont infiniment larges. À l'avenir, cette technologie pourrait être combinée avec la technologie de réalité augmentée (AR) et de réalité virtuelle (VR) pour créer une expérience 3D totalement immersive pour les utilisateurs. Les domaines de l’éducation et de la formation peuvent également en bénéficier, par exemple en fournissant du matériel d’apprentissage plus intuitif et des expériences de simulation grâce à la reconstruction 3D. De plus, l'application de la technologie des rayons X dans les domaines de l'imagerie médicale et de la biotechnologie peut changer la compréhension et les méthodes de recherche des structures biologiques complexes. Attendez-vous à voir comment cela changera la façon dont vous interagissez avec le monde tridimensionnel. Génération de modèles 3D basée sur la représentation aux rayons X
Modèle de génération de diffusion de rayons X
Modèle de suréchantillonnage des rayons X
Expérience
Perspectives futures : nouvelle bande de représentation Les possibilités sont infinies
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!