Pour satisfaire la demande croissante d'outils de création 3D dans le métaverse La demande de génération de scènes 3D a récemment reçu une attention considérable. Au cœur de la création de contenu 3D se trouvent les graphiques inverses, qui visent à récupérer des représentations 3D à partir d'observations 2D. Compte tenu du coût et de la main-d'œuvre nécessaires à la création d'actifs 3D, l'objectif ultime de la création de contenu 3D sera d'apprendre des modèles génératifs 3D à partir de la grande quantité d'images 2D disponibles sur Internet. Des travaux récents sur des modèles génératifs de perception 3D ont résolu ce problème dans une certaine mesure, la plupart des travaux exploitant des données d'images 2D pour générer du contenu centré sur les objets (par exemple, des visages, des corps humains ou des objets). Cependant, l'espace d'observation de ce type de tâche de génération est dans un domaine fini et les cibles générées occupent une zone limitée de l'espace tridimensionnel. Cela soulève une question : pouvons-nous apprendre des modèles génératifs 3D de scènes illimitées à partir d’images 2D Internet massives ? Par exemple, un paysage naturel vivant qui peut couvrir n’importe quelle grande surface et s’étendre à l’infini (comme illustré ci-dessous).
Dans cet article, des chercheurs du S-Lab de l'Université technologique de Nanyang ont proposé un nouveau cadre SceneDreamer, qui se concentre sur l'apprentissage de modèles de génération de scènes tridimensionnelles illimitées à partir d'images naturelles massives non étiquetées. En échantillonnant le bruit de la scène et le bruit de style, SceneDreamer peut restituer divers styles de scènes naturelles tout en conservant une cohérence tridimensionnelle extrêmement élevée, permettant à la caméra de se déplacer librement dans la scène.
Pour atteindre un tel objectif, nous sommes confrontés aux trois défis suivants :
1) Les scènes illimitées manquent de représentation tridimensionnelle efficace : les scènes illimitées occupent souvent un espace euclidien arbitrairement grand, ce qui souligne la grande efficacité et l'importance de représentations tridimensionnelles sous-jacentes expressives.
2) Manque d'alignement du contenu : les travaux de génération 3D existants utilisent des ensembles de données avec des propriétés alignées (telles que des visages, des corps humains, des objets communs, etc.). Les objets cibles dans ces scènes délimitées ont généralement une sémantique similaire et un emplacement d'échelle similaire. et l'orientation. Cependant, dans les images 2D massives non étiquetées, différents objets ou scènes ont souvent une sémantique très différente et ont des échelles, des positions et des orientations variables. Ce manque d'alignement peut conduire à une instabilité dans la formation des modèles génératifs.
3) Manque d'a priori de pose de caméra : les modèles génératifs 3D s'appuient sur des a priori de poses de caméra précises ou de distributions de poses de caméra pour mettre en œuvre le processus de rendu inverse des images aux représentations 3D. Cependant, les images naturelles sur Internet proviennent de différentes scènes et sources d'images, ce qui nous rend impossible d'obtenir des informations précises ou des informations préalables sur la pose de la caméra.
À cette fin, nous proposons un cadre d'apprentissage contradictoire de principe, SceneDreamer, qui apprend à générer des scènes tridimensionnelles illimitées à partir d'images naturelles massives non étiquetées. Le framework se compose de trois modules principaux : 1) une représentation de scène 3D en vue à vol d'oiseau (BEV) efficace et expressive ; 2) une grille de hachage neuronale générative qui apprend une représentation universelle de la scène 3) un moteur de rendu volumétrique basé sur le style ; et La formation est effectuée directement à partir d'images bidimensionnelles grâce à un apprentissage contradictoire.
L'image ci-dessus montre la structure principale de SceneDreamer. Au cours du processus d'inférence, nous pouvons échantillonner aléatoirement un bruit simplex représentant la structure de la scène et un bruit gaussien représentant le style de la scène en entrée. Notre modèle peut restituer des scènes tridimensionnelles à grande échelle tout en prenant en charge le libre mouvement de la scène. caméra. Nous obtenons d'abord la représentation de la scène BEV composée d'une carte de hauteur et d'une carte sémantique à partir du bruit de la scène . Ensuite, la représentation BEV est exploitée pour construire explicitement une fenêtre de scène 3D locale afin d'effectuer un échantillonnage de caméra, tout en codant la représentation BEV en caractéristiques de la scène . Nous utilisons les coordonnées des points d'échantillonnage et des caractéristiques de la scène pour interroger l'espace de grande dimension codé par une grille de hachage neuronale générative afin d'obtenir des variables latentes de disparité spatiale et de disparité de scène . Enfin, nous intégrons les variables latentes sur la lumière de la caméra via un moteur de rendu de volume modulé par le bruit stylistique, et obtenons enfin l'image 2D rendue.
Afin d'apprendre la génération de scènes 3D sans frontières, nous espérons que la scène devra être exprimée efficacement et avec une haute qualité. Nous proposons d'exprimer une scène tridimensionnelle à grande échelle en utilisant une représentation BEV composée de cartes sémantiques et de cartes de hauteur. Plus précisément, nous obtenons la carte de hauteur et la carte sémantique à partir d'une vue à vol d'oiseau du bruit de la scène grâce à une méthode de construction de carte non paramétrique. La carte de hauteur enregistre les informations de hauteur des points de surface de la scène, tandis que la carte sémantique enregistre les étiquettes sémantiques des points correspondants. La représentation BEV que nous utilisons, qui est composée d'une carte sémantique et d'une carte de hauteur, peut : 1) représenter une scène tridimensionnelle à une complexité n^2 ; 2) peut obtenir la sémantique correspondant au point tridimensionnel, résolvant ainsi le problème de l’alignement du contenu. 3) Prend en charge l'utilisation de fenêtres coulissantes pour synthétiser des scènes infinies, évitant ainsi le problème de généralisation causé par une résolution de scène fixe pendant la formation.
Afin de coder une représentation tridimensionnelle qui peut se généraliser entre les scènes, nous devons encoder la représentation spatiale de la scène tridimensionnelle dans l'espace latent pour faciliter la formation de l'apprentissage contradictoire. Il convient de noter que pour une scène illimitée à grande échelle, seuls les points visibles de sa surface sont généralement significatifs pour le rendu, ce qui signifie que sa forme paramétrique doit être compacte et clairsemée. Les méthodes existantes telles que l'espace modèle à trois plans ou à convolution tridimensionnelle dans son ensemble, mais une grande quantité de capacité de modèle est gaspillée pour modéliser des points de surface invisibles. Inspirés par le succès des grilles de hachage neuronales sur les tâches de reconstruction 3D, nous généralisons leurs propriétés spatialement compactes et efficaces aux tâches génératives et proposons l'utilisation de grilles de hachage neuronales génératives pour modéliser des caractéristiques spatiales 3D à travers les scènes. Plus précisément, la fonction de hachage F_theta est utilisée pour mapper les caractéristiques de la scène f_s et les coordonnées des points spatiaux x aux paramètres apprenables du mélange multi-échelle :
Afin d'assurer la cohérence tridimensionnelle du rendu, nous utilisons Le réseau de rendu du rendu volumique est utilisé pour compléter le mappage des caractéristiques spatiales tridimensionnelles sur des images bidimensionnelles. Pour un point sur la lumière de la caméra, nous interrogeons la grille de hachage générative pour obtenir sa caractéristique correspondante f_x, utilisons un MLP multicouche modulé par le bruit de style pour obtenir la couleur et la densité de volume de son point correspondant, et enfin utilisons le rendu de volume pour convertir un point Tous les points du rayon de la caméra sont intégrés dans la couleur du pixel correspondant.
L'ensemble du framework est directement entraîné de bout en bout sur des images 2D grâce à un apprentissage contradictoire. Le générateur est le moteur de rendu de volume mentionné ci-dessus, et pour le discriminateur, nous utilisons un réseau discriminant sémantique pour faire la distinction entre les images réelles et rendues en fonction de la carte sémantique projetée sur la caméra à partir de la représentation BEV. Pour plus de détails, veuillez vous référer à notre article.
Une fois la formation terminée, nous pouvons générer une variété de scènes 3D en échantillonnant aléatoirement le bruit de la scène et le bruit de style, avec de bonnes informations de profondeur et une cohérence 3D, et prendre en charge le rendu des trajectoires de caméra gratuites :
Grâce au mode d'inférence par fenêtre coulissante, nous pouvons générer des scènes 3D ultra-larges sans limites qui dépassent de loin la résolution spatiale d'entraînement. La figure ci-dessous montre une scène avec 10 fois la résolution spatiale d'entraînement et effectue une interpolation douce sur les dimensions de la scène et du style
Comme des résultats de transition douce d'interpolation similaires, notre framework prend en charge un mode découplé, c'est-à-dire fixé séparément Scène ou style à interpoler, reflétant la richesse sémantique de l'espace latent :
Pour vérifier la cohérence tridimensionnelle de notre méthode, nous utilisons également des trajectoires de caméra circulaires pour restituer n'importe quelle scène, en réutilisant COLMAP pour reconstruction 3D, et peut obtenir de meilleurs nuages de points de scène et des poses de caméra correspondantes, ce qui montre que cette méthode peut générer une variété de scènes 3D tout en assurant une cohérence 3D :
Ce travail propose SceneDreamer, un modèle pour générer scènes 3D illimitées à partir d’images 2D massives. Nous sommes capables de synthétiser diverses scènes 3D à grande échelle à partir du bruit tout en conservant la cohérence 3D et en prenant en charge les trajectoires de caméra libres. Nous espérons que ce travail pourra fournir une nouvelle direction et de nouvelles possibilités d’exploration pour l’industrie du jeu, la réalité virtuelle et l’écologie du métaverse. Veuillez vous référer à la page d'accueil de notre projet pour plus de détails.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!