Maison Périphériques technologiques IA Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir d'images 2D

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir d'images 2D

Apr 29, 2023 pm 08:10 PM
模型 研究

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

  • Project Home Page: https://scene-dreramer.github.io/
  • code: https://github.com/frozenburning/sneneDeamer
  • paper: https ://arxiv.org/abs/2302.01330
  • Démo en ligne : https://huggingface.co/spaces/FrozenBurning/SceneDreamer

Pour satisfaire la demande croissante d'outils de création 3D dans le métaverse La demande de génération de scènes 3D a récemment reçu une attention considérable. Au cœur de la création de contenu 3D se trouvent les graphiques inverses, qui visent à récupérer des représentations 3D à partir d'observations 2D. Compte tenu du coût et de la main-d'œuvre nécessaires à la création d'actifs 3D, l'objectif ultime de la création de contenu 3D sera d'apprendre des modèles génératifs 3D à partir de la grande quantité d'images 2D disponibles sur Internet. Des travaux récents sur des modèles génératifs de perception 3D ont résolu ce problème dans une certaine mesure, la plupart des travaux exploitant des données d'images 2D pour générer du contenu centré sur les objets (par exemple, des visages, des corps humains ou des objets). Cependant, l'espace d'observation de ce type de tâche de génération est dans un domaine fini et les cibles générées occupent une zone limitée de l'espace tridimensionnel. Cela soulève une question : pouvons-nous apprendre des modèles génératifs 3D de scènes illimitées à partir d’images 2D Internet massives ? Par exemple, un paysage naturel vivant qui peut couvrir n’importe quelle grande surface et s’étendre à l’infini (comme illustré ci-dessous).

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

Dans cet article, des chercheurs du S-Lab de l'Université technologique de Nanyang ont proposé un nouveau cadre SceneDreamer, qui se concentre sur l'apprentissage de modèles de génération de scènes tridimensionnelles illimitées à partir d'images naturelles massives non étiquetées. En échantillonnant le bruit de la scène et le bruit de style, SceneDreamer peut restituer divers styles de scènes naturelles tout en conservant une cohérence tridimensionnelle extrêmement élevée, permettant à la caméra de se déplacer librement dans la scène.

Pour atteindre un tel objectif, nous sommes confrontés aux trois défis suivants :

1) Les scènes illimitées manquent de représentation tridimensionnelle efficace : les scènes illimitées occupent souvent un espace euclidien arbitrairement grand, ce qui souligne la grande efficacité et l'importance de représentations tridimensionnelles sous-jacentes expressives.

2) Manque d'alignement du contenu : les travaux de génération 3D existants utilisent des ensembles de données avec des propriétés alignées (telles que des visages, des corps humains, des objets communs, etc.). Les objets cibles dans ces scènes délimitées ont généralement une sémantique similaire et un emplacement d'échelle similaire. et l'orientation. Cependant, dans les images 2D massives non étiquetées, différents objets ou scènes ont souvent une sémantique très différente et ont des échelles, des positions et des orientations variables. Ce manque d'alignement peut conduire à une instabilité dans la formation des modèles génératifs.

3) Manque d'a priori de pose de caméra : les modèles génératifs 3D s'appuient sur des a priori de poses de caméra précises ou de distributions de poses de caméra pour mettre en œuvre le processus de rendu inverse des images aux représentations 3D. Cependant, les images naturelles sur Internet proviennent de différentes scènes et sources d'images, ce qui nous rend impossible d'obtenir des informations précises ou des informations préalables sur la pose de la caméra.

À cette fin, nous proposons un cadre d'apprentissage contradictoire de principe, SceneDreamer, qui apprend à générer des scènes tridimensionnelles illimitées à partir d'images naturelles massives non étiquetées. Le framework se compose de trois modules principaux : 1) une représentation de scène 3D en vue à vol d'oiseau (BEV) efficace et expressive ; 2) une grille de hachage neuronale générative qui apprend une représentation universelle de la scène 3) un moteur de rendu volumétrique basé sur le style ; et La formation est effectuée directement à partir d'images bidimensionnelles grâce à un apprentissage contradictoire.

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

L'image ci-dessus montre la structure principale de SceneDreamer. Au cours du processus d'inférence, nous pouvons échantillonner aléatoirement un bruit simplex Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D représentant la structure de la scène et un bruit gaussien Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D représentant le style de la scène en entrée. Notre modèle peut restituer des scènes tridimensionnelles à grande échelle tout en prenant en charge le libre mouvement de la scène. caméra. Nous obtenons d'abord la représentation de la scène BEV composée d'une carte de hauteur et d'une carte sémantique à partir du bruit de la scène Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D. Ensuite, la représentation BEV est exploitée pour construire explicitement une fenêtre de scène 3D locale afin d'effectuer un échantillonnage de caméra, tout en codant la représentation BEV en caractéristiques de la scène Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D. Nous utilisons les coordonnées Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D des points d'échantillonnage et des caractéristiques de la scène Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D pour interroger l'espace de grande dimension codé par une grille de hachage neuronale générative afin d'obtenir des variables latentes de disparité spatiale et de disparité de scène Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D. Enfin, nous intégrons les variables latentes sur la lumière de la caméra via un moteur de rendu de volume modulé par le bruit stylistique, et obtenons enfin l'image 2D rendue.

Afin d'apprendre la génération de scènes 3D sans frontières, nous espérons que la scène devra être exprimée efficacement et avec une haute qualité. Nous proposons d'exprimer une scène tridimensionnelle à grande échelle en utilisant une représentation BEV composée de cartes sémantiques et de cartes de hauteur. Plus précisément, nous obtenons la carte de hauteur et la carte sémantique à partir d'une vue à vol d'oiseau du bruit de la scène grâce à une méthode de construction de carte non paramétrique. La carte de hauteur enregistre les informations de hauteur des points de surface de la scène, tandis que la carte sémantique enregistre les étiquettes sémantiques des points correspondants. La représentation BEV que nous utilisons, qui est composée d'une carte sémantique et d'une carte de hauteur, peut : 1) représenter une scène tridimensionnelle à une complexité n^2 ; 2) peut obtenir la sémantique correspondant au point tridimensionnel, résolvant ainsi le problème de l’alignement du contenu. 3) Prend en charge l'utilisation de fenêtres coulissantes pour synthétiser des scènes infinies, évitant ainsi le problème de généralisation causé par une résolution de scène fixe pendant la formation.

Afin de coder une représentation tridimensionnelle qui peut se généraliser entre les scènes, nous devons encoder la représentation spatiale de la scène tridimensionnelle dans l'espace latent pour faciliter la formation de l'apprentissage contradictoire. Il convient de noter que pour une scène illimitée à grande échelle, seuls les points visibles de sa surface sont généralement significatifs pour le rendu, ce qui signifie que sa forme paramétrique doit être compacte et clairsemée. Les méthodes existantes telles que l'espace modèle à trois plans ou à convolution tridimensionnelle dans son ensemble, mais une grande quantité de capacité de modèle est gaspillée pour modéliser des points de surface invisibles. Inspirés par le succès des grilles de hachage neuronales sur les tâches de reconstruction 3D, nous généralisons leurs propriétés spatialement compactes et efficaces aux tâches génératives et proposons l'utilisation de grilles de hachage neuronales génératives pour modéliser des caractéristiques spatiales 3D à travers les scènes. Plus précisément, la fonction de hachage F_theta est utilisée pour mapper les caractéristiques de la scène f_s et les coordonnées des points spatiaux x aux paramètres apprenables du mélange multi-échelle :

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

Afin d'assurer la cohérence tridimensionnelle du rendu, nous utilisons Le réseau de rendu du rendu volumique est utilisé pour compléter le mappage des caractéristiques spatiales tridimensionnelles sur des images bidimensionnelles. Pour un point sur la lumière de la caméra, nous interrogeons la grille de hachage générative pour obtenir sa caractéristique correspondante f_x, utilisons un MLP multicouche modulé par le bruit de style pour obtenir la couleur et la densité de volume de son point correspondant, et enfin utilisons le rendu de volume pour convertir un point Tous les points du rayon de la caméra sont intégrés dans la couleur du pixel correspondant.

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

L'ensemble du framework est directement entraîné de bout en bout sur des images 2D grâce à un apprentissage contradictoire. Le générateur est le moteur de rendu de volume mentionné ci-dessus, et pour le discriminateur, nous utilisons un réseau discriminant sémantique pour faire la distinction entre les images réelles et rendues en fonction de la carte sémantique projetée sur la caméra à partir de la représentation BEV. Pour plus de détails, veuillez vous référer à notre article.

Une fois la formation terminée, nous pouvons générer une variété de scènes 3D en échantillonnant aléatoirement le bruit de la scène et le bruit de style, avec de bonnes informations de profondeur et une cohérence 3D, et prendre en charge le rendu des trajectoires de caméra gratuites :

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

Grâce au mode d'inférence par fenêtre coulissante, nous pouvons générer des scènes 3D ultra-larges sans limites qui dépassent de loin la résolution spatiale d'entraînement. La figure ci-dessous montre une scène avec 10 fois la résolution spatiale d'entraînement et effectue une interpolation douce sur les dimensions de la scène et du style

Comme des résultats de transition douce d'interpolation similaires, notre framework prend en charge un mode découplé, c'est-à-dire fixé séparément Scène ou style à interpoler, reflétant la richesse sémantique de l'espace latent :

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D


Pour vérifier la cohérence tridimensionnelle de notre méthode, nous utilisons également des trajectoires de caméra circulaires pour restituer n'importe quelle scène, en réutilisant COLMAP pour reconstruction 3D, et peut obtenir de meilleurs nuages ​​de points de scène et des poses de caméra correspondantes, ce qui montre que cette méthode peut générer une variété de scènes 3D tout en assurant une cohérence 3D :

Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir dimages 2D

Ce travail propose SceneDreamer, un modèle pour générer scènes 3D illimitées à partir d’images 2D massives. Nous sommes capables de synthétiser diverses scènes 3D à grande échelle à partir du bruit tout en conservant la cohérence 3D et en prenant en charge les trajectoires de caméra libres. Nous espérons que ce travail pourra fournir une nouvelle direction et de nouvelles possibilités d’exploration pour l’industrie du jeu, la réalité virtuelle et l’écologie du métaverse. Veuillez vous référer à la page d'accueil de notre projet pour plus de détails.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Vous avez un jeu croisé?
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

See all articles