


Générez des montagnes et des rivières en un clic, dans différents styles, et apprenez à générer un nombre illimité de scènes 3D à partir d'images 2D
- Project Home Page: https://scene-dreramer.github.io/
- code: https://github.com/frozenburning/sneneDeamer
- paper: https ://arxiv.org/abs/2302.01330
- Démo en ligne : https://huggingface.co/spaces/FrozenBurning/SceneDreamer
Pour satisfaire la demande croissante d'outils de création 3D dans le métaverse La demande de génération de scènes 3D a récemment reçu une attention considérable. Au cœur de la création de contenu 3D se trouvent les graphiques inverses, qui visent à récupérer des représentations 3D à partir d'observations 2D. Compte tenu du coût et de la main-d'œuvre nécessaires à la création d'actifs 3D, l'objectif ultime de la création de contenu 3D sera d'apprendre des modèles génératifs 3D à partir de la grande quantité d'images 2D disponibles sur Internet. Des travaux récents sur des modèles génératifs de perception 3D ont résolu ce problème dans une certaine mesure, la plupart des travaux exploitant des données d'images 2D pour générer du contenu centré sur les objets (par exemple, des visages, des corps humains ou des objets). Cependant, l'espace d'observation de ce type de tâche de génération est dans un domaine fini et les cibles générées occupent une zone limitée de l'espace tridimensionnel. Cela soulève une question : pouvons-nous apprendre des modèles génératifs 3D de scènes illimitées à partir d’images 2D Internet massives ? Par exemple, un paysage naturel vivant qui peut couvrir n’importe quelle grande surface et s’étendre à l’infini (comme illustré ci-dessous).
Dans cet article, des chercheurs du S-Lab de l'Université technologique de Nanyang ont proposé un nouveau cadre SceneDreamer, qui se concentre sur l'apprentissage de modèles de génération de scènes tridimensionnelles illimitées à partir d'images naturelles massives non étiquetées. En échantillonnant le bruit de la scène et le bruit de style, SceneDreamer peut restituer divers styles de scènes naturelles tout en conservant une cohérence tridimensionnelle extrêmement élevée, permettant à la caméra de se déplacer librement dans la scène.
Pour atteindre un tel objectif, nous sommes confrontés aux trois défis suivants :
1) Les scènes illimitées manquent de représentation tridimensionnelle efficace : les scènes illimitées occupent souvent un espace euclidien arbitrairement grand, ce qui souligne la grande efficacité et l'importance de représentations tridimensionnelles sous-jacentes expressives.
2) Manque d'alignement du contenu : les travaux de génération 3D existants utilisent des ensembles de données avec des propriétés alignées (telles que des visages, des corps humains, des objets communs, etc.). Les objets cibles dans ces scènes délimitées ont généralement une sémantique similaire et un emplacement d'échelle similaire. et l'orientation. Cependant, dans les images 2D massives non étiquetées, différents objets ou scènes ont souvent une sémantique très différente et ont des échelles, des positions et des orientations variables. Ce manque d'alignement peut conduire à une instabilité dans la formation des modèles génératifs.
3) Manque d'a priori de pose de caméra : les modèles génératifs 3D s'appuient sur des a priori de poses de caméra précises ou de distributions de poses de caméra pour mettre en œuvre le processus de rendu inverse des images aux représentations 3D. Cependant, les images naturelles sur Internet proviennent de différentes scènes et sources d'images, ce qui nous rend impossible d'obtenir des informations précises ou des informations préalables sur la pose de la caméra.
À cette fin, nous proposons un cadre d'apprentissage contradictoire de principe, SceneDreamer, qui apprend à générer des scènes tridimensionnelles illimitées à partir d'images naturelles massives non étiquetées. Le framework se compose de trois modules principaux : 1) une représentation de scène 3D en vue à vol d'oiseau (BEV) efficace et expressive ; 2) une grille de hachage neuronale générative qui apprend une représentation universelle de la scène 3) un moteur de rendu volumétrique basé sur le style ; et La formation est effectuée directement à partir d'images bidimensionnelles grâce à un apprentissage contradictoire.
L'image ci-dessus montre la structure principale de SceneDreamer. Au cours du processus d'inférence, nous pouvons échantillonner aléatoirement un bruit simplex représentant la structure de la scène et un bruit gaussien
représentant le style de la scène en entrée. Notre modèle peut restituer des scènes tridimensionnelles à grande échelle tout en prenant en charge le libre mouvement de la scène. caméra. Nous obtenons d'abord la représentation de la scène BEV composée d'une carte de hauteur et d'une carte sémantique à partir du bruit de la scène
. Ensuite, la représentation BEV est exploitée pour construire explicitement une fenêtre de scène 3D locale afin d'effectuer un échantillonnage de caméra, tout en codant la représentation BEV en caractéristiques de la scène
. Nous utilisons les coordonnées
des points d'échantillonnage et des caractéristiques de la scène
pour interroger l'espace de grande dimension codé par une grille de hachage neuronale générative afin d'obtenir des variables latentes de disparité spatiale et de disparité de scène
. Enfin, nous intégrons les variables latentes sur la lumière de la caméra via un moteur de rendu de volume modulé par le bruit stylistique, et obtenons enfin l'image 2D rendue.
Afin d'apprendre la génération de scènes 3D sans frontières, nous espérons que la scène devra être exprimée efficacement et avec une haute qualité. Nous proposons d'exprimer une scène tridimensionnelle à grande échelle en utilisant une représentation BEV composée de cartes sémantiques et de cartes de hauteur. Plus précisément, nous obtenons la carte de hauteur et la carte sémantique à partir d'une vue à vol d'oiseau du bruit de la scène grâce à une méthode de construction de carte non paramétrique. La carte de hauteur enregistre les informations de hauteur des points de surface de la scène, tandis que la carte sémantique enregistre les étiquettes sémantiques des points correspondants. La représentation BEV que nous utilisons, qui est composée d'une carte sémantique et d'une carte de hauteur, peut : 1) représenter une scène tridimensionnelle à une complexité n^2 ; 2) peut obtenir la sémantique correspondant au point tridimensionnel, résolvant ainsi le problème de l’alignement du contenu. 3) Prend en charge l'utilisation de fenêtres coulissantes pour synthétiser des scènes infinies, évitant ainsi le problème de généralisation causé par une résolution de scène fixe pendant la formation.
Afin de coder une représentation tridimensionnelle qui peut se généraliser entre les scènes, nous devons encoder la représentation spatiale de la scène tridimensionnelle dans l'espace latent pour faciliter la formation de l'apprentissage contradictoire. Il convient de noter que pour une scène illimitée à grande échelle, seuls les points visibles de sa surface sont généralement significatifs pour le rendu, ce qui signifie que sa forme paramétrique doit être compacte et clairsemée. Les méthodes existantes telles que l'espace modèle à trois plans ou à convolution tridimensionnelle dans son ensemble, mais une grande quantité de capacité de modèle est gaspillée pour modéliser des points de surface invisibles. Inspirés par le succès des grilles de hachage neuronales sur les tâches de reconstruction 3D, nous généralisons leurs propriétés spatialement compactes et efficaces aux tâches génératives et proposons l'utilisation de grilles de hachage neuronales génératives pour modéliser des caractéristiques spatiales 3D à travers les scènes. Plus précisément, la fonction de hachage F_theta est utilisée pour mapper les caractéristiques de la scène f_s et les coordonnées des points spatiaux x aux paramètres apprenables du mélange multi-échelle :
Afin d'assurer la cohérence tridimensionnelle du rendu, nous utilisons Le réseau de rendu du rendu volumique est utilisé pour compléter le mappage des caractéristiques spatiales tridimensionnelles sur des images bidimensionnelles. Pour un point sur la lumière de la caméra, nous interrogeons la grille de hachage générative pour obtenir sa caractéristique correspondante f_x, utilisons un MLP multicouche modulé par le bruit de style pour obtenir la couleur et la densité de volume de son point correspondant, et enfin utilisons le rendu de volume pour convertir un point Tous les points du rayon de la caméra sont intégrés dans la couleur du pixel correspondant.
L'ensemble du framework est directement entraîné de bout en bout sur des images 2D grâce à un apprentissage contradictoire. Le générateur est le moteur de rendu de volume mentionné ci-dessus, et pour le discriminateur, nous utilisons un réseau discriminant sémantique pour faire la distinction entre les images réelles et rendues en fonction de la carte sémantique projetée sur la caméra à partir de la représentation BEV. Pour plus de détails, veuillez vous référer à notre article.
Une fois la formation terminée, nous pouvons générer une variété de scènes 3D en échantillonnant aléatoirement le bruit de la scène et le bruit de style, avec de bonnes informations de profondeur et une cohérence 3D, et prendre en charge le rendu des trajectoires de caméra gratuites :
Grâce au mode d'inférence par fenêtre coulissante, nous pouvons générer des scènes 3D ultra-larges sans limites qui dépassent de loin la résolution spatiale d'entraînement. La figure ci-dessous montre une scène avec 10 fois la résolution spatiale d'entraînement et effectue une interpolation douce sur les dimensions de la scène et du style
Comme des résultats de transition douce d'interpolation similaires, notre framework prend en charge un mode découplé, c'est-à-dire fixé séparément Scène ou style à interpoler, reflétant la richesse sémantique de l'espace latent :
Pour vérifier la cohérence tridimensionnelle de notre méthode, nous utilisons également des trajectoires de caméra circulaires pour restituer n'importe quelle scène, en réutilisant COLMAP pour reconstruction 3D, et peut obtenir de meilleurs nuages de points de scène et des poses de caméra correspondantes, ce qui montre que cette méthode peut générer une variété de scènes 3D tout en assurant une cohérence 3D :
Ce travail propose SceneDreamer, un modèle pour générer scènes 3D illimitées à partir d’images 2D massives. Nous sommes capables de synthétiser diverses scènes 3D à grande échelle à partir du bruit tout en conservant la cohérence 3D et en prenant en charge les trajectoires de caméra libres. Nous espérons que ce travail pourra fournir une nouvelle direction et de nouvelles possibilités d’exploration pour l’industrie du jeu, la réalité virtuelle et l’écologie du métaverse. Veuillez vous référer à la page d'accueil de notre projet pour plus de détails.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
