


Grand modèle gaussien multi-vues LGM : produit des objets 3D de haute qualité en 5 secondes, disponible en version d'essai
En réponse à la croissance continue de la demande d'outils de création 3D dans le métaverse, les gens ont récemment manifesté un grand intérêt pour la génération de contenu tridimensionnel (3D AIGC). Dans le même temps, la création de contenu 3D a également fait des progrès significatifs en termes de qualité et de rapidité.
Bien que les modèles génératifs à feed-forward actuels puissent générer des objets 3D en quelques secondes, leur résolution est limitée par le calcul intensif requis lors de la formation, ce qui entraîne la génération de contenu de faible qualité. Cela soulève la question suivante : un objet 3D haute résolution et de haute qualité peut-il être généré en seulement 5 secondes ?
Dans cet article, des chercheurs de l'Université de Pékin, du S-Lab de l'Université technologique de Nanyang et du Laboratoire d'intelligence artificielle de Shanghai ont proposé un nouveau cadre LGM, à savoir le grand modèle gaussien, qui réalise la transformation d'images à vue unique à partir de Ou la saisie de texte pour générer des objets tridimensionnels de haute résolution et de haute qualité en seulement 5 secondes.
Actuellement, les poids du code et du modèle sont open source. Les chercheurs proposent également une démo en ligne que tout le monde peut essayer.
- Titre de l'article : LGM : Grand modèle gaussien multi-vues pour la création de contenu 3D haute résolution
- Page d'accueil du projet : https://me.kiui.moe/lgm/
- Code : https://github.com/3DTopia/LGM
- Paper : https://arxiv.org/abs/2402.05054
- Démo en ligne : https://huggingface.co/spaces/ashawkey/LGM
Pour atteindre un tel objectif, les chercheurs sont confrontés aux deux défis suivants :
- Représentation 3D efficace avec un montant de calcul limité : Les travaux de génération 3D existants utilisent NeRF basé sur trois plans comme représentation et rendu 3D. pipeline, sa modélisation intensive des scènes et sa technologie de rendu de volume par lancer de rayons limitent considérablement sa résolution d'entraînement (128 × 128), rendant la texture du contenu final généré floue et de mauvaise qualité.
- Réseau de génération de base 3D à haute résolution : Les travaux de génération 3D existants utilisent des transformateurs denses comme réseau de base pour garantir une quantité de paramètres suffisamment dense pour modéliser des objets universels, mais cela est sacrifié dans une certaine mesure. La résolution de formation entraîne une mauvaise qualité de l’objet tridimensionnel final.
À cette fin, cet article propose une nouvelle méthode pour synthétiser des représentations tridimensionnelles haute résolution à partir d'images à quatre vues, puis utiliser le texte existant pour une image multi-vue ou une image unique pour des modèles d'image multi-vues. . Prend en charge les tâches Text-to-3D et Image-to-3D de haute qualité .
Techniquement, Le module principal LGM est un grand modèle gaussien multi-vues. Inspirée de la pulvérisation gaussienne, cette méthode utilise un U-Net asymétrique efficace et léger comme réseau principal pour prédire directement les primitives gaussiennes haute résolution à partir d'images à quatre vues, et enfin restituer les images sous n'importe quel angle de vue.
Plus précisément, le réseau fédérateur U-Net accepte des images de quatre perspectives et les coordonnées de Plucker correspondantes, et génère un nombre fixe de caractéristiques gaussiennes depuis plusieurs perspectives. Cet ensemble de caractéristiques gaussiennes est directement fusionné dans l'élément gaussien final et des images sous différents angles de vision sont obtenues grâce à un rendu différenciable.
Dans ce processus, un mécanisme d'auto-attention à vues croisées est utilisé pour implémenter une modélisation de corrélation entre différentes vues sur des cartes de caractéristiques basse résolution tout en maintenant une faible surcharge de calcul.
Il est à noter qu'il n'est pas facile d'entraîner efficacement un tel modèle à haute résolution. Pour parvenir à une formation solide, les chercheurs sont toujours confrontés aux deux problèmes suivants.
Premièrement, les images multi-vues cohérentes tridimensionnelles rendues dans l'ensemble de données objaverse sont utilisées dans la phase de formation, tandis que dans la phase d'inférence, les modèles existants sont directement utilisés pour synthétiser des images multi-perspectives à partir de texte ou d'images. Étant donné que les images multi-vues synthétisées sur la base du modèle présentent toujours le problème de l'incohérence multi-vues, afin de combler le fossé dans ce domaine, cet article propose une stratégie d'amélioration des données basée sur la distorsion de la grille : appliquer la randomisation aux images de trois vues. dans l'espace image Distorsion pour simuler l'incohérence multi-vues.
Deuxièmement, parce que les images multi-vues générées lors de l'étape d'inférence ne garantissent pas strictement la cohérence de la géométrie tridimensionnelle de la perspective de la caméra, cet article perturbe également aléatoirement les poses de caméra des trois perspectives pour simuler ce phénomène. , afin que le modèle puisse mieux raisonner. La scène est plus stable .
Enfin, les primitives gaussiennes générées sont restituées en images correspondantes via un rendu différentiable, et apprises directement de bout en bout sur les images bidimensionnelles grâce à un apprentissage supervisé.Une fois la formation terminée, LGM peut réaliser des tâches de texte en 3D et d'image en 3D de haute qualité grâce au modèle de diffusion image vers multi-vues ou texte vers multi-vues existant.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



Les problèmes de «chargement» PS sont causés par des problèmes d'accès aux ressources ou de traitement: la vitesse de lecture du disque dur est lente ou mauvaise: utilisez Crystaldiskinfo pour vérifier la santé du disque dur et remplacer le disque dur problématique. Mémoire insuffisante: améliorez la mémoire pour répondre aux besoins de PS pour les images à haute résolution et le traitement complexe de couche. Les pilotes de la carte graphique sont obsolètes ou corrompues: mettez à jour les pilotes pour optimiser la communication entre le PS et la carte graphique. Les chemins de fichier sont trop longs ou les noms de fichiers ont des caractères spéciaux: utilisez des chemins courts et évitez les caractères spéciaux. Problème du PS: réinstaller ou réparer le programme d'installation PS.

Un PS est coincé sur le "chargement" lors du démarrage peut être causé par diverses raisons: désactiver les plugins corrompus ou conflictuels. Supprimer ou renommer un fichier de configuration corrompu. Fermez des programmes inutiles ou améliorez la mémoire pour éviter une mémoire insuffisante. Passez à un entraînement à semi-conducteurs pour accélérer la lecture du disque dur. Réinstaller PS pour réparer les fichiers système corrompus ou les problèmes de package d'installation. Afficher les informations d'erreur pendant le processus de démarrage de l'analyse du journal d'erreur.

Dans HTML5, la vitesse de lecture de la vidéo peut être contrôlée via l'attribut PlayBackrate, qui accepte les valeurs suivantes: moins de 1: la lecture lente est égale à 1: la lecture de vitesse normale supérieure à 1: la lecture rapide équivaut à 0: pause dans HTML5, la vidéo en plein écran vidéo peut être réalisée via la méthode de candidature à SketfulLscreen (), qui peut être appliquée aux éléments vidéo ou à leurs éléments parents.

Processus de production de page H5: conception: mise en page, style et contenu de la page du plan; Construction de la structure HTML: Utilisez des balises HTML pour créer un cadre de page; Écriture de style CSS: Utilisez CSS pour contrôler l'apparence et la disposition de la page; Implémentation d'interaction JavaScript: écrivez du code pour réaliser l'animation et l'interaction de la page; Optimisation des performances: compressez les images, code et réduisez les demandes HTTP pour améliorer la vitesse de chargement des pages.

Le bégaiement "Chargement" se produit lors de l'ouverture d'un fichier sur PS. Les raisons peuvent inclure: un fichier trop grand ou corrompu, une mémoire insuffisante, une vitesse du disque dur lente, des problèmes de pilote de carte graphique, des conflits de version PS ou du plug-in. Les solutions sont: vérifier la taille et l'intégrité du fichier, augmenter la mémoire, mettre à niveau le disque dur, mettre à jour le pilote de carte graphique, désinstaller ou désactiver les plug-ins suspects et réinstaller PS. Ce problème peut être résolu efficacement en vérifiant progressivement et en faisant bon usage des paramètres de performances PS et en développant de bonnes habitudes de gestion des fichiers.

Méthode de production d'effet transparent: Utilisez l'outil de sélection et les plumes pour coopérer: sélectionnez les zones transparentes et les plumes pour adoucir les bords; Modifiez le mode de mélange de couche et l'opacité pour contrôler la transparence. Utilisez des masques et des plumes: Sélectionnez et des zones de plumes; Ajouter les masques de couche et la transparence de contrôle du gradient de niveaux de gris.

La difficulté d'apprentissage de H5 (HTML5) et JS (JavaScript) est différente, selon les exigences. Une page Web statique simple doit uniquement apprendre H5, alors qu'elle est très interactive et nécessite un développement frontal pour maîtriser JS. Il est recommandé d'apprendre H5 d'abord, puis d'apprendre progressivement JS. H5 apprend principalement des balises et est facile à démarrer; JS est un langage de programmation avec une courbe d'apprentissage abrupte et nécessite une compréhension de la syntaxe et des concepts, tels que les fermetures et les chaînes prototypes. En termes de pièges, H5 implique principalement des écarts de compatibilité et de compréhension sémantique, tandis que JS implique la syntaxe, la programmation asynchrone et l'optimisation des performances.

L'interface de chargement de la carte PS peut être causée par le logiciel lui-même (corruption de fichiers ou conflit de plug-in), l'environnement système (corruption du pilote ou des fichiers système en raison), ou matériel (corruption du disque dur ou défaillance du bâton de mémoire). Vérifiez d'abord si les ressources informatiques sont suffisantes, fermez le programme d'arrière-plan et publiez la mémoire et les ressources CPU. Correction de l'installation de PS ou vérifiez les problèmes de compatibilité pour les plug-ins. Mettre à jour ou tomber la version PS. Vérifiez le pilote de la carte graphique et mettez-le à jour et exécutez la vérification du fichier système. Si vous résumez les problèmes ci-dessus, vous pouvez essayer la détection du disque dur et les tests de mémoire.
