Table des matières
Personnalisation de la forme, de la texture et des matériaux
Méthodes et processus de recherche
Présentation de l'auteur
Maison Périphériques technologiques IA Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer l'univers

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer l'univers

Apr 12, 2023 pm 11:16 PM
gpu 模型 英伟达

Abracadabra !

En termes de modèles 3D générés en 2D, NVIDIA a dévoilé sa recherche autoproclamée de « classe mondiale » : GET3D.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Après un entraînement sur des images 2D, le modèle génère des formes 3D avec des textures haute fidélité et des détails géométriques complexes.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Quelle est sa puissance ?

Personnalisation de la forme, de la texture et des matériaux

GET3D doit son nom à sa capacité à générer des maillages 3D texturés explicites.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Adresse papier : https://arxiv.org/pdf/2209.11163.pdf

C'est-à-dire que la forme qu'il crée a la forme d'un maillage triangulaire, tout comme un modèle en papier Idem, recouvert d'un matériau texturé.

La clé est que ce modèle peut générer une variété de modèles de haute qualité.

Par exemple, diverses roues sur les pieds de chaise ; roues de voiture, lumières et fenêtres ; oreilles et cornes d'animaux ; rétroviseurs de moto, textures sur pneus de voiture, vêtements humains... .

; Bâtiments uniques des deux côtés de la rue, différents véhicules qui passent à toute allure et différents groupes de personnes qui passent...

Si vous souhaitez créer le même monde virtuel 3D grâce à la modélisation manuelle, cela prend beaucoup de temps.

Bien que les précédents modèles d'IA générés en 3D soient plus rapides que la modélisation manuelle, leur capacité à générer des modèles plus riches et détaillés fait toujours défaut.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Même les dernières méthodes de rendu inverse ne peuvent générer que des objets 3D basés sur des images 2D prises sous différents angles, et les développeurs ne peuvent construire qu'un seul objet 3D à la fois.

GET3D est différent.

Les développeurs peuvent facilement importer les modèles générés dans les moteurs de jeu, les modeleurs 3D et les moteurs de rendu de films pour les modifier.

Lorsque les créateurs exportent des modèles générés par GET3D vers des applications graphiques, ils peuvent appliquer des effets d'éclairage réalistes lorsque le modèle bouge ou tourne dans la scène.

Comme le montre l'image :

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

De plus, GET3D peut également générer des formes guidées par du texte.

En utilisant StyleGAN-NADA, un autre outil d'IA de NVIDIA, les développeurs peuvent ajouter des styles spécifiques aux images à l'aide d'invites de texte.

Par exemple, vous pouvez transformer une voiture rendue en voiture ou en taxi incendié.

Convertissez une maison ordinaire en maison en brique, en maison en feu ou même en maison hantée.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Ou appliquez les caractéristiques des imprimés tigre et panda à n'importe quel animal...

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

C'est tout simplement "Animal Crossing" des Simpsons...

NVIDIA a introduit que lorsqu'il est entraîné sur un seul GPU NVIDIA, GET3D peut générer environ 20 objets par seconde.

Ici, plus l'ensemble de données d'entraînement à partir duquel il apprend est vaste et diversifié, plus le résultat sera diversifié et détaillé.

NVIDIA a déclaré que l'équipe de recherche a utilisé le GPU A100 pour entraîner le modèle sur environ 1 million d'images en seulement 2 jours.

Méthodes et processus de recherche

Cadre GET3D, sa fonction principale est de synthétiser des formes tridimensionnelles texturées.

Le processus de génération est divisé en deux parties : la première partie est la branche géométrique, qui peut produire des maillages de surface de n'importe quelle topologie. L'autre partie est la branche texture, qui produit un champ de texture à partir duquel les points de surface peuvent être interrogés.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Pendant le processus de formation, un rastériseur différenciable est utilisé pour restituer efficacement le maillage de texture résultant en une image bidimensionnelle haute résolution. L'ensemble du processus est séparable, permettant un entraînement contradictoire à partir d'images en propageant les gradients du discriminateur 2D.

Après cela, le gradient se propage du discriminateur 2D aux deux branches du générateur.

Les chercheurs ont mené des expériences approfondies pour évaluer le modèle. Ils ont d’abord comparé la qualité des maillages texturés 3D générés par GET3D avec ceux existants générés à l’aide des ensembles de données ShapeNet et Turbosquid.

Ensuite, les chercheurs ont optimisé le modèle dans des études ultérieures sur la base des résultats de la comparaison et ont mené davantage d'expériences.

Le modèle GET3D est capable de séparer les phases en géométrie et en texture.

Comme le montre la figure, la forme générée par le même code caché de géométrie est affichée dans chaque ligne, tandis que le code de texture est modifié.

Affiché dans chaque colonne les formes générées par le même code de masquage de texture lors de la modification du code de géométrie.

De plus, les chercheurs ont inséré le code caché de la géométrie de gauche à droite dans les formes générées par le même code caché de texture dans chaque rangée.

et les formes générées par le même code caché de géométrie tout en insérant le code de texture de haut en bas. Les résultats montrent que chaque interpolation est significative pour le modèle généré.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Dans le sous-graphe de chaque modèle, GET3D est capable de générer des transitions fluides entre les différentes formes dans toutes les catégories.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Dans chaque ligne, perturbez localement le code caché en ajoutant un petit bruit. De cette manière, GET3D est capable de générer localement des formes similaires mais légèrement différentes.

Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer lunivers

Les chercheurs notent que les futures versions de GET3D pourraient utiliser la technologie d'estimation de la pose de la caméra, permettant aux développeurs de former des modèles sur des données du monde réel plutôt que sur des ensembles de données synthétiques.

À l'avenir, grâce à des améliorations, les développeurs pourront entraîner GET3D sur une variété de formes 3D en une seule fois, au lieu de devoir l'entraîner sur une catégorie d'objets à la fois.

Sanja Fidler, vice-présidente de la recherche sur l'intelligence artificielle chez Nvidia, a déclaré :

GET3D nous rapproche de la démocratisation de la création de contenu 3D basée sur l'IA. Sa capacité à générer des formes 3D texturées à la volée pourrait changer la donne pour les développeurs, les aidant à peupler rapidement les mondes virtuels avec une variété d’objets intéressants.

Présentation de l'auteur

Le premier auteur de l'article, Jun Gao, est un doctorant dans le groupe d'apprentissage automatique de l'Université de Toronto, et son superviseur est Sanja Fidler.

En plus d'excellentes qualifications académiques, il est également chercheur scientifique au laboratoire d'intelligence artificielle NVIDIA Toronto.

Ses recherches portent principalement sur l'apprentissage profond (DL), dans le but d'un apprentissage de représentations géométriques structurées. Parallèlement, ses recherches tirent également parti de la perception humaine des images et des vidéos 2D et 3D.

Un étudiant si exceptionnel vient de l'Université de Pékin. Il a obtenu un baccalauréat en 2018. À l'Université de Pékin, il a travaillé avec le professeur Wang Liwei.

Après avoir obtenu son diplôme, il a également effectué un stage à l'Université de Stanford, MSRA et NVIDIA.

Les instructeurs de Jun Gao sont également des leaders du secteur.

Fidler est professeure agrégée à l'Université de Toronto et membre du corps professoral du Vector Institute, où elle est également membre cofondatrice.

En plus d'enseigner, elle est également vice-présidente de la recherche en intelligence artificielle chez NVIDIA, dirigeant un laboratoire de recherche à Toronto.

Avant de venir à Toronto, elle était professeure adjointe de recherche au Toyota Institute of Technology de Chicago. L'institut est situé sur le campus de l'Université de Chicago et est considéré comme une institution universitaire.

Les domaines de recherche de Fidler se concentrent sur la vision par ordinateur (CV) et l'apprentissage automatique (ML), en se concentrant sur l'intersection du CV et des graphiques, la vision 3D, la reconstruction et la synthèse 3D et les méthodes interactives d'annotation d'images, etc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

La station d'extension de carte graphique Beelink EX ne promet aucune perte de performances GPU La station d'extension de carte graphique Beelink EX ne promet aucune perte de performances GPU Aug 11, 2024 pm 09:55 PM

L'une des caractéristiques remarquables du Beelink GTi 14 récemment lancé est que le mini PC dispose d'un emplacement PCIe x8 caché en dessous. Lors du lancement, la société a déclaré que cela faciliterait la connexion d'une carte graphique externe au système. Beelink a n

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Lancement d'AMD FSR 3.1 : la fonctionnalité de génération de trames fonctionne également sur les GPU Nvidia GeForce RTX et Intel Arc Lancement d'AMD FSR 3.1 : la fonctionnalité de génération de trames fonctionne également sur les GPU Nvidia GeForce RTX et Intel Arc Jun 29, 2024 am 06:57 AM

AMD tient sa promesse initiale du 24 mars de lancer FSR 3.1 au deuxième trimestre de cette année. Ce qui distingue vraiment la version 3.1, c'est le découplage entre la génération de trames et la mise à l'échelle. Cela permet aux propriétaires de GPU Nvidia et Intel d'appliquer le FSR 3.

« AI Factory » favorisera la refonte de l'ensemble de la pile logicielle, et NVIDIA fournit des conteneurs Llama3 NIM que les utilisateurs peuvent déployer « AI Factory » favorisera la refonte de l'ensemble de la pile logicielle, et NVIDIA fournit des conteneurs Llama3 NIM que les utilisateurs peuvent déployer Jun 08, 2024 pm 07:25 PM

Selon les informations de ce site le 2 juin, lors du discours d'ouverture du Huang Renxun 2024 Taipei Computex, Huang Renxun a présenté que l'intelligence artificielle générative favoriserait la refonte de l'ensemble de la pile logicielle et a démontré ses microservices cloud natifs NIM (Nvidia Inference Microservices). . Nvidia estime que « l'usine IA » déclenchera une nouvelle révolution industrielle : en prenant comme exemple l'industrie du logiciel lancée par Microsoft, Huang Renxun estime que l'intelligence artificielle générative favorisera sa refonte complète. Pour faciliter le déploiement de services d'IA par les entreprises de toutes tailles, NVIDIA a lancé les microservices cloud natifs NIM (Nvidia Inference Microservices) en mars de cette année. NIM+ est une suite de microservices cloud natifs optimisés pour réduire les délais de commercialisation

Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. Jun 01, 2024 pm 04:41 PM

Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est essentiel d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement du LLM, une méthode efficace est l'apprentissage par renforcement basé sur le retour humain (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense. Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l’optimisation directe des préférences (DPO). DPO apprend le modèle politique directement sur la base des données de préférence en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable

Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

À la pointe de la technologie logicielle, le groupe de l'UIUC Zhang Lingming, en collaboration avec des chercheurs de l'organisation BigCode, a récemment annoncé le modèle de grand code StarCoder2-15B-Instruct. Cette réalisation innovante a permis une percée significative dans les tâches de génération de code, dépassant avec succès CodeLlama-70B-Instruct et atteignant le sommet de la liste des performances de génération de code. Le caractère unique de StarCoder2-15B-Instruct réside dans sa stratégie d'auto-alignement pur. L'ensemble du processus de formation est ouvert, transparent et complètement autonome et contrôlable. Le modèle génère des milliers d'instructions via StarCoder2-15B en réponse au réglage fin du modèle de base StarCoder-15B sans recourir à des annotations manuelles coûteuses.

Le LLM est terminé ! OmniDrive : Intégration de la perception 3D et de la planification du raisonnement (la dernière version de NVIDIA) Le LLM est terminé ! OmniDrive : Intégration de la perception 3D et de la planification du raisonnement (la dernière version de NVIDIA) May 09, 2024 pm 04:55 PM

Écrit ci-dessus et compréhension personnelle de l'auteur : cet article est dédié à la résolution des principaux défis des grands modèles de langage multimodaux (MLLM) actuels dans les applications de conduite autonome, c'est-à-dire le problème de l'extension des MLLM de la compréhension 2D à l'espace 3D. Cette expansion est particulièrement importante car les véhicules autonomes (VA) doivent prendre des décisions précises concernant les environnements 3D. La compréhension spatiale 3D est essentielle pour les véhicules utilitaires car elle a un impact direct sur la capacité du véhicule à prendre des décisions éclairées, à prédire les états futurs et à interagir en toute sécurité avec l’environnement. Les modèles de langage multimodaux actuels (tels que LLaVA-1.5) ne peuvent souvent gérer que des entrées d'images de résolution inférieure (par exemple) en raison des limitations de résolution de l'encodeur visuel et des limitations de la longueur de la séquence LLM. Cependant, les applications de conduite autonome nécessitent

See all articles