


Un GPU, 20 modèles par seconde ! Le nouveau jouet de NVIDIA utilise GET3D pour créer l'univers
Abracadabra !
En termes de modèles 3D générés en 2D, NVIDIA a dévoilé sa recherche autoproclamée de « classe mondiale » : GET3D.
Après un entraînement sur des images 2D, le modèle génère des formes 3D avec des textures haute fidélité et des détails géométriques complexes.
Quelle est sa puissance ?
Personnalisation de la forme, de la texture et des matériaux
GET3D doit son nom à sa capacité à générer des maillages 3D texturés explicites.
Adresse papier : https://arxiv.org/pdf/2209.11163.pdf
C'est-à-dire que la forme qu'il crée a la forme d'un maillage triangulaire, tout comme un modèle en papier Idem, recouvert d'un matériau texturé.
La clé est que ce modèle peut générer une variété de modèles de haute qualité.
Par exemple, diverses roues sur les pieds de chaise ; roues de voiture, lumières et fenêtres ; oreilles et cornes d'animaux ; rétroviseurs de moto, textures sur pneus de voiture, vêtements humains... .
; Bâtiments uniques des deux côtés de la rue, différents véhicules qui passent à toute allure et différents groupes de personnes qui passent...
Si vous souhaitez créer le même monde virtuel 3D grâce à la modélisation manuelle, cela prend beaucoup de temps.
Bien que les précédents modèles d'IA générés en 3D soient plus rapides que la modélisation manuelle, leur capacité à générer des modèles plus riches et détaillés fait toujours défaut.
Même les dernières méthodes de rendu inverse ne peuvent générer que des objets 3D basés sur des images 2D prises sous différents angles, et les développeurs ne peuvent construire qu'un seul objet 3D à la fois.
GET3D est différent.
Les développeurs peuvent facilement importer les modèles générés dans les moteurs de jeu, les modeleurs 3D et les moteurs de rendu de films pour les modifier.
Lorsque les créateurs exportent des modèles générés par GET3D vers des applications graphiques, ils peuvent appliquer des effets d'éclairage réalistes lorsque le modèle bouge ou tourne dans la scène.
Comme le montre l'image :
De plus, GET3D peut également générer des formes guidées par du texte.
En utilisant StyleGAN-NADA, un autre outil d'IA de NVIDIA, les développeurs peuvent ajouter des styles spécifiques aux images à l'aide d'invites de texte.
Par exemple, vous pouvez transformer une voiture rendue en voiture ou en taxi incendié.
Convertissez une maison ordinaire en maison en brique, en maison en feu ou même en maison hantée.
Ou appliquez les caractéristiques des imprimés tigre et panda à n'importe quel animal...
C'est tout simplement "Animal Crossing" des Simpsons...
NVIDIA a introduit que lorsqu'il est entraîné sur un seul GPU NVIDIA, GET3D peut générer environ 20 objets par seconde.
Ici, plus l'ensemble de données d'entraînement à partir duquel il apprend est vaste et diversifié, plus le résultat sera diversifié et détaillé.
NVIDIA a déclaré que l'équipe de recherche a utilisé le GPU A100 pour entraîner le modèle sur environ 1 million d'images en seulement 2 jours.
Méthodes et processus de recherche
Cadre GET3D, sa fonction principale est de synthétiser des formes tridimensionnelles texturées.
Le processus de génération est divisé en deux parties : la première partie est la branche géométrique, qui peut produire des maillages de surface de n'importe quelle topologie. L'autre partie est la branche texture, qui produit un champ de texture à partir duquel les points de surface peuvent être interrogés.
Pendant le processus de formation, un rastériseur différenciable est utilisé pour restituer efficacement le maillage de texture résultant en une image bidimensionnelle haute résolution. L'ensemble du processus est séparable, permettant un entraînement contradictoire à partir d'images en propageant les gradients du discriminateur 2D.
Après cela, le gradient se propage du discriminateur 2D aux deux branches du générateur.
Les chercheurs ont mené des expériences approfondies pour évaluer le modèle. Ils ont d’abord comparé la qualité des maillages texturés 3D générés par GET3D avec ceux existants générés à l’aide des ensembles de données ShapeNet et Turbosquid.
Ensuite, les chercheurs ont optimisé le modèle dans des études ultérieures sur la base des résultats de la comparaison et ont mené davantage d'expériences.
Le modèle GET3D est capable de séparer les phases en géométrie et en texture.
Comme le montre la figure, la forme générée par le même code caché de géométrie est affichée dans chaque ligne, tandis que le code de texture est modifié.
Affiché dans chaque colonne les formes générées par le même code de masquage de texture lors de la modification du code de géométrie.
De plus, les chercheurs ont inséré le code caché de la géométrie de gauche à droite dans les formes générées par le même code caché de texture dans chaque rangée.
et les formes générées par le même code caché de géométrie tout en insérant le code de texture de haut en bas. Les résultats montrent que chaque interpolation est significative pour le modèle généré.
Dans le sous-graphe de chaque modèle, GET3D est capable de générer des transitions fluides entre les différentes formes dans toutes les catégories.
Dans chaque ligne, perturbez localement le code caché en ajoutant un petit bruit. De cette manière, GET3D est capable de générer localement des formes similaires mais légèrement différentes.
Les chercheurs notent que les futures versions de GET3D pourraient utiliser la technologie d'estimation de la pose de la caméra, permettant aux développeurs de former des modèles sur des données du monde réel plutôt que sur des ensembles de données synthétiques.
À l'avenir, grâce à des améliorations, les développeurs pourront entraîner GET3D sur une variété de formes 3D en une seule fois, au lieu de devoir l'entraîner sur une catégorie d'objets à la fois.
Sanja Fidler, vice-présidente de la recherche sur l'intelligence artificielle chez Nvidia, a déclaré :
GET3D nous rapproche de la démocratisation de la création de contenu 3D basée sur l'IA. Sa capacité à générer des formes 3D texturées à la volée pourrait changer la donne pour les développeurs, les aidant à peupler rapidement les mondes virtuels avec une variété d’objets intéressants.
Présentation de l'auteur
Le premier auteur de l'article, Jun Gao, est un doctorant dans le groupe d'apprentissage automatique de l'Université de Toronto, et son superviseur est Sanja Fidler.
En plus d'excellentes qualifications académiques, il est également chercheur scientifique au laboratoire d'intelligence artificielle NVIDIA Toronto.
Ses recherches portent principalement sur l'apprentissage profond (DL), dans le but d'un apprentissage de représentations géométriques structurées. Parallèlement, ses recherches tirent également parti de la perception humaine des images et des vidéos 2D et 3D.
Un étudiant si exceptionnel vient de l'Université de Pékin. Il a obtenu un baccalauréat en 2018. À l'Université de Pékin, il a travaillé avec le professeur Wang Liwei.
Après avoir obtenu son diplôme, il a également effectué un stage à l'Université de Stanford, MSRA et NVIDIA.
Les instructeurs de Jun Gao sont également des leaders du secteur.
Fidler est professeure agrégée à l'Université de Toronto et membre du corps professoral du Vector Institute, où elle est également membre cofondatrice.
En plus d'enseigner, elle est également vice-présidente de la recherche en intelligence artificielle chez NVIDIA, dirigeant un laboratoire de recherche à Toronto.
Avant de venir à Toronto, elle était professeure adjointe de recherche au Toyota Institute of Technology de Chicago. L'institut est situé sur le campus de l'Université de Chicago et est considéré comme une institution universitaire.
Les domaines de recherche de Fidler se concentrent sur la vision par ordinateur (CV) et l'apprentissage automatique (ML), en se concentrant sur l'intersection du CV et des graphiques, la vision 3D, la reconstruction et la synthèse 3D et les méthodes interactives d'annotation d'images, etc.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'une des caractéristiques remarquables du Beelink GTi 14 récemment lancé est que le mini PC dispose d'un emplacement PCIe x8 caché en dessous. Lors du lancement, la société a déclaré que cela faciliterait la connexion d'une carte graphique externe au système. Beelink a n

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

AMD tient sa promesse initiale du 24 mars de lancer FSR 3.1 au deuxième trimestre de cette année. Ce qui distingue vraiment la version 3.1, c'est le découplage entre la génération de trames et la mise à l'échelle. Cela permet aux propriétaires de GPU Nvidia et Intel d'appliquer le FSR 3.

Selon les informations de ce site le 2 juin, lors du discours d'ouverture du Huang Renxun 2024 Taipei Computex, Huang Renxun a présenté que l'intelligence artificielle générative favoriserait la refonte de l'ensemble de la pile logicielle et a démontré ses microservices cloud natifs NIM (Nvidia Inference Microservices). . Nvidia estime que « l'usine IA » déclenchera une nouvelle révolution industrielle : en prenant comme exemple l'industrie du logiciel lancée par Microsoft, Huang Renxun estime que l'intelligence artificielle générative favorisera sa refonte complète. Pour faciliter le déploiement de services d'IA par les entreprises de toutes tailles, NVIDIA a lancé les microservices cloud natifs NIM (Nvidia Inference Microservices) en mars de cette année. NIM+ est une suite de microservices cloud natifs optimisés pour réduire les délais de commercialisation

Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est essentiel d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement du LLM, une méthode efficace est l'apprentissage par renforcement basé sur le retour humain (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense. Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l’optimisation directe des préférences (DPO). DPO apprend le modèle politique directement sur la base des données de préférence en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable

À la pointe de la technologie logicielle, le groupe de l'UIUC Zhang Lingming, en collaboration avec des chercheurs de l'organisation BigCode, a récemment annoncé le modèle de grand code StarCoder2-15B-Instruct. Cette réalisation innovante a permis une percée significative dans les tâches de génération de code, dépassant avec succès CodeLlama-70B-Instruct et atteignant le sommet de la liste des performances de génération de code. Le caractère unique de StarCoder2-15B-Instruct réside dans sa stratégie d'auto-alignement pur. L'ensemble du processus de formation est ouvert, transparent et complètement autonome et contrôlable. Le modèle génère des milliers d'instructions via StarCoder2-15B en réponse au réglage fin du modèle de base StarCoder-15B sans recourir à des annotations manuelles coûteuses.

Écrit ci-dessus et compréhension personnelle de l'auteur : cet article est dédié à la résolution des principaux défis des grands modèles de langage multimodaux (MLLM) actuels dans les applications de conduite autonome, c'est-à-dire le problème de l'extension des MLLM de la compréhension 2D à l'espace 3D. Cette expansion est particulièrement importante car les véhicules autonomes (VA) doivent prendre des décisions précises concernant les environnements 3D. La compréhension spatiale 3D est essentielle pour les véhicules utilitaires car elle a un impact direct sur la capacité du véhicule à prendre des décisions éclairées, à prédire les états futurs et à interagir en toute sécurité avec l’environnement. Les modèles de langage multimodaux actuels (tels que LLaVA-1.5) ne peuvent souvent gérer que des entrées d'images de résolution inférieure (par exemple) en raison des limitations de résolution de l'encodeur visuel et des limitations de la longueur de la séquence LLM. Cependant, les applications de conduite autonome nécessitent
