Récemment, le modèle vidéo de Vincent, Sora, a déclenché une nouvelle vague de modèles d'IA génératifs, et les capacités multimodales du modèle ont attiré une large attention.
Maintenant, les modèles d'IA ont réalisé de nouvelles avancées dans la génération de contenu 3D.
Après avoir lancé avec succès des projets de génération d'images et de génération de vidéos, Stability AI, spécialisée dans la génération de contenus visuels, s'engage désormais à se développer dans le domaine de la 3D. Les dernières nouvelles montrent que la société a coopéré avec l'équipe chinoise VAST pour ouvrir conjointement un projet de modèle 3D généré par une image unique appelé TripoSR. Cette décision consolide encore la position de leader de Stability AI dans le domaine de la génération de contenu numérique et offre aux utilisateurs une expérience produit plus diversifiée et innovante.
TripoSR est capable de générer des modèles 3D de haute qualité à partir d'une seule image en 0,5 seconde et ne nécessite même pas de GPU pour fonctionner.
Code du modèle TripoSR : https://github.com/VAST-AI-Research/TripoSR
Poids du modèle TripoSR : https://huggingface.co/stabilityai/TripoSR
TripoSR Démo : https://huggingface.co/spaces/stabilityai/TripoSR
Lors du test de TripoSR sur NVIDIA A100, il a été capable de générer des modèles de maillage 3D d'esquisse de haute qualité avec des textures en 0,5 seconde environ, une performance qui dépasse les autres outils de modélisation d'images open source en 3D, tels qu'OpenLRM. En plus de la vitesse, TripoSR est entièrement utilisable par les utilisateurs avec ou sans GPU.
TripoSR s'inspire du LRM lancé par Adobe en novembre 2023. Il s'agit d'une technologie innovante de génération d'images 3D Large Reconstruction Model (LRM). LRM est unique en ce sens qu'il peut générer un modèle 3D correspondant à partir de n'importe quelle image d'entrée unique en quelques secondes seulement. Cette technologie est révolutionnaire par son efficacité et sa précision, permettant aux utilisateurs de convertir facilement des images plates en modèles tridimensionnels réalistes. TripoSR a été développé et optimisé sur la base de cette technologie, permettant aux utilisateurs de créer de superbes scènes tridimensionnelles plus rapidement et plus précisément. En combinant LRM
LRM perce et formule la tâche de modèle 3D Tusheng en une tâche de traduction séquence à séquence - en imaginant l'image d'entrée et le modèle 3D de sortie comme deux langages différents, la tâche Tusheng 3D peut être Comprendre est le processus de traduire le langage de l'image en langage de modèle 3D. Les « mots » dans le langage image (analogues aux jetons du modèle de langage et aux patchs du modèle vidéo) sont de petits morceaux en lesquels l'image saisie par l'utilisateur est divisée tandis que dans la méthode LRM, les « mots » de la 3D ; Le langage modèle est un type d'information appelé Pour chaque petit bloc de la représentation tridimensionnelle du « triplan », ce que fait LRM est de traduire les « mots » du langage image en « mots » dans le langage modèle 3D, afin de entrez l’image et sortez le modèle 3D.
Avec le soutien de l'architecture du transformateur, LRM a été formé sur plus d'un million de données 3D publiques et a démontré des effets et une efficacité de rendu 3D phénoménaux, provoquant ainsi une grande sensation dans le monde universitaire et l'industrie. Cependant, les codes et modèles pertinents ne sont pas open source et le coût énorme de la formation (128 A100 fonctionnent pendant une semaine) interdit également aux petits organismes de recherche. Ces facteurs ont grandement entravé le développement civil de cette technologie.
Cette fois, Tripo AI et Stability AI ont lancé conjointement la première implémentation open source de haute qualité de LRM - TripoSR, qui peut générer des modèles 3D de haute qualité presque en temps réel sur la base des images fournies par les utilisateurs, comblant ainsi grandement le vide dans le domaine de l’intelligence artificielle générative 3D. Une lacune critique.
Selon le blog et le rapport technique de Stability, le modèle est basé sur l'algorithme original de LRM et améliore considérablement la généralisation à partir de données de formation limitées grâce à des sous-ensembles finement filtrés et rendus de l'ensemble de données Objaverse et une série d'améliorations du modèle et de la formation. tout en améliorant également la fidélité de la reconstruction 3D. Jusqu'à l'émergence de TripoSR, les communautés universitaires et open source manquaient d'un modèle et d'un cadre de base de génération 3D ouverts, rapides et puissants, dotés de fortes capacités de généralisation. Bien qu'il existe des projets open source largement regardés tels que threestudio, la génération d'un modèle 3D est lente et gourmande en ressources en raison des technologies sur lesquelles il s'appuie (telles que l'échantillonnage des scores de distillation) qui nécessitent de longs temps d'optimisation et de calcul. Le projet Stable Zero123 précédemment publié par Stability AI dans ce sens et ses tentatives d'intégration dans threestudio ont fait quelques progrès mais n'ont toujours pas réussi à résoudre pleinement ces problèmes.
TripoSR open source permet aux chercheurs, développeurs et créateurs du monde entier d'accéder aux modèles d'IA générés en 3D les plus avancés, permettant à diverses entreprises d'utiliser du contenu 3D pour créer des produits et services plus complexes et d'explorer de nouvelles possibilités créatives dans l'industrie 3D, favorisant un marché plus actif et compétitif.性 Le graphique montre la relation entre les performances 3D F-SCORE (plus il est élevé, mieux c'est) et le temps de raisonnement (plus c'est bas, mieux c'est).
La technologie de génération de contenu 3D a connu un développement constant dans les domaines de l'infographie et de la vision par ordinateur ces dernières années. Au cours de la dernière année, notamment avec l'émergence d'ensembles de données 3D publics à grande échelle et l'avancement de modèles génératifs puissants dans le domaine des images et des vidéos 2D, la technologie générative 3D a réalisé des progrès considérables et rapides, attirant une large attention de l'industrie. . Dans ce contexte, bien que les technologies basées sur l'échantillonnage par distillation de partition (SDS) telles que DreamFusion (proposées par l'équipe de recherche de Google) aient fait des percées dans la génération de modèles 3D sous de multiples perspectives, elles sont toujours confrontées à de longs temps de génération et à des difficultés d'application pratique. contrôle granulaire sur les contraintes telles que les modèles générés.En revanche, les solutions technologiques de génération basées sur des ensembles de données 3D à grande échelle et des architectures de modèles évolutives à grande échelle, comme le TripoSR publié cette fois, démontrent la capacité de s'entraîner efficacement sur différents ensembles de données 3D. nécessite seulement un raisonnement rapide et un contrôle simple et précis des résultats du modèle 3D pendant le processus de génération. L’émergence de ce type de technologie ouvre non seulement une nouvelle voie au développement rapide de la technologie de génération 3D, mais offre également de nouvelles possibilités pour des applications plus larges dans l’industrie.
Source d'images et de données : TripoSR : reconstruction rapide d'objets 3D à partir d'une seule image
Il convient de noter que cette fois, Stability AI Tripo AI est open source commun. VAST AI Research, l'institution de recherche derrière Tripo AI, est une équipe de recherche de pointe dans le domaine de la génération de contenu 3D. Elle s'est engagée à contribuer aux contributions de la communauté open source depuis sa création et a successivement open source le code et le poids de haut niveau. -des travaux de recherche de qualité tels que Wonder3D, CSD et TGS.Tripo est un modèle génératif 3D universel lancé par VAST depuis décembre 2023 (www.tripo3d.ai). Il peut générer un modèle de maillage 3D à partir de texte ou d'images en 8 secondes, et l'affiner en 5 minutes. La qualité du modèle généré est proche du niveau manuel en termes de géométrie et de matériau. Selon le blog de VAST AI Research, le développement rapide de l'IA dans le domaine de la génération 3D nécessite une « approche universelle » qui rompt avec la dépendance à l'égard de l'expérience humaine et utilise des données plus volumineuses, des modèles plus évolutifs et la pleine utilisation d'une informatique puissante. puissance. Venez "apprendre". Cette « approche universelle » devrait inclure l'unification des données de formation pour plusieurs modalités, l'unification des conditions de contrôle pour plusieurs modalités et une infrastructure de modèle génératif commune à plusieurs modalités.
Pour atteindre cet objectif, VAST estime que le travail doit être effectué dans trois directions : la représentation, le modèle et les données. Parmi eux, le choix de la « représentation » est crucial. Il faut trouver une représentation 3D à la fois flexible et conviviale en termes de calcul, tout en garantissant la compatibilité avec les pipelines graphiques existants. En outre, l’exploration des « tokenizers 3D » est également une direction prometteuse, convertissant les représentations 3D en formes similaires aux jetons de langage, ce qui peut aider à appliquer la compréhension et les modèles de génération existants au domaine 3D. Au niveau « modèle », les recherches de VAST visent à exploiter pleinement les connaissances antérieures, les directives de conception et l'expérience de formation de grands modèles dans d'autres modalités pour améliorer la capacité d'apprentissage du modèle pour les données 3D. Les défis au niveau des « données » ne peuvent être ignorés. La rareté de ressources d’ensembles de données 3D natives et diversifiées de haute qualité limite les performances finales et les capacités de généralisation du modèle. TripoSR nous permet de voir le potentiel des modèles d'IA génératifs dans le sens 3D, et nous attendons avec impatience de nouvelles explorations dans le domaine de la génération 3D en 2024. Lien de référence :https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!