


Deux articles ont été nominés pour la mention honorable du meilleur article en même temps. La première équipe chinoise en direct en temps réel de SIGGRAPH utilise l'IA générative pour créer un monde 3D.
SIGGRAPH, la plus grande conférence académique mondiale axée sur l'infographie, émerge avec une nouvelle tendance.
Lors de la conférence SIGGRAPH 2024 qui s'est tenue la semaine dernière, parmi les meilleurs articles et autres récompenses, l'équipe du laboratoire MARS de l'Université des sciences et technologies de Shanghai a reçu en même temps deux nominations honoraires pour le meilleur article, et ses résultats de recherche sont elle évolue également rapidement vers l’industrialisation.
L'auteur utilise la méthode des modèles génératifs pour ouvrir une nouvelle façon de transformer directement l'imagination en modèles 3D complexes.文 Clay et Dresscode, qui sont nominés pour les meilleurs articles, sont des produits générés en 3D et des vêtements en 3D.
Zhang Qixuan, l'auteur de l'article, étudiant de deuxième année et CTO de la startup Yingmo Technology, a été le premier à démontrer la solution de génération 3D basée sur CLAY. L'année dernière, l'équipe Shadow Eye a construit des modèles 3D réalistes pour Zuckerberg et Jen-Hsun Huang à l'aide de simples invites textuelles (Prompt), devenant ainsi la première équipe chinoise à participer au SIGGRAPH Real-Time Live. Cette année, leur solution de génération 3D utilise une seule image comme entrée pour générer des images de dessins animés de Xiao Zha et Lao Huang dans différents styles.
Derrière ces contenus générés se cache le moteur d'IA 3D nouvelle génération Rodin, qui rend hommage au célèbre sculpteur Rodin. Le contenu 3D affiché sur le site est directement généré à partir d'une seule image téléchargée par l'utilisateur, et Rodin peut en outre générer des textures PBR et des surfaces quadrilatérales pour faciliter les modifications et l'utilisation ultérieures par les artistes.
Avec 3D ControlNet, Rodin peut contrôler les formes générées par l'IA. Simplement fournis à titre indicatif, des éléments géométriques simples peuvent être convertis en voxels et transformés en actifs 3D requis en fonction des informations sémantiques de l'image de référence.
Rodin prend également en charge les images directes dessinées à la main, même les simples graffitis. Quelques photos ont été utilisées pour générer des personnages 3D et des graffitis d'enfants ont généré des arbres en arrière-plan. Les développeurs ont opéré sur place en temps réel et ont construit une scène de modélisation 3D complète en une minute. Lorsque l'hôte a demandé qui était le petit monstre au milieu, Zhang Qixuan a répondu avec humour qu'il s'agissait de l'IA.
En parlant de cela, la dernière fois que la génération de modèles 3D a été hors du cercle, c'était en fait au SIGGRAPH : en 2021, NVIDIA a introduit la méthode de création de modèles 3D pour Huang Renxun sur cette scène, choquant le monde avec du faux et du vrai. effets.
À cette époque, la génération de modèles 3D était considérée comme cruciale pour des technologies telles que les humains numériques et la réalité virtuelle. Mais il ne fait aucun doute que le coût élevé de la numérisation corporelle de haute précision + de la reconstruction par apprentissage profond détermine qu'il n'est pas destiné à être produit en série.
Utiliser la génération IA peut être une meilleure voie. Cependant, dans le passé, les technologies proposées par les gens dans ce sens ont toujours été « applaudies mais peu populaires ».
La 3D est un problème industriel. Il ne suffit pas qu'un modèle soit performant visuellement, il doit également se conformer à des normes industrielles spécifiques
, comme la manière dont les matériaux sont représentés, les patchs. planification, dans quelle mesure la structure est-elle raisonnable. S’il ne peut pas être aligné sur les normes de l’industrie humaine, les résultats générés nécessiteront de nombreux ajustements et seront difficiles à appliquer à la production. Tout comme les grands modèles linguistiques (LLM) doivent être alignés sur les valeurs humaines, les modèles d'IA générés en 3D doivent être alignés sur les normes complexes de l'industrie 3D.Une solution plus pratique a émergé : la 3D native
L'une des meilleures nominations d'articles pour le laboratoire MARS de l'Université des sciences et technologies de Shanghai - CLAY a permis à l'industrie de voir une solution réalisable aux problèmes ci-dessus, à savoir la 3D indigène. Nous savons qu'au cours des deux dernières années, les voies techniques de génération 3D peuvent être grossièrement divisées en deux catégories : l'amélioration de la dimensionnalité 2D et la 3D native.L'amélioration de la dimensionnalité 2D est un processus permettant de réaliser une reconstruction tridimensionnelle grâce à un modèle de diffusion 2D combiné à des méthodes telles que NeRF. Parce qu’ils peuvent être formés sur de grandes quantités de données d’images 2D, ces modèles ont tendance à produire des résultats divers. Cependant, en raison des capacités 3D préalables insuffisantes du modèle de diffusion 2D, ce type de modèle a une capacité limitée à comprendre le monde 3D et est susceptible de générer des résultats avec des structures géométriques déraisonnables (telles que des personnes ou des animaux à plusieurs têtes).
Une série de travaux récents de reconstruction multi-vues ont atténué ce problème dans une certaine mesure en ajoutant des images 2D multi-vues d'actifs 3D aux données d'entraînement du modèle de diffusion 2D. Mais la limite est que le point de départ de ces méthodes est les images 2D, elles se concentrent donc sur la qualité des images générées plutôt que d'essayer de maintenir la fidélité géométrique, de sorte que les géométries générées sont souvent incomplètes et manquent de détails.
En d'autres termes, les données 2D n'enregistrent qu'un seul côté, ou projection, du monde réel. Les images sous plusieurs angles ne peuvent pas décrire complètement un contenu tridimensionnel. Par conséquent, il manque encore beaucoup d'informations dans ce que le modèle apprend. et les résultats générés sont toujours Cela nécessite beaucoup de modifications et est difficile à répondre aux normes de l'industrie.
Considérant ces limites, l'équipe de recherche de CLAY a choisi une autre voie : la 3D native.
Cet itinéraire entraîne des modèles génératifs directement à partir d'ensembles de données 3D, extrayant de riches a priori 3D à partir d'une variété de géométries 3D. En conséquence, le modèle peut mieux « comprendre » et préserver les caractéristiques géométriques.
Cependant, ce type de modèle doit être suffisamment grand pour « émerger » avec de puissantes capacités de génération, et des modèles plus grands doivent être formés sur des ensembles de données plus grands. Comme nous le savons tous, les ensembles de données 3D de haute qualité sont très rares et coûteux, ce qui constitue le premier problème que la route 3D native doit résoudre.
Dans cet article CLAY, les chercheurs utilisent des pipelines de traitement de données personnalisés pour exploiter plusieurs ensembles de données 3D et proposent des techniques efficaces pour mettre à l'échelle le modèle génératif.
Plus précisément, leur processus de traitement des données commence par un algorithme de remaillage personnalisé pour convertir les données 3D en maillages étanches, en préservant soigneusement des éléments tels que les bords durs et les surfaces planes. De plus, ils ont exploité GPT-4V pour créer des annotations détaillées mettant en évidence des caractéristiques géométriques importantes.
Après avoir suivi le processus de traitement ci-dessus, de nombreux ensembles de données sont combinés dans l'ensemble de données de modèle 3D ultra-large utilisé pour la formation du modèle CLAY. Auparavant, ces ensembles de données n'avaient jamais été utilisés ensemble pour former des modèles génératifs 3D en raison de formats différents et d'un manque de cohérence. L'ensemble de données combiné traité conserve une représentation cohérente et des annotations cohérentes, ce qui peut grandement améliorer la généralisation des modèles génératifs.
CLAY formé à l'aide de cet ensemble de données contient un modèle génératif 3D avec jusqu'à 1,5 milliard de paramètres. Afin de garantir que la perte d'informations résultant de la conversion d'un ensemble de données en expression implicite en sortie soit aussi faible que possible, ils ont passé beaucoup de temps à examiner et à améliorer, et ont finalement exploré une nouvelle méthode d'expression 3D efficace. Plus précisément, ils ont adopté la conception du champ neuronal dans 3DShape2VecSet pour décrire une surface continue et complète, et l'ont combiné avec un VAE géométrique multi-résolution spécialement conçu pour traiter des nuages de points de différentes résolutions, lui permettant de s'adapter à la taille du vecteur latent (latent). taille).
Afin de faciliter l'expansion du modèle, CLAY utilise un transformateur de diffusion latente minimaliste (DiT). Il est composé de Transformer, peut s'adapter à la taille du vecteur latent et dispose d'une grande évolutivité du modèle. De plus, CLAY introduit également un schéma de formation progressif en augmentant progressivement la taille du vecteur latent et les paramètres du modèle.
Enfin, CLAY permet un contrôle précis de la géométrie, et les utilisateurs peuvent contrôler la complexité, le style, etc. (même les caractères) de la génération de géométrie en ajustant les mots d'invite. Par rapport aux méthodes précédentes, CLAY peut générer rapidement une géométrie détaillée et garantir des caractéristiques géométriques importantes telles que les surfaces planes et l'intégrité structurelle.
Certains résultats de l'article démontrent pleinement les avantages des chemins 3D natifs. La figure ci-dessous montre les trois premiers échantillons voisins les plus proches récupérés par le chercheur à partir de l'ensemble de données. La géométrie de haute qualité générée par CLAY correspond aux mots d'invite, mais est différente des échantillons de l'ensemble de données, montrant une richesse suffisante et la capacité d'émerger de grands modèles.
Um die direkte Nutzung der generierten digitalen Assets in bestehenden CG-Produktionspipelines zu ermöglichen, haben die Forscher außerdem eine zweistufige Lösung gewählt:
1. Die geometrische Optimierung gewährleistet strukturelle Integrität und Kompatibilität bei gleichzeitiger Beibehaltung der Ästhetik und der funktionalen Verfeinerung Form des Modells, wie z. B. Viereckigkeit, UV-Ausdehnung usw.;
2. Die Materialsynthese verleiht dem Modell eine realistische Textur. Zusammengenommen verwandeln diese Schritte ein grobes Netz in ein besser nutzbares Asset in einer digitalen Umgebung.
Unter anderem umfasst die zweite Stufe ein Multi-View-Materialdiffusionsmodell mit fast 1 Milliarde Parametern. Nach der Quadrifizierung des Netzes und der UV-Abwicklung wird über einen Multi-View-Ansatz ein PBR-Material generiert, das dann auf UV-Karten zurückprojiziert wird. Dieses Modell generiert realistischere PBR-Materialien als frühere Methoden, was zu realistischen Renderings führt.
Damit CLAY mehr Aufgaben unterstützen kann, haben die Forscher auch eine 3D-Version von ControlNet entworfen. Die minimalistische Architektur ermöglicht die effiziente Unterstützung der Zustandskontrolle verschiedener Modi. Sie implementierten mehrere Beispielbedingungen, die Benutzer einfach bereitstellen können, darunter Text (nativ unterstützt) sowie Bilder/Skizzen, Voxel, Multiview-Bilder, Punktwolken und Begrenzungsrahmen) und eine Teilpunktwolke mit einem Begrenzungsrahmen. Diese Bedingungen können einzeln oder in Kombination angewendet werden, sodass das Modell Inhalte basierend auf einer einzelnen Bedingung originalgetreu generieren oder mehrere Bedingungen kombinieren kann, um 3D-Inhalte mit Stil und Benutzerkontrolle zu erstellen, was eine breite Palette kreativer Möglichkeiten bietet.
Darüber hinaus unterstützt CLAY auch direkt Low-Rank Adaptation (LoRA) auf den Aufmerksamkeitsebenen von DiT. Dies ermöglicht eine effiziente Feinabstimmung, sodass der generierte 3D-Inhalt an einen bestimmten Stil angepasst werden kann.
Anhand dieser Designs ist nicht schwer zu erkennen, dass das Design von CLAY von Anfang an auf Anwendungsszenarien abzielt, was sich stark von einigen rein akademischen Untersuchungen unterscheidet.
Dadurch lässt sich das Modell auch schnell umsetzen: Rodin ist mittlerweile für viele 3D-Entwickler zum häufig verwendeten 3D-Generator geworden.文 Sie können auf klicken, um den Originaltext zu lesen und auf das Rodin-Erlebnisprodukt zuzugreifen (es wird empfohlen, die PC-Seite zu öffnen).
Das MARS-Laborteam der Shanghai University of Science and Technology, das zu CLAY beigetragen hat, wurde in den 50 Jahren seit der Gründung von SIGGRAPH im Jahr 2023 als erstes chinesisches Team für die Echtzeit-Live-Sitzung ausgewählt. Das hat es getan stand zum zweiten Mal in Folge auf dieser Bühne.
Shadow Eye Technology erforscht den Weg der nativen 3D-KI und entwickelt 3D-Produkte, die kurz vor der Produktionsreife stehen, wodurch die Schwelle für die 3D-Erstellung deutlich gesenkt wird.
Die auf CLAY basierende 3D-Generierungstechnologie gibt nicht nur die Richtung der Branche vor, sondern wird auch eine positive Rolle bei der Generierung von Bildern und Videos spielen. Denn aus Sicht der Informationsentropie ist der Spielraum für das Modell umso größer, je weniger Informationen Sie bereitstellen. Durch 3D-Modellierung kann die Konvergenzrichtung verankert und die Steuerbarkeit der Bild- und Videoerzeugung verbessert werden.
Der 3D-Bereich selbst ist jedoch nicht so einfach wie Bilder und Videos. Erst wenn die vollständige Kette abgeschlossen ist, werden Benutzer beginnen, die Fähigkeiten von 3D + KI wirklich zu akzeptieren. Dieser Teil der Arbeit kann über die API des Partners oder von dessen Team selbst erledigt werden.
Ich freue mich auf die weitere Implementierung neuer Technologien in der Zukunft.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir
