


En combinant le modèle de diffusion avec NeRF, Tsinghua Wensheng a proposé une nouvelle méthode 3D pour réaliser SOTA
Le modèle d'IA qui utilise du texte pour synthétiser des graphiques 3D a un nouveau SOTA !
Récemment, le groupe de recherche du professeur Liu Yongjin de l'Université Tsinghua a proposé une nouvelle méthode de Wensheng 3D basée sur un modèle de diffusion.
La cohérence entre les différents angles de vue et la correspondance avec les mots d'invite ont été grandement améliorées par rapport à avant.
Photos
Vincent 3D est un contenu de recherche brûlant de 3D AIGC et a reçu une large attention de la part du monde universitaire et de l'industrie.
Le nouveau modèle proposé par l’équipe de recherche du professeur Liu Yongjin s’appelle TICD (Text-Image Conditioned Diffusion), qui a atteint le niveau SOTA sur l’ensemble de données T3Bench.
Des articles pertinents ont été publiés et le code sera bientôt open source.
Les résultats de l'évaluation ont atteint SOTA
Afin d'évaluer l'effet de la méthode TICD, l'équipe de recherche a d'abord mené des expériences qualitatives et comparé certaines meilleures méthodes précédentes.
Les résultats montrent que les graphiques 3D générés par la méthode TICD ont une meilleure qualité, des graphiques plus clairs et un degré plus élevé de correspondance avec les mots d'invite.
Photos
Pour évaluer davantage les performances de ces modèles, l'équipe a testé quantitativement TICD avec ces méthodes sur l'ensemble de données T3Bench.
Les résultats montrent que TICD a obtenu les meilleurs résultats dans les trois ensembles d'invites d'objet unique, d'objet unique avec arrière-plan et d'objets multiples, prouvant ainsi ses avantages globaux en termes de qualité de génération et d'alignement du texte.
Images
De plus, afin d'évaluer davantage l'alignement du texte de ces modèles, l'équipe de recherche a également testé la similitude cosinus CLIP entre les images rendues par l'objet 3D et les mots d'invite d'origine, et les résultats ont été toujours les performances de TICD optimales.
Alors, comment la méthode TICD parvient-elle à obtenir un tel effet ?
Incorporez préalablement la cohérence multi-vues dans la supervision NeRF
Les méthodes de génération de texte 3D actuellement courantes utilisent principalement des modèles de diffusion 2D pré-entraînés pour générer en optimisant le champ de rayonnement neuronal (NeRF) via un tout nouveau modèle 3D d'échantillonnage par distillation de score (SDS).
Cependant, la supervision fournie par ce modèle de diffusion pré-entraîné est limitée au texte d'entrée lui-même, et ne contraint pas la cohérence entre plusieurs vues, et peut causer des problèmes tels qu'une mauvaise génération de structures géométriques.
Pour introduire une cohérence multi-vues dans l'avant des modèles de diffusion, certaines études récentes affinent les modèles de diffusion 2D en utilisant des données multi-vues, mais manquent toujours d'une continuité fine entre les vues.
Afin de résoudre ce défi, la méthode TICD intègre des images multi-vues conditionnées en texte et en image dans le signal de supervision optimisé par NeRF, assurant respectivement l'alignement des informations 3D et des mots d'invite et la forte corrélation entre les différentes vues de Objets 3D. La cohérence améliore efficacement la qualité des modèles 3D générés.
Images
Dans le flux de travail, TICD échantillonne d'abord plusieurs ensembles de perspectives de caméra de référence orthogonales, utilise NeRF pour restituer les vues de référence correspondantes, puis applique un modèle de diffusion conditionnelle basé sur du texte à ces vues de référence pour contraindre le contenu et cohérence globale du texte.
Sur cette base, sélectionnez plusieurs ensembles de perspectives de caméra de référence et restituez une vue à partir d'une nouvelle perspective supplémentaire pour chaque perspective. Ensuite, la relation de pose entre les deux vues et perspectives est utilisée comme nouvelle condition, et un modèle de diffusion conditionnelle basé sur l'image est utilisé pour contraindre la cohérence des détails entre les différentes perspectives.
En combinant les signaux de supervision des deux modèles de diffusion, TICD peut mettre à jour les paramètres du réseau NeRF et les optimiser de manière itérative jusqu'à ce que le modèle NeRF final soit obtenu et restitue un contenu 3D de haute qualité, géométriquement clair et cohérent avec le texte.
De plus, la méthode TICD peut éliminer efficacement des problèmes tels que la disparition d'informations géométriques, la génération excessive d'informations géométriques incorrectes et la confusion des couleurs qui peuvent survenir lorsque les méthodes existantes sont confrontées à une saisie de texte spécifique.
Adresse papier : https://www.php.cn/link/8553adf92deaf5279bcc6f9813c8fdcc
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds





Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
