


Une ligne de texte pour changer de visage en 3D ! L'UC Berkeley propose 'Chat-NeRF' pour réaliser un rendu de niveau blockbuster en une seule phrase
Grâce au développement de la technologie de reconstruction neuronale 3D, capturer des représentations caractéristiques de scènes 3D du monde réel n'a jamais été aussi simple.
Cependant, il n'y a jamais eu de solution simple et efficace pour l'édition de scènes 3D au-dessus de cela.
Récemment, des chercheurs de l'UC Berkeley ont proposé une méthode pour éditer des scènes NeRF à l'aide d'instructions textuelles - Instruct-NeRF2NeRF, basée sur le travail précédent InstructPix2Pix.
Adresse papier : https://arxiv.org/abs/2303.12789
En utilisant Instruct-NeRF2NeRF, nous pouvons éditer des scènes du monde réel à grande échelle avec une seule phrase, et c'est plus réel et ciblé que les travaux précédents.
Par exemple, si vous souhaitez qu'il ait une barbe, une touffe de barbe apparaîtra sur son visage !
Ou tout simplement changez de tête et devenez Einstein en quelques secondes.
De plus, étant donné que le modèle peut mettre à jour en permanence l'ensemble de données avec de nouvelles images éditées, l'effet de reconstruction de la scène s'améliorera progressivement.
NeRF + InstructPix2Pix = Instruct-NeRF2NeRF
Plus précisément, les humains reçoivent une image d'entrée et des instructions écrites qui indiquent au modèle quoi faire, et le modèle suit ensuite ces instructions pour modifier l'image.
Les étapes de mise en œuvre sont les suivantes :
- Rendu une image de la scène dans la perspective de formation.
- Utilisez le modèle InstructPix2Pix pour modifier cette image en fonction des instructions textuelles globales.
- Remplacez les images originales de l'ensemble de données d'entraînement par les images modifiées.
- Le modèle NeRF continue l'entraînement comme d'habitude.
Méthode de mise en œuvre
Par rapport à l'édition tridimensionnelle traditionnelle, NeRF2NeRF est une nouvelle méthode d'édition de scène en trois dimensions. Son plus grand point fort est l'utilisation de la « mise à jour itérative de l'ensemble de données ». technologie.
Bien que l'édition soit effectuée sur une scène 3D, l'article utilise un modèle de diffusion 2D plutôt que 3D pour extraire les a priori de forme et d'apparence car les données utilisées pour entraîner le modèle génératif 3D sont très limitées.
Ce modèle de diffusion 2D est l'InstructPix2Pix récemment développé par l'équipe de recherche - un modèle d'édition d'image 2D basé sur le texte d'instructions En saisissant des instructions d'image et de texte, il peut produire l'image modifiée.
Cependant, ce modèle 2D provoquera des changements inégaux dans différents angles de la scène. Par conséquent, la « mise à jour itérative de l'ensemble de données » a vu le jour. Cette technologie modifie alternativement « l'ensemble de données d'image d'entrée » de NeRF et met à jour la représentation 3D de base.
Cela signifie que le modèle de diffusion guidée par texte (InstructPix2Pix) générera de nouvelles variations d'image selon les instructions et utilisera ces nouvelles images comme entrée pour la formation du modèle NeRF. Par conséquent, la scène 3D reconstruite sera basée sur une nouvelle édition guidée par texte.
Dans les itérations initiales, InstructPix2Pix ne parvient souvent pas à effectuer une édition cohérente sous différents angles de vue. Cependant, pendant le processus de rendu et de mise à jour NeRF, ils convergeront vers une scène globalement cohérente.
En résumé, la méthode NeRF2NeRF améliore l'efficacité de l'édition des scènes 3D en mettant à jour de manière itérative le contenu de l'image et en intégrant ces contenus mis à jour dans la scène 3D, tout en conservant la cohérence et le réalisme de la scène.
On peut dire que ce travail de l'équipe de recherche de l'UC Berkeley est une version étendue du précédent InstructPix2Pix En combinant NeRF avec InstructPix2Pix, couplé à une « mise à jour itérative de l'ensemble de données », l'édition en un clic peut toujours jouer avec. Scènes 3D !
Il y a encore des limites, mais les défauts ne sont pas cachés
Cependant, comme Instruct-NeRF2NeRF est basé sur le précédent InstructPix2Pix, il hérite de nombreuses limitations de ce dernier, comme l'incapacité d'effectuer des opérations spatiales à grande échelle.
De plus, comme DreamFusion, Instruct-NeRF2NeRF ne peut utiliser le modèle de diffusion que sur une vue à la fois, vous pouvez donc également rencontrer des problèmes d'artefact similaires.
L'image ci-dessous montre deux types de cas d'échec :
(1) Pix2Pix ne peut pas effectuer de montage en 2D, donc NeRF2NeRF échoue également en 3D
(2) Pix2Pix en 2D Le montage pourrait être effectué ; , mais il y avait de grosses incohérences en 3D, donc NeRF2NeRF n'a pas réussi non plus.
Un autre exemple est le "panda" ci-dessous. Non seulement il a l'air très féroce (la statue prototype est très féroce), mais la couleur de sa fourrure est aussi un peu bizarre, et ses yeux le sont. évidemment "croisé" lors du déplacement dans le moule".
Depuis que ChatGPT, Diffusion et NeRF ont été mis sous les projecteurs, on peut dire que cet article met pleinement en valeur les avantages des trois, passant du « dessin IA en une phrase » à « l'édition IA » Scènes 3D en une phrase" ».
Bien que la méthode présente certaines limites, elle a toujours ses défauts et fournit une solution simple et réalisable pour l'édition de fonctionnalités 3D, qui devrait devenir une étape importante dans le développement de NeRF.
Modifier des scènes 3D en une phrase
Enfin, jetons un œil aux effets proposés par l'auteur.
Il n'est pas difficile de voir que cet artefact d'édition de scènes 3D PS en un clic est plus conforme aux attentes en termes de capacité de compréhension des commandes et de réalisme de l'image. À l'avenir, il pourrait devenir un « nouveau favori » parmi les universitaires. et les internautes Suite à ChatGPT, un Chat-NeRFs a été créé.
Même si vous modifiez à volonté le contexte environnemental, les caractéristiques des quatre saisons et la météo de l'image, la nouvelle image sera complètement cohérente avec la logique de la réalité.
Photo originale :
Automne :
Jour de neige :
Désert :
Tempête :
Référence : https://www.php.cn/link/eebeb300882677f350ea818c8f333f5b9
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Les utilisateurs de T-Mobile ont commencé à remarquer que l'icône de réseau sur l'écran de leur téléphone indique parfois 5GUC, tandis que d'autres opérateurs lisent 5GUW. Ce n’est pas une faute de frappe, mais représente un type différent de réseau 5G. En fait, les opérateurs étendent constamment leur couverture réseau 5G. Dans cette rubrique, nous examinerons la signification des icônes 5GUC et 5GUW affichées sur les smartphones T-Mobile. Les deux logos représentent différentes technologies 5G, chacune avec ses propres caractéristiques et avantages. En comprenant la signification de ces signes, les utilisateurs peuvent mieux comprendre le type de réseau 5G auquel ils sont connectés afin de pouvoir choisir le service réseau qui correspond le mieux à leurs besoins. Icône 5GUCVS5GUW en T

N'oubliez pas, surtout si vous êtes un utilisateur de Teams, que Microsoft a ajouté un nouveau lot d'émojis 3DFluent à son application de visioconférence axée sur le travail. Après que Microsoft a annoncé des emojis 3D pour Teams et Windows l'année dernière, le processus a en fait permis de mettre à jour plus de 1 800 emojis existants pour la plate-forme. Cette grande idée et le lancement de la mise à jour des emoji 3DFluent pour les équipes ont été promus pour la première fois via un article de blog officiel. La dernière mise à jour de Teams apporte FluentEmojis à l'application. Microsoft affirme que les 1 800 emojis mis à jour seront disponibles chaque jour.

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Écrit ci-dessus et compréhension personnelle de l'auteur : À l'heure actuelle, dans l'ensemble du système de conduite autonome, le module de perception joue un rôle essentiel. Le véhicule autonome roulant sur la route ne peut obtenir des résultats de perception précis que via le module de perception en aval. dans le système de conduite autonome, prend des jugements et des décisions comportementales opportuns et corrects. Actuellement, les voitures dotées de fonctions de conduite autonome sont généralement équipées d'une variété de capteurs d'informations de données, notamment des capteurs de caméra à vision panoramique, des capteurs lidar et des capteurs radar à ondes millimétriques pour collecter des informations selon différentes modalités afin d'accomplir des tâches de perception précises. L'algorithme de perception BEV basé sur la vision pure est privilégié par l'industrie en raison de son faible coût matériel et de sa facilité de déploiement, et ses résultats peuvent être facilement appliqués à diverses tâches en aval.

Lorsque les rumeurs ont commencé à se répandre selon lesquelles le nouveau Windows 11 était en développement, chaque utilisateur de Microsoft était curieux de savoir à quoi ressemblerait le nouveau système d'exploitation et ce qu'il apporterait. Après de nombreuses spéculations, Windows 11 est là. Le système d'exploitation est livré avec une nouvelle conception et des modifications fonctionnelles. En plus de quelques ajouts, il s’accompagne de fonctionnalités obsolètes et supprimées. L'une des fonctionnalités qui n'existe pas dans Windows 11 est Paint3D. Bien qu'il propose toujours Paint classique, idéal pour les dessinateurs, les griffonneurs et les griffonneurs, il abandonne Paint3D, qui offre des fonctionnalités supplémentaires idéales pour les créateurs 3D. Si vous recherchez des fonctionnalités supplémentaires, nous recommandons Autodesk Maya comme le meilleur logiciel de conception 3D. comme

ChatGPT a injecté une dose de sang de poulet dans l’industrie de l’IA, et tout ce qui était autrefois impensable est devenu aujourd’hui une pratique de base. Le Text-to-3D, qui continue de progresser, est considéré comme le prochain point chaud dans le domaine de l'AIGC après la diffusion (images) et le GPT (texte), et a reçu une attention sans précédent. Non, un produit appelé ChatAvatar a été mis en version bêta publique discrète, recueillant rapidement plus de 700 000 vues et attention, et a été présenté sur Spacesoftheweek. △ChatAvatar prendra également en charge la technologie Imageto3D qui génère des personnages stylisés en 3D à partir de peintures originales à perspective unique/multi-perspective générées par l'IA. Le modèle 3D généré par la version bêta actuelle a reçu une large attention.

Lien du projet écrit devant : https://nianticlabs.github.io/mickey/ Étant donné deux images, la pose de la caméra entre elles peut être estimée en établissant la correspondance entre les images. En règle générale, ces correspondances sont 2D à 2D et nos poses estimées sont à échelle indéterminée. Certaines applications, telles que la réalité augmentée instantanée, à tout moment et en tout lieu, nécessitent une estimation de pose des métriques d'échelle, elles s'appuient donc sur des estimateurs de profondeur externes pour récupérer l'échelle. Cet article propose MicKey, un processus de correspondance de points clés capable de prédire les correspondances métriques dans l'espace d'une caméra 3D. En apprenant la correspondance des coordonnées 3D entre les images, nous sommes en mesure de déduire des métriques relatives.
