


La nouvelle méthode de segmentation de modèles 3D vous libère les mains ! Aucun étiquetage manuel n'est requis, une seule formation est requise et les catégories non étiquetées peuvent également être reconnues |
Aucune annotation manuelle n'est requise, une seule formation est nécessaire pour permettre au modèle 3D de comprendre le langage et d'identifier les catégories non étiquetées.
La segmentation des modèles 3D est désormais mains libres !
L'Université de Hong Kong et ByteDream ont collaboré et ont mis au point une nouvelle méthode :
Aucune annotation manuelle n'est requise, et une seule formation est nécessaire pour permettre au modèle 3D de comprendre le langage et d'identifier les catégories non étiquetées.
Par exemple, regardez l'exemple ci-dessous, tableau noir et moniteur non annotés. Une fois que le modèle 3D est entraîné par cette méthode, il peut rapidement « saisir » la cible pour la segmentation.
Pour un autre exemple, si vous entrez des synonymes tels que canapé et que vous toussez pour rendre les choses difficiles, cela peut être facilement gagné.
Même les catégories abstraites telles que la salle de bain peuvent être résolues.
Cette nouvelle méthode s'appelle PLA (Point-Language Assocation), qui est une méthode qui combine le nuage de points (une collection massive de points de caractéristiques de surface cible) et le langage naturel.
Actuellement, cet article a été accepté par le CVPR 2023.
Mais cela dit, aucun étiquetage manuel n'est requis, un seul entraînement est effectué, et la classification abstraite des synonymes peut également être reconnue... Il s'agit d'une superposition de plusieurs buffs.
Vous devez savoir que les données 3D et le langage naturel utilisés par les méthodes générales ne peuvent pas être obtenus directement à partir d'Internet gratuitement et nécessitent souvent des annotations manuelles coûteuses, et que les méthodes générales ne peuvent pas identifier de nouvelles catégories basées sur les connexions sémantiques entre les mots.
Alors, comment le PLA fait-il ? Jetons un coup d'oeil~
Le principe spécifique
En fait, pour parler franchement, l'étape la plus importante pour réussir la division du modèle 3D est de faire comprendre le langage naturel aux données 3D.
Professionnellement parlant, il s'agit d'introduire des descriptions en langage naturel dans des nuages de points 3D.
Comment le présenter ?
Compte tenu du fait qu'il existe actuellement des méthodes relativement efficaces pour diviser des images 2D, l'équipe de recherche a décidé de commencer par des images 2D.
Tout d'abord, convertissez le nuage de points 3D en l'image 2D correspondante, puis utilisez-le comme entrée du grand modèle multimodal 2D et extrayez-en la description linguistique de l'image.
Ensuite, en utilisant la relation de projection entre l'image et le nuage de points, la description linguistique de l'image peut naturellement être associée aux données du nuage de points 3D.
Et, afin d'être compatible avec des objets 3D de différentes granularités, PLA propose également une méthode de corrélation multi-granularité nuage de points 3D-langage naturel.
Pour l'ensemble de la scène 3D, PLA résume les descriptions de langage extraites de toutes les images correspondant à la scène, et utilise ce langage résumé pour associer l'ensemble de la scène 3D.
Pour la scène 3D partielle correspondant à chaque vue d'image, PLA utilise directement l'image comme pont pour associer le nuage de points 3D et le langage correspondant.
Pour les objets 3D plus fins, le PLA fournit des méthodes liées au langage 3D plus fines.
De cette manière, l'équipe de recherche peut obtenir des paires de nuages de points 3D - langage naturel, ce qui résout directement le problème de l'annotation manuelle.
PLA utilise le couple "nuage de points 3D-langage naturel" obtenu et la supervision des jeux de données existants pour permettre au modèle 3D de comprendre la définition du problème de détection et de segmentation.
Plus précisément, l'apprentissage contrastif est utilisé pour raccourcir la distance entre chaque paire de nuages de points 3D et le langage naturel dans l'espace des fonctionnalités, et pour repousser le nuage de points 3D et la description en langage naturel qui ne correspondent pas.
Après avoir parlé de tant de principes, comment le PLA se comporte-t-il dans des tâches de segmentation spécifiques ?
La tâche de segmentation sémantique a dépassé la ligne de base de 65 %
Les chercheurs ont testé les performances du modèle 3D du monde ouvert dans des catégories non étiquetées comme principal critère de mesure.
Premièrement, sur les tâches de segmentation sémantique de ScanNet et S3DIS, PLA a dépassé la méthode de base précédente de 35 % à 65 %.
Dans la tâche de segmentation d'instance, le PLA a également été amélioré Par rapport à la méthode précédente, l'amélioration du PLA varie de 15 % à 50 %.
Équipe de recherche
L'équipe de recherche de ce projet provient du CVMI Lab de l'Université de Hong Kong et de ByteDance.
CVMI Lab est un laboratoire d'intelligence artificielle de l'Université de Hong Kong. Le laboratoire a été créé le 1er février 2020.
Le champ de recherche couvre la vision par ordinateur et la reconnaissance de formes, l'apprentissage automatique/apprentissage profond, l'analyse de contenu image/vidéo et l'analyse du Big Data industriel basée sur l'intelligence artificielle.
Adresse théorique :https://arxiv.org/pdf/2211.16312.pdf
Propriétaire du projet :https://github.com/CVMI-Lab/PLA
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

N'oubliez pas, surtout si vous êtes un utilisateur de Teams, que Microsoft a ajouté un nouveau lot d'émojis 3DFluent à son application de visioconférence axée sur le travail. Après que Microsoft a annoncé des emojis 3D pour Teams et Windows l'année dernière, le processus a en fait permis de mettre à jour plus de 1 800 emojis existants pour la plate-forme. Cette grande idée et le lancement de la mise à jour des emoji 3DFluent pour les équipes ont été promus pour la première fois via un article de blog officiel. La dernière mise à jour de Teams apporte FluentEmojis à l'application. Microsoft affirme que les 1 800 emojis mis à jour seront disponibles chaque jour.

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Écrit ci-dessus et compréhension personnelle de l'auteur : À l'heure actuelle, dans l'ensemble du système de conduite autonome, le module de perception joue un rôle essentiel. Le véhicule autonome roulant sur la route ne peut obtenir des résultats de perception précis que via le module de perception en aval. dans le système de conduite autonome, prend des jugements et des décisions comportementales opportuns et corrects. Actuellement, les voitures dotées de fonctions de conduite autonome sont généralement équipées d'une variété de capteurs d'informations de données, notamment des capteurs de caméra à vision panoramique, des capteurs lidar et des capteurs radar à ondes millimétriques pour collecter des informations selon différentes modalités afin d'accomplir des tâches de perception précises. L'algorithme de perception BEV basé sur la vision pure est privilégié par l'industrie en raison de son faible coût matériel et de sa facilité de déploiement, et ses résultats peuvent être facilement appliqués à diverses tâches en aval.

Lorsque les rumeurs ont commencé à se répandre selon lesquelles le nouveau Windows 11 était en développement, chaque utilisateur de Microsoft était curieux de savoir à quoi ressemblerait le nouveau système d'exploitation et ce qu'il apporterait. Après de nombreuses spéculations, Windows 11 est là. Le système d'exploitation est livré avec une nouvelle conception et des modifications fonctionnelles. En plus de quelques ajouts, il s’accompagne de fonctionnalités obsolètes et supprimées. L'une des fonctionnalités qui n'existe pas dans Windows 11 est Paint3D. Bien qu'il propose toujours Paint classique, idéal pour les dessinateurs, les griffonneurs et les griffonneurs, il abandonne Paint3D, qui offre des fonctionnalités supplémentaires idéales pour les créateurs 3D. Si vous recherchez des fonctionnalités supplémentaires, nous recommandons Autodesk Maya comme le meilleur logiciel de conception 3D. comme

ChatGPT a injecté une dose de sang de poulet dans l’industrie de l’IA, et tout ce qui était autrefois impensable est devenu aujourd’hui une pratique de base. Le Text-to-3D, qui continue de progresser, est considéré comme le prochain point chaud dans le domaine de l'AIGC après la diffusion (images) et le GPT (texte), et a reçu une attention sans précédent. Non, un produit appelé ChatAvatar a été mis en version bêta publique discrète, recueillant rapidement plus de 700 000 vues et attention, et a été présenté sur Spacesoftheweek. △ChatAvatar prendra également en charge la technologie Imageto3D qui génère des personnages stylisés en 3D à partir de peintures originales à perspective unique/multi-perspective générées par l'IA. Le modèle 3D généré par la version bêta actuelle a reçu une large attention.

Lien du projet écrit devant : https://nianticlabs.github.io/mickey/ Étant donné deux images, la pose de la caméra entre elles peut être estimée en établissant la correspondance entre les images. En règle générale, ces correspondances sont 2D à 2D et nos poses estimées sont à échelle indéterminée. Certaines applications, telles que la réalité augmentée instantanée, à tout moment et en tout lieu, nécessitent une estimation de pose des métriques d'échelle, elles s'appuient donc sur des estimateurs de profondeur externes pour récupérer l'échelle. Cet article propose MicKey, un processus de correspondance de points clés capable de prédire les correspondances métriques dans l'espace d'une caméra 3D. En apprenant la correspondance des coordonnées 3D entre les images, nous sommes en mesure de déduire des métriques relatives.

Pour les applications de conduite autonome, il est finalement nécessaire de percevoir des scènes 3D. La raison est simple : un véhicule ne peut pas conduire sur la base des résultats de perception obtenus à partir d’une image. Même un conducteur humain ne peut pas conduire sur la base d’une image. Étant donné que la distance de l'objet et les informations sur la profondeur de la scène ne peuvent pas être reflétées dans les résultats de perception 2D, ces informations sont la clé permettant au système de conduite autonome de porter des jugements corrects sur l'environnement. De manière générale, les capteurs visuels (comme les caméras) des véhicules autonomes sont installés au-dessus de la carrosserie du véhicule ou sur le rétroviseur intérieur. Peu importe où elle se trouve, la caméra obtient la projection du monde réel dans la vue en perspective (PerspectiveView) (du système de coordonnées mondiales au système de coordonnées de l'image). Cette vue est très similaire au système visuel humain,
