Maison Périphériques technologiques IA Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Apr 08, 2023 pm 09:41 PM
框架 3d

Article arXiv "Unifying Voxel-based Representation with Transformer for 3D Object Detection", 22 juin, Université chinoise de Hong Kong, Université de Hong Kong, Megvii Technology (à la mémoire du Dr Sun Jian) ​​​​et Simou Technology, etc.

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Cet article propose un cadre de détection d'objets 3D multimodal unifié appelé UVTR. Cette méthode vise à unifier les représentations multimodales de l’espace voxel et à permettre une détection 3D monomodale ou multimodale précise et robuste. À cette fin, les espaces spécifiques aux modalités sont d’abord conçus pour représenter différentes entrées dans l’espace des fonctionnalités du voxel. Préservez l’espace voxel sans compression de hauteur, atténuez l’ambiguïté sémantique et activez l’interaction spatiale. Sur la base de cette approche unifiée, une interaction intermodale est proposée pour utiliser pleinement les caractéristiques inhérentes des différents capteurs, notamment le transfert de connaissances et la fusion modale. De cette manière, les expressions de nuages ​​de points tenant compte de la géométrie et les caractéristiques riches en contexte dans les images peuvent être bien exploitées, ce qui se traduit par de meilleures performances et robustesse.

Le décodeur de transformateur est utilisé pour échantillonner efficacement les fonctionnalités d'un espace unifié avec des emplacements apprenables, ce qui facilite les interactions au niveau des objets. D'une manière générale, UVTR représente une première tentative de représentation de différentes modalités dans un cadre unifié, surpassant les travaux antérieurs sur les entrées monomodales et multimodales, atteignant des performances de pointe sur l'ensemble de test nuScenes, le lidar, la caméra et les NDS de sortie multimodale. 69,7%, 55,1% et 71,1% respectivement.

Code : https://github.com/dvlab-research/UVTR.

Comme le montre la figure :

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Dans le processus d'unification de la représentation, l'entrée peut être grossièrement divisé en représentation du débit de niveau et débit de niveau caractéristique. Pour la première approche, les données multimodales sont alignées au début du réseau. En particulier, le pseudo-nuage de points dans (a) est converti à partir de l'image assistée en profondeur prédite, tandis que l'image de distance dans (b) est projetée à partir du nuage de points. En raison des imprécisions de profondeur dans les pseudo-nuages ​​de points et de l'effondrement géométrique 3D dans les images à distance, la structure spatiale des données est détruite, conduisant à de mauvais résultats. Pour les méthodes au niveau des fonctionnalités, la méthode typique consiste à convertir les fonctionnalités de l'image en frustum, puis à les compresser dans l'espace BEV, comme le montre la figure (c). Cependant, en raison de sa trajectoire semblable à un rayon, la compression des informations de hauteur (hauteur) à chaque position regroupe les caractéristiques de diverses cibles, introduisant ainsi une ambiguïté sémantique. Dans le même temps, son approche implicite est difficile à prendre en charge l’interaction explicite des fonctionnalités dans l’espace 3D et limite le transfert de connaissances ultérieur. Par conséquent, une représentation plus unifiée est nécessaire pour combler les écarts modaux et faciliter les interactions multiformes.

Le framework proposé dans cet article unifie la représentation basée sur les voxels et le transformateur. En particulier, la représentation et l'interaction des images et des nuages ​​de points dans un espace explicite basé sur des voxels. Pour les images, l'espace voxel est construit en échantillonnant les caractéristiques du plan image en fonction de la profondeur prévue et des contraintes géométriques, comme le montre la figure (d). Pour les nuages ​​de points, des emplacements précis permettent naturellement d'associer les entités aux voxels. Ensuite, un encodeur voxel est introduit pour l'interaction spatiale afin d'établir la relation entre les entités adjacentes. De cette manière, les interactions multimodales se déroulent naturellement avec les caractéristiques de chaque espace voxel. Pour les interactions au niveau de la cible, un transformateur déformable est utilisé comme décodeur pour échantillonner les caractéristiques spécifiques à la requête cible à chaque position (x, y, z) dans l'espace voxel unifié, comme le montre la figure (d). Dans le même temps, l’introduction de positions de requête 3D atténue efficacement l’ambiguïté sémantique provoquée par la compression des informations de hauteur (hauteur) dans l’espace BEV.

Comme le montre la figure, l'architecture UVTR d'entrée multimodale : étant donné une image à image unique ou multi-images et un nuage de points, elle est d'abord traitée dans un seul squelette et convertie en VI et VP spatiaux spécifiques à la modalité, où la transformation de la vue se fait vers l'image. Dans les encodeurs voxels, les fonctionnalités interagissent spatialement et le transfert de connaissances est facile à prendre en charge pendant la formation. En fonction des paramètres, sélectionnez les fonctionnalités monomodales ou multimodales via le commutateur modal. Enfin, les caractéristiques sont échantillonnées à partir du VU spatial unifié avec des emplacements apprenables et prédites à l'aide du décodeur de transformateur.

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

L'image montre les détails de la transformation de la vue :

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

L'image montre les détails du transfert de connaissances :

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Les résultats expérimentaux sont les suivants :

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Transformer unifie les représentations basées sur des voxels pour la détection d'objets 3D

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment évaluer la rentabilité du support commercial des frameworks Java Comment évaluer la rentabilité du support commercial des frameworks Java Jun 05, 2024 pm 05:25 PM

L'évaluation du rapport coût/performance du support commercial pour un framework Java implique les étapes suivantes : Déterminer le niveau d'assurance requis et les garanties de l'accord de niveau de service (SLA). L’expérience et l’expertise de l’équipe d’appui à la recherche. Envisagez des services supplémentaires tels que les mises à niveau, le dépannage et l'optimisation des performances. Évaluez les coûts de support commercial par rapport à l’atténuation des risques et à une efficacité accrue.

Comment la courbe d'apprentissage des frameworks PHP se compare-t-elle à celle d'autres frameworks de langage ? Comment la courbe d'apprentissage des frameworks PHP se compare-t-elle à celle d'autres frameworks de langage ? Jun 06, 2024 pm 12:41 PM

La courbe d'apprentissage d'un framework PHP dépend de la maîtrise du langage, de la complexité du framework, de la qualité de la documentation et du support de la communauté. La courbe d'apprentissage des frameworks PHP est plus élevée par rapport aux frameworks Python et inférieure par rapport aux frameworks Ruby. Par rapport aux frameworks Java, les frameworks PHP ont une courbe d'apprentissage modérée mais un temps de démarrage plus court.

Comment les options légères des frameworks PHP affectent-elles les performances des applications ? Comment les options légères des frameworks PHP affectent-elles les performances des applications ? Jun 06, 2024 am 10:53 AM

Le framework PHP léger améliore les performances des applications grâce à une petite taille et une faible consommation de ressources. Ses fonctionnalités incluent : une petite taille, un démarrage rapide, une faible utilisation de la mémoire, une vitesse de réponse et un débit améliorés et une consommation de ressources réduite. Cas pratique : SlimFramework crée une API REST, seulement 500 Ko, une réactivité élevée et un débit élevé.

RedMagic Tablet 3D Explorer Edition propose un affichage 3D sans lunettes RedMagic Tablet 3D Explorer Edition propose un affichage 3D sans lunettes Sep 06, 2024 am 06:45 AM

La RedMagic Tablet 3D Explorer Edition a été lancée aux côtés de la Gaming Tablet Pro. Cependant, alors que ce dernier est davantage destiné aux joueurs, le premier est davantage destiné au divertissement. La nouvelle tablette Android est dotée de ce que l'entreprise appelle une « 3D à l'oeil nu ».

Bonnes pratiques en matière de documentation du framework Golang Bonnes pratiques en matière de documentation du framework Golang Jun 04, 2024 pm 05:00 PM

La rédaction d'une documentation claire et complète est cruciale pour le framework Golang. Les meilleures pratiques incluent le respect d'un style de documentation établi, tel que le Go Coding Style Guide de Google. Utilisez une structure organisationnelle claire, comprenant des titres, des sous-titres et des listes, et fournissez la navigation. Fournit des informations complètes et précises, notamment des guides de démarrage, des références API et des concepts. Utilisez des exemples de code pour illustrer les concepts et l'utilisation. Maintenez la documentation à jour, suivez les modifications et documentez les nouvelles fonctionnalités. Fournir une assistance et des ressources communautaires telles que des problèmes et des forums GitHub. Créez des exemples pratiques, tels que la documentation API.

Comment choisir le meilleur framework Golang pour différents scénarios d'application Comment choisir le meilleur framework Golang pour différents scénarios d'application Jun 05, 2024 pm 04:05 PM

Choisissez le meilleur framework Go en fonction des scénarios d'application : tenez compte du type d'application, des fonctionnalités du langage, des exigences de performances et de l'écosystème. Frameworks Go courants : Gin (application Web), Echo (service Web), Fibre (haut débit), gorm (ORM), fasthttp (vitesse). Cas pratique : construction de l'API REST (Fiber) et interaction avec la base de données (gorm). Choisissez un framework : choisissez fasthttp pour les performances clés, Gin/Echo pour les applications Web flexibles et gorm pour l'interaction avec la base de données.

Explication pratique détaillée du développement du framework Golang : questions et réponses Explication pratique détaillée du développement du framework Golang : questions et réponses Jun 06, 2024 am 10:57 AM

Dans le développement du framework Go, les défis courants et leurs solutions sont les suivants : Gestion des erreurs : utilisez le package d'erreurs pour la gestion et utilisez un middleware pour gérer les erreurs de manière centralisée. Authentification et autorisation : intégrez des bibliothèques tierces et créez un middleware personnalisé pour vérifier les informations d'identification. Traitement simultané : utilisez des goroutines, des mutex et des canaux pour contrôler l'accès aux ressources. Tests unitaires : utilisez les packages, les simulations et les stubs gotest pour l'isolation, ainsi que les outils de couverture de code pour garantir la suffisance. Déploiement et surveillance : utilisez les conteneurs Docker pour regrouper les déploiements, configurer les sauvegardes de données et suivre les performances et les erreurs avec des outils de journalisation et de surveillance.

Quels sont les malentendus courants dans le processus d'apprentissage du framework Golang ? Quels sont les malentendus courants dans le processus d'apprentissage du framework Golang ? Jun 05, 2024 pm 09:59 PM

Il existe cinq malentendus dans l'apprentissage du framework Go : une dépendance excessive à l'égard du framework et une flexibilité limitée. Si vous ne respectez pas les conventions du framework, le code sera difficile à maintenir. L'utilisation de bibliothèques obsolètes peut entraîner des problèmes de sécurité et de compatibilité. L'utilisation excessive de packages obscurcit la structure du code. Ignorer la gestion des erreurs entraîne un comportement inattendu et des plantages.

See all articles