Régressez à la hauteur du sol pour obtenir une formulation indépendante de la distance, simplifiant ainsi le processus d'optimisation pour les méthodes uniquement compatibles avec la caméra. Sur le benchmark de détection 3D des caméras routières, la méthode dépasse largement toutes les méthodes précédentes centrées sur la vision. Il génère des améliorations significatives de +1,9 % NDS et +1,1 % mAP par rapport à BEVDepth. Sur l'ensemble de tests nuScenes, la méthode a réalisé des progrès substantiels, avec NDS et mAP augmentant respectivement de +2,8 % et +1,7 %.
Titre : BEVHeight++ : Vers une détection robuste d'objets 3D centrée sur la vision
Lien papier : https://arxiv.org/pdf/2309.16179.pdf
Affiliation de l'auteur : Université Tsinghua, Université Sun Yat-sen, Réseau Cainiao, Pékin Université
De la première communauté de conduite autonome en Chine : a finalement achevé la construction de plus de 20 itinéraires d'apprentissage de la direction technique (perception BEV/détection 3D/fusion multicapteur/SLAM et planification, etc.)
Bien que la récente Le système de conduite se concentre sur le développement de méthodes de détection pour les capteurs des véhicules, mais une alternative souvent négligée est l'utilisation de caméras routières intelligentes pour étendre les capacités de détection au-delà de la portée visuelle. Les auteurs ont constaté que les méthodes de détection BEV de pointe, centrées sur la vision, fonctionnent mal sur les caméras routières. En effet, ces méthodes se concentrent principalement sur la récupération de la profondeur autour du centre de la caméra, où la différence de profondeur entre la voiture et le sol diminue rapidement avec la distance. Dans cet article, l'auteur propose une méthode simple mais efficace, appelée BEVHeight++, pour résoudre ce problème. Essentiellement, les auteurs régressent à la hauteur du sol pour obtenir une formulation indépendante de la distance, simplifiant ainsi le processus d'optimisation pour les méthodes prenant uniquement en compte la caméra. En combinant des techniques de codage en hauteur et en profondeur, une projection plus précise et plus robuste de l'espace 2D vers l'espace BEV est obtenue. La méthode surpasse considérablement toutes les méthodes précédentes centrées sur la vision sur le test de détection 3D populaire pour les caméras routières. Pour les scènes de véhicules autonomes, BEVHeight++ surpasse les méthodes de profondeur uniquement
Plus précisément, il génère des améliorations significatives de +1,9 % NDS et +1,1 % mAP par rapport à BEVDepth lorsqu'il est évalué sur l'ensemble de validation nuScenes. De plus, sur l'ensemble de tests nuScenes, la méthode réalise des progrès substantiels, avec NDS et mAP augmentant respectivement de +2,8 % et +1,7 %.
Figure 1 : (a) Pour générer des cadres de délimitation 3D à partir d'images monoculaires, les méthodes de pointe prédisent d'abord la profondeur par pixel, explicitement ou implicitement, pour déterminer la position 3D des objets de premier plan par rapport à la arrière-plan. Cependant, lorsque nous avons tracé la profondeur par pixel sur l'image, nous avons remarqué que la différence entre les points sur le toit et le sol environnant diminue rapidement à mesure que la voiture s'éloigne de la caméra, ce qui rend l'optimisation sous-optimale, en particulier pour les objets éloignés. . (b) Au lieu de cela, nous traçons la hauteur par pixel par rapport au sol et observons que cette différence est indépendante de la distance et est visuellement plus adaptée au réseau pour détecter des objets. Cependant, la position 3D ne peut pas être directement régressée en prédisant uniquement la hauteur. (c) À cette fin, nous proposons un nouveau framework BEVHeight++ pour résoudre ce problème. Les résultats empiriques montrent que notre méthode surpasse la meilleure méthode de 5,49 % sur les paramètres propres et de 28,2 % sur les paramètres bruyants.
Comparaison de la hauteur et de la profondeur de prédiction. (a) Aperçu des méthodes précédentes basées sur la profondeur et de notre proposition de pipeline basé sur la hauteur. Veuillez noter que cet article propose un nouveau module de projection 2D vers 3D. (b) En traçant des histogrammes de profondeur par pixel (en haut) et de hauteur du sol (en bas), on peut clairement observer que la plage de profondeur est supérieure à 200 mètres, tandis que la hauteur est inférieure à 5 mètres, ce qui rend la hauteur plus facile à apprendre.
Dans l'image, il existe une corrélation entre les coordonnées de ligne de la cible et sa profondeur et sa hauteur. La position de la cible dans l'image peut être définie par (u, v), où v représente la coordonnée de ligne de l'image. Dans (a), nous montrons un exemple visuel d’introduction de bruit en ajoutant des décalages de rotation dans les directions de roulis et de tangage à une distribution normale. En (b), nous montrons un nuage de points de la distribution de profondeur. En (c) nous montrons la hauteur au-dessus du sol. Nous pouvons observer que le réglage du bruit pour la hauteur chevauche davantage sa distribution d'origine par rapport à la profondeur, ce qui indique que l'estimation de la hauteur est plus robuste
Le cadre global de BEVHeight++ contient trois sous-réseaux, à savoir la branche basée sur la profondeur (cyan), la branche basée sur la hauteur (vert) et le processus de fusion de fonctionnalités (gris). Le pipeline basé sur la profondeur convertit les fonctionnalités d'affichage d'image en fonctionnalités BEV basées sur la profondeur (BEV basé sur D) en utilisant la profondeur estimée par pixel. Le pipeline basé sur la hauteur génère des caractéristiques BEV basées sur la hauteur (BEV basée sur H) à l'aide de prédictions de hauteur au sol des caractéristiques de levage dans des vues d'image. La fusion de fonctionnalités inclut la fusion d’images et la fusion de vues à vol d’oiseau. La fusion image-vue obtient des caractéristiques de fusion en mettant en cascade la distribution de hauteur et les caractéristiques d'image, qui sont utilisées pour les opérations de mise à niveau ultérieures. La fusion avec vue à vol d'oiseau obtient des caractéristiques BEV fusionnées à partir de caractéristiques BEV basées sur la hauteur et de caractéristiques BEV basées sur la profondeur grâce à une attention croisée déformable, puis l'utilise comme entrée de la tête de détection
Le contenu qui doit être réécrit est : Lien original : https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!