Pour de nombreuses tâches de conduite autonome, il est plus facile de les réaliser dans une perspective descendante, cartographique ou à vol d'oiseau (BEV). Étant donné que de nombreux sujets de conduite autonome sont limités au plan du sol, une vue de dessus est une représentation de faible dimension plus pratique et est idéale pour la navigation, capturant les obstacles et les dangers pertinents. Pour des scénarios tels que la conduite autonome, des cartes BEV sémantiquement segmentées doivent être générées sous forme d'estimations instantanées pour gérer les objets et les scènes en mouvement libre qui ne sont visités qu'une seule fois.
Pour déduire des cartes BEV à partir d'images, il faut déterminer la correspondance entre les éléments de l'image et leurs positions dans l'environnement. Certaines recherches antérieures ont utilisé des cartes de profondeur denses et des cartes de segmentation d'images pour guider ce processus de conversion, et d'autres recherches ont étendu la méthode d'analyse implicite de la profondeur et de la sémantique. Certaines études exploitent les a priori géométriques de la caméra mais n'apprennent pas explicitement l'interaction entre les éléments de l'image et les plans BEV.
Dans un article récent, des chercheurs de l'Université de Surrey ont introduit un mécanisme d'attention pour convertir des images 2D de conduite autonome en vue à vol d'oiseau, améliorant ainsi la précision de reconnaissance du modèle de 15 %. Cette recherche a remporté le prix Outstanding Paper Award lors de la conférence ICRA 2022 qui s’est terminée il n’y a pas si longtemps. " Problème de conversion Image-to-World"
, dont le but est d'apprendre l'alignement entre les lignes de balayage verticales dans l'image et les rayons polaires dans le BEV. Cette géométrie projective est donc implicite au réseau.
Dans le modèle d'alignement, les chercheurs ont adopté Transformer, une structure de prédiction de séquence basée sur l'attention
. En tirant parti de leur mécanisme d’attention, nous modélisons explicitement l’interaction par paires entre les lignes de balayage verticales d’une image et leurs projections polaires BEV.Les transformateurs sont parfaitement adaptés aux problèmes de traduction d'image en BEV, car ils peuvent raisonner sur les interdépendances entre les objets, la profondeur et l'éclairage de la scène pour obtenir des représentations globalement cohérentes. Les chercheurs intègrent le modèle d'alignement basé sur Transformer dans une formulation d'apprentissage de bout en bout qui prend en entrée une image monoculaire et sa matrice intrinsèque, puis prédit la cartographie sémantique BEV des classes statiques et dynamiques.
Cet article construit une architecture qui permet de prédire le mappage sémantique BEV à partir d'images monoculaires autour d'un modèle d'alignement. Comme le montre la figure 1 ci-dessous, il contient trois composants principaux : un réseau fédérateur CNN standard pour extraire les caractéristiques spatiales sur le plan image ; un transformateur codeur-décodeur pour convertir les caractéristiques sur le plan image en BEV et enfin un réseau de segmentation pour décoder les caractéristiques BEV ; en cartes sémantiques. Plus précisément, les principales contributions de cette étude sont : Expérience d'ablation Comme le montre la première partie du tableau 2 ci-dessous, les chercheurs ont comparé l'attention douce (en regardant des deux côtés), l'attention monotone du retour en arrière du bas de l'image (en regardant vers le bas), le retour en arrière du haut de l'image (en regardant vers le haut) une attention monotone. Le long des indices de texture locaux - Ceci est cohérent avec la façon dont les humains tentent de déterminer la distance des objets dans les environnements urbains, où nous utilisons l'endroit où l'objet croise le plan du sol. Les résultats montrent également que l’observation dans les deux sens améliore encore la précision, rendant l’inférence profonde plus discriminante.
L'utilité du contexte horizontal de longue séquence. La conversion image en BEV ici est effectuée comme un ensemble de conversions séquence à séquence 1D, donc une question est de savoir ce qui se passe lorsque l'image entière est convertie en BEV. Compte tenu du temps de calcul secondaire et de la mémoire requis pour générer des cartes d’attention, cette approche est d’un coût prohibitif. Cependant, les avantages contextuels de l’utilisation de l’image entière peuvent être approximés en appliquant une attention axiale horizontale aux caractéristiques du plan de l’image. Avec une attention axiale à travers les lignes d'image, les pixels des lignes de balayage verticales ont désormais un contexte horizontal à longue portée, puis un contexte vertical à longue portée est fourni par la transition entre les séquences 1D comme auparavant. Comme le montre la partie centrale du tableau 2, , et a même un léger effet négatif. Cela illustre deux points : premièrement, chaque rayon transformé ne nécessite pas d'informations sur toute la largeur de l'image d'entrée, ou plutôt, le contexte de séquence longue ne fournit aucune information supplémentaire par rapport au contexte déjà agrégé par l'avantage de la convolution frontale. . Cela montre que l'utilisation de l'image entière pour effectuer la transformation n'améliorera pas la précision du modèle au-delà de la formule de contrainte de base. De plus, la dégradation des performances causée par l'introduction de l'attention axiale horizontale signifie la difficulté d'utiliser l'attention pour former des séquences de largeur d'image ; comme on peut le voir, il sera plus difficile de s'entraîner en utilisant l'image entière comme séquence d'entrée. : La dernière partie du tableau 2 compare les variantes Po-Ag et Po-Ad. Un modèle Po-Ag n'a pas d'informations de position de polarisation, le Po-Ad du plan image comprend des codages polaires ajoutés à l'encodeur Transformer, et pour le plan BEV, ces informations sont ajoutées au décodeur. L'ajout de codages polaires à l'un ou l'autre plan est plus avantageux que de l'ajouter au modèle agnostique, la classe dynamique étant celle qui en ajoute le plus. L'ajouter aux deux plans renforce encore cela, mais a le plus grand impact sur les classes statiques. Comparaison avec les méthodes SOTA Les chercheurs ont comparé cette méthode avec certaines méthodes SOTA. . Sur les classes dynamiques plus petites, l'amélioration est encore plus significative, la précision de détection des bus, camions, remorques et obstacles augmentant toutes de 35 à 45 %.
Les résultats qualitatifs obtenus dans la figure 2 ci-dessous soutiennent également cette conclusion. Le modèle présenté dans cet article montre une plus grande similarité structurelle et un meilleur sens de la forme. Cette différence peut être partiellement attribuée aux couches entièrement connectées (FCL) utilisées pour la compression : lors de la détection d'objets petits et distants, une grande partie de l'image est un contexte redondant. De plus, les piétons et autres objets sont souvent partiellement bloqués par les véhicules. Dans ce cas, la couche entièrement connectée aura tendance à ignorer les piétons et à conserver la sémantique des véhicules. Ici, la méthode de l'attention montre son avantage car chaque profondeur radiale peut être remarquée indépendamment de l'image - de sorte que des profondeurs plus profondes peuvent rendre visibles les corps des piétons, tandis que les profondeurs précédentes ne peuvent détecter que les véhicules. Les résultats sur l'ensemble de données Argoverse dans le tableau 3 ci-dessous montrent un schéma similaire, dans lequel notre méthode s'améliore de 30 % par rapport à PON [8]. Comme le montre le tableau 4 ci-dessous, les performances de cette méthode sur nuScenes et Lyft sont meilleures que LSS [9] et FIERY [20]. Une véritable comparaison est impossible sur Lyft car il n'a pas de répartition canonique train/val, et il n'y a aucun moyen d'obtenir la répartition utilisée par LSS. Pour plus de détails sur la recherche, veuillez vous référer à l'article original.
Dans l'expérience, les chercheurs ont effectué plusieurs évaluations : traiter la conversion d'image en BEV comme un problème de conversion sur l'ensemble de données nuScenes pour évaluer son utilité ; utilité du contexte au niveau de la séquence et impact des informations de position polaire. Enfin, la méthode est comparée aux méthodes SOTA sur les ensembles de données nuScenes, Argoverse et Lyft.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!