La construction de cartes vectorisées de haute précision basées sur les données de capteurs en temps réel est cruciale pour les tâches en aval telles que la prévision et la planification, et peut efficacement compenser les mauvaises performances en temps réel du mode hors ligne. cartes de haute précision. Avec le développement de l'apprentissage profond, la construction de cartes vectorielles en ligne de haute précision a progressivement émergé, et des ouvrages représentatifs tels que HDMapNet, MapTR, etc. ont vu le jour les uns après les autres. Cependant, les méthodes existantes de construction de cartes vectorielles en ligne de haute précision manquent d'exploration des propriétés géométriques des éléments cartographiques (y compris la forme des éléments, les relations verticales, parallèles et autres relations géométriques).
Les cartes vectorisées de haute précision résument fortement les éléments sur la route et représentent chaque élément de la carte sous la forme d'une séquence de points bidimensionnelle. La conception des routes urbaines a des spécifications spécifiques. Par exemple, dans la plupart des cas, les passages pour piétons sont carrés rectangulaires ou parallélogrammes ; Différents éléments des cartes haute définition présentent également de nombreuses caractéristiques similaires. Ces règles de bon sens sont résumées dans les propriétés géométriques des cartes haute précision, y compris la forme des éléments cartographiques (rectangle, parallélogramme, ligne droite, etc. ), ou différentes cartes Relations entre éléments (parallèles, verticales, etc.). Les propriétés géométriques limitent fortement la représentation des éléments cartographiques. Si vous comprenez parfaitement les propriétés géométriques de la construction de modèles en ligne, vous pouvez obtenir des résultats plus précis.
Proposer l'importance de la représentation géométrique pour les cartes de haute précisiondes éléments de la carte (dans le système de coordonnées du véhicule) continuent de changer. La forme des passages pour piétons, des voies, des limites des routes, etc. ne changera pas, de même que la relation parallèle entre les voies ne changera pas. Les propriétés géométriques des éléments cartographiques sont objectives et l'une de ses caractéristiques importantes est l'invariance. Plus précisément, il s'agit de invariance rigide (restant invariant à la transformation en rotation et en translation). Les travaux antérieurs, qu'ils utilisent une simple représentation polyligne ou des courbes polynomiales avec des points de contrôle (telles que les courbes de Bézier, les courbes de Bézier par morceaux), sont tous basés sur des coordonnées absolues et de bout en bout sur la base de l'optimisation des coordonnées absolues. L'objectif d'optimisation basé sur les coordonnées absolues lui-même n'a pas d'invariance rigide, il est donc difficile de s'attendre à ce que la solution optimale locale dans laquelle s'inscrit le modèle contienne une compréhension des propriétés géométriques. Par conséquent, une représentation capable de caractériser pleinement les propriétés géométriques et de présenter une certaine invariance est nécessaire.
Figure 1. Exemple d'invariance géométrique.Lorsque le véhicule tourne à droite, les coordonnées absolues changeront considérablement. L'image de droite montre un scénario réel correspondant.
Conception de GeMap
Représentation géométriquepeut décrire la forme des éléments de la carte
peut décrire l', et l'angle entre différents vecteurs de décalage. Ces deux éléments - longueur et angle - constituent la base de la représentation géométrique que nous proposons. De plus, afin de mieux distinguer et décrire les formes et relier deux types différents de propriétés géométriques, nous avons affiné le design selon le principe de simplicité : Pour décrire des formes, nous calculons la distance entre des points adjacents dans un un seul élément de carte décale les vecteurs entre eux et calcule la longueur du vecteur de décalage et l'angle entre les vecteurs de décalage adjacents. Cette représentation identifie de manière unique toute polyligne/polygone. Des exemples de deux images sont présentés ci-dessous :
Veuillez regarder la figure 2, qui montre la représentation des formes géométriques
Pour un rectangle, il peut être décrit en utilisant un angle droit et deux paires de côtés égaux pour une ligne droite, tous les angles inclus sont de 0 degré ou 180 degrés ; .
Pour caractériser association, de la même manière, nous considérons d'abord la distance entre deux points quelconques. Cependant, si l’angle est calculé pour tous les vecteurs de décalage point à point, la complexité de la représentation est trop élevée et le coût de calcul est inabordable. Plus précisément, en supposant qu'il y a un total d'éléments cartographiques et que chaque élément est représenté par un point, la quantité de données pour tous les angles atteindra (en prenant 1 000, en supposant que chaque donnée d'angle est un nombre à virgule flottante de 32 bits, tel que une représentation est seulement L'espace occupé atteindra le niveau TB). En fait, cela n’est pas nécessaire pour les relations normales verticales, parallèles, etc. Par conséquent, nous calculons d’abord les décalages au sein des éléments, puis calculons uniquement l’angle entre chaque paire de ces décalages dans le cadre de la représentation géométrique. Cette représentation d'association simplifiée conserve la capacité de décrire des relations parallèles, verticales et autres, alors que le volume de données correspondant est seulement (environ 4 Mo dans les conditions susmentionnées). Pour faciliter la compréhension, nous fournissons également quelques exemples :
Figure 3. Représentation d'association géométrique.
La relation parallèle et la relation perpendiculaire sont exprimées par l'angle entre le vecteur de décalage étant de 0 degré ou 90 degrés ; la distance entre les deux points peut refléter dans une certaine mesure les informations sur la largeur de la voie
C'est la représentation de formes et associations géométriques optimisées, nous adoptons l'approche la plus simple, calculons directement la représentation géométrique de la prédiction et de l'étiquette, puis utilisons la norme comme cible d'optimisation :
où et représentent la longueur et l'angle calculés en fonction de l'étiquette, respectivement, et la somme représentent la prévision de la longueur et de l'angle calculés. Une astuce est utilisée lorsqu'il s'agit d'angles inclus : le calcul direct de l'angle implique une fonction arctan discontinue, qui rencontrera des difficultés lors de l'optimisation (il y a un problème de gradient de disparition proche de ±90 degrés), donc ce que l'on compare en réalité, c'est l'angle inclus. Les cosinus et sinus de La robustesse de
Attention géométriquement découplée
Une architecture adoptée par MapTR, PivotNet, etc. fait correspondre chaque point de l'élément de carte à une requête du Transformer. Le problème de cette architecture est qu’elle ne fait pas de distinction entre les deux grandes catégories de propriétés géométriques.Dans l'auto-attention, toutes les requêtes (c'est-à-dire les « points ») interagissent de manière égale les unes avec les autres. Cependant, la forme de l’élément map correspond à un groupe de requêtes. L'interaction entre ces groupes devient un handicap lors de la perception de la forme des éléments. Au contraire, dans la perception de la relation entre les éléments, la forme est également devenue un facteur redondant. Cela signifie que
dissocier la perception de la forme et de l'association peut conduire à de meilleurs résultats.
Afin de découpler la géométrie et le traitement d'association, nous utilisons deux étapes d'auto-attention : Chaque élément de la carte comprend
requêtes, et l'attention est effectuée à l'intérieur de ces requêtes pour le traitement des formes géométriquesNous avons mené un grand nombre d'expériences sur les ensembles de données nuScenes et Argoverse 2. Les deux sont des ensembles de données de conduite autonome à grande échelle couramment utilisés et fournissent tous deux des annotations cartographiques.
Nous avons mené trois séries d'expériences sur nuScenes. Premièrement, nous utilisons une combinaison relativement pure de fonctions objectives, incluant uniquement les pertes géométriques et d'autres pertes nécessaires (telles que la distance point à point, la direction des bords, la classification). Cette combinaison vise à mettre en évidence l'importance des propriétés géométriques que nous proposons. valeur sans trop rechercher les résultats SOTA. Les résultats montrent que notre méthode améliore mAP par rapport à MapTR dans ce cas. Pour explorer les limites de GeMap, nous ajoutons également quelques objectifs auxiliaires, notamment la segmentation et l'estimation de la profondeur. Dans ce cas, nous avons également obtenu des résultats SOTA (amélioration mAP). Il convient de noter que parvenir à une telle amélioration ne nécessite pas de sacrifier trop de vitesse d’inférence. Enfin, nous avons également essayé d'introduire des entrées modales LiDAR supplémentaires. Avec l'aide d'entrées modales supplémentaires, les performances de GeMap ont été encore améliorées
De même, sur l'ensemble de données Argoverse 2, notre méthode a également obtenu des résultats très remarquables.
Le contenu réécrit est : des expériences d'ablation
Le contenu réécrit supplémentaire sur nuScenes est : des expériences d'ablation prouvent la valeur de la perte géométrique et de l'attention géométriquement découplée. Fait intéressant, comme nous nous y attendions, l’utilisation directe de la perte géométrique entraînera une diminution des performances du modèle. Nous pensons que cela est dû au fait que le couplage structurel de la forme et du traitement d'association rend difficile pour le modèle l'optimisation de la représentation géométrique et après combinaison avec l'attention du découplage géométrique, la perte géométrique joue le rôle qui lui revient (de "+ Perte euclidienne" à "Complet").
Plus de résultats
De plus, nous avons également effectué une analyse visuelle de nuScenes. Les résultats de visualisation montrent que GeMap est non seulement robuste dans la gestion de la rotation et de la translation, mais présente également certains avantages dans la résolution des problèmes d'occlusion, comme le montre la figure ci-dessous. Les éléments cartographiques difficiles sont marqués par des cases orange dans la figure Figure 5. Résultats de la comparaison visuelle. Dans les résultats expérimentaux les jours de pluie, nous avons également vérifié quantitativement la robustesse de l'occlusion (voir le tableau ci-dessous). En effet, la pluie bloque naturellement la caméra Cela peut s'expliquer par le fait que le modèle apprend les propriétés géométriques et est donc capable de mieux deviner les éléments de la carte même lorsqu'il y a des occlusions. Par exemple, si le modèle comprend la forme des lignes de voie, il lui suffit alors d'en « voir » une partie pour estimer le reste ; le modèle comprend la relation parallèle entre les lignes de voie, ou les caractéristiques de largeur de la voie, donc même si l'un d'entre eux est bloqué, la partie obstruée peut également être devinée sur la base de la relation parallèle et des facteurs de largeurCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!