Titre original : RoadBEV : Road Surface Reconstruction in Bird's Eye View
Lien papier : https://arxiv.org/pdf/2404.06605.pdf
Lien code : https://github.com/ztsrxh/RoadBEV
Affiliation de l'auteur : Université Tsinghua, Université de Californie, Berkeley
Les conditions du revêtement routier, en particulier les contours géométriques, affectent grandement la capacité de conduite des véhicules autonomes. La reconstruction routière en ligne basée sur la vision devrait capturer des informations routières à l'avance. Les solutions existantes telles que l’estimation de la profondeur monoculaire et l’estimation de la vision stéréo ont leurs limites. La technologie récente de perception à vol d'oiseau (BEV) fournit une formidable motivation pour une reconstruction plus fiable et plus précise. Cet article propose uniformément deux modèles efficaces de reconstruction d'élévation de route BEV, nommés respectivement RoadBEV-mono et RoadBEV-stéréo, qui diffèrent de l'utilisation d'images monoculaires et binoculaires pour l'estimation de l'élévation de la route. Le premier estime l’élévation de la route directement à partir d’une seule image, tandis que le second estime l’élévation de la route à l’aide de vues volumétriques gauche et droite. Une analyse approfondie révèle leur cohérence et leurs différences avec les perspectives. Des expériences sur des ensembles de données du monde réel démontrent l'efficacité et la supériorité du modèle. Les erreurs d'élévation de RoadBEV-mono et RoadBEV-stereo sont respectivement de 1,83 mètres et 0,56 mètres. Les performances de l'estimation BEV basée sur des images monoculaires sont améliorées de 50 %. Le modèle présenté dans cet article devrait fournir une référence précieuse en matière de technologie de conduite autonome basée sur la vision.
Cet article démontre pour la première fois la nécessité et la supériorité de la reconstruction du revêtement routier à vol d'oiseau, tant du point de vue théorique qu'expérimental.
Cet article présente deux modèles, nommés RoadBEV-mono et RoadBEV-stereo. Pour les schémas monoculaires et stéréo, cet article explique leurs mécanismes en détail.
Cet article teste et analyse de manière exhaustive les performances du modèle proposé, fournissant des informations et des perspectives précieuses pour les recherches futures.
Ces dernières années, le développement rapide des véhicules terrestres sans pilote (UGV) a mis en avant des exigences plus élevées pour les systèmes de détection embarqués. La compréhension en temps réel de l'environnement et des conditions de conduite est cruciale pour une planification et un contrôle précis des mouvements [1]-[3]. Pour les véhicules, les routes sont le seul moyen de contact avec le monde physique. L’état de la surface de la route détermine de nombreuses caractéristiques et maniabilité du véhicule [4]. Comme le montre la figure 1(a), les irrégularités de la route, telles que les bosses et les nids-de-poule, exacerberont l'expérience de conduite du véhicule, qui est intuitivement perceptible. La perception en temps réel de l’état de la surface de la route, en particulier de l’élévation géométrique, contribue grandement à améliorer le confort de conduite [5], [6].
Par rapport à d'autres tâches de perception dans les véhicules terrestres sans pilote (UGV), telles que la segmentation et la détection, la reconstruction de la surface routière (RSR) est une technologie émergente qui a récemment fait l'objet d'une attention croissante. Semblable aux processus de perception existants, RSR utilise généralement des capteurs LiDAR et caméra embarqués pour conserver les informations sur la surface de la route. Le LiDAR scanne directement les contours des routes et en dérive des nuages de points [7], [8]. L'élévation de la route sur les trajectoires des véhicules peut être extraite directement sans algorithmes complexes. Cependant, le coût élevé des capteurs lidar limite leur application dans les véhicules économiques produits en série. Contrairement aux objets de circulation plus importants tels que les véhicules et les piétons, les irrégularités routières sont généralement de moindre ampleur, la précision du nuage de points est donc essentielle. La compensation de mouvement et le filtrage sont nécessaires pour le balayage routier en temps réel, ce qui nécessite en outre un positionnement de haute précision au niveau centimétrique.
La reconstruction de la surface routière basée sur l'image (RSR), en tant que tâche de vision tridimensionnelle, est plus prometteuse que le LiDAR en termes de précision et de résolution. Il conserve également la texture de la surface de la route, rendant la perception de la route plus complète. La reconstruction de l'élévation des routes basée sur la vision est en réalité un problème d'estimation de la profondeur. Pour les caméras monoculaires, l'estimation de la profondeur monoculaire peut être mise en œuvre sur la base d'une seule image, ou la stéréo multi-vues (MVS) peut être mise en œuvre sur la base de séquences pour estimer directement la profondeur [9]. Pour les caméras binoculaires, la correspondance binoculaire régresse les cartes de disparité, qui peuvent être converties en profondeur [10], [11]. Compte tenu des paramètres de la caméra, le nuage de points de route dans le système de coordonnées de la caméra peut être récupéré. Grâce à un processus de post-traitement préliminaire, les informations sur la structure routière et l'élévation sont finalement obtenues. Sous la direction d’étiquettes de vérité terrain (GT), un RSR fiable et de haute précision peut être obtenu.
Cependant, la reconstruction de la surface routière en perspective image (RSR) présente des inconvénients inhérents. L'estimation de la profondeur pour un pixel spécifique consiste en fait à trouver des compartiments optimaux dans la direction perpendiculaire au plan de l'image (représenté par le point orange sur la figure 1 (b)). Il existe un certain écart angulaire entre la direction de la profondeur et la surface de la route. Les changements et les tendances dans les caractéristiques du profil routier ne correspondent pas aux changements et aux tendances dans la direction de recherche. Les informations sur les changements d’altitude de la route sont rares dans la vue en profondeur. De plus, la plage de recherche en profondeur est la même pour chaque pixel, ce qui amène le modèle à capturer la hiérarchie géométrique globale plutôt que la structure de surface locale. En raison de la recherche globale mais grossière en profondeur, les informations fines sur l'élévation de la route sont détruites. Puisque cet article se concentre sur l’élévation dans le sens vertical, l’effort dans le sens de la profondeur est inutile. Dans les vues en perspective, les détails de texture sur de longues distances sont perdus, ce qui pose encore des problèmes pour une régression efficace en profondeur à moins que des contraintes supplémentaires a priori ne soient introduites [12].
Estimer l'élévation de la route à partir d'une vue de dessus (c'est-à-dire vue à vol d'oiseau, BEV) est une idée naturelle car l'élévation décrit essentiellement les vibrations dans la direction verticale. La vue à vol d'oiseau est un paradigme efficace pour représenter des données multimodales et multi-vues dans des coordonnées unifiées [13], [14]. Les performances récentes de pointe sur les tâches de détection et de segmentation d'objets 3D ont été obtenues par des approches basées sur des vues à vol d'oiseau [15], par opposition aux vues en perspective, qui sont réalisées en introduisant des têtes estimées sur des caractéristiques d'image transformées en vue. La figure 1 illustre la motivation de cet article. Au lieu de se concentrer sur la structure globale dans la vue de l'image, la reconstruction dans la vue à vol d'oiseau identifie directement les caractéristiques de la route dans une petite plage spécifique dans la direction verticale. Les caractéristiques routières projetées dans une vue à vol d'oiseau reflètent de manière dense les changements structurels et de contour, facilitant ainsi des recherches efficaces et raffinées. L'influence des effets de perspective est également supprimée car les routes sont représentées uniformément sur un plan perpendiculaire à l'angle de vue. La reconstruction des routes basée sur les caractéristiques de la vue à vol d'oiseau devrait permettre d'obtenir des performances plus élevées.
Cet article reconstruit la surface de la route sous BEV pour résoudre les problèmes identifiés ci-dessus. En particulier, cet article se concentre sur la géométrie des routes, à savoir l'élévation. Afin d'utiliser des images monoculaires et binoculaires et de démontrer la large faisabilité de la perception à vol d'oiseau, cet article propose deux sous-modèles nommés RoadBEV-mono et RoadBEV-stereo. Suivant le paradigme d'une vue à vol d'oiseau, cet article définit des voxels d'intérêt couvrant le relief potentiel de la route. Ces voxels interrogent les caractéristiques des pixels via une projection 3D-2D. Pour RoadBEV-mono, cet article présente une tête d'estimation de hauteur sur les caractéristiques de voxel remodelées. La structure de RoadBEV-stéréo est cohérente avec la correspondance binoculaire dans les vues d'images. Sur la base des caractéristiques des voxels gauche et droit, un volume de coûts 4D est construit dans la vue à vol d'oiseau, qui est agrégé par convolution 3D. La régression d'élévation est considérée comme une classification de compartiments prédéfinis pour permettre un apprentissage de modèle plus efficace. Cet article valide ces modèles sur un ensemble de données du monde réel précédemment publié par les auteurs, montrant qu'ils présentent d'énormes avantages par rapport aux méthodes traditionnelles d'estimation de profondeur monoculaire et de correspondance stéréo.
Figure 1. Motivation de cet article. (a) Quelle que soit la configuration monoculaire ou binoculaire, notre méthode de reconstruction en vue à vol d'oiseau (BEV) surpasse la méthode en vue d'image. (b) Lors de l'estimation de la profondeur dans la vue d'image, la direction de recherche est biaisée par rapport à la direction d'élévation de la route. Dans la vue en profondeur, les caractéristiques du contour de la route sont clairsemées. Les nids-de-poule ne sont pas faciles à identifier. (c) Dans une vue à vol d'oiseau, les vibrations de contour telles que les nids-de-poule, les marches de trottoir et même les ornières peuvent être capturées avec précision. Les caractéristiques d'élévation des routes dans le sens vertical sont plus denses et plus faciles à identifier.
Figure 2. Représentation des coordonnées et génération d'étiquettes d'élévation de vérité terrain (GT). (a) Coordonnées (b) Région d'intérêt (ROI) dans la vue d'image (c) Région d'intérêt (ROI) dans la vue à vol d'oiseau (d) Génération d'étiquettes de vérité terrain (GT) dans la grille
Fig. Exemples d'images routières et de cartes d'élévation de vérité terrain (GT).
Figure 4. Présentez les voxels d'intérêt dans la vue de l'image. Les centres des voxels empilés situés à la même position horizontale sont projetés sur les pixels du segment de ligne rouge.
Figure 5. Architecture de RoadBEV-mono. Cet article utilise la projection 3D vers 2D pour interroger les caractéristiques des pixels. La tête d'estimation d'élévation utilise la convolution 2D pour extraire des entités sur les entités remodelées Bird's Eye View (BEV).
Figure 6. Mécanisme de RoadBEV-mono. Les voxels sont affichés en vue latérale.
Figure 7. Architecture RoadBEV-stéréo. Les voxels définis dans le système de coordonnées de la caméra gauche interrogent les caractéristiques des pixels des cartes de caractéristiques gauche et droite. Cet article construit une différence de volume dans la vue à vol d'oiseau (BEV) grâce à la soustraction entre les caractéristiques du voxel gauche et droit. Ensuite, la convolution 3D agrège le volume 4D dans la vue plongeante.
Figure 8. Le mécanisme de RoadBEV-stéréo.
Figure 9. Perte d'entraînement de (a) RoadBEV-mono et (b) RoadBEV-stéréo.
Figure 10. Comparaison des erreurs d'élévation dans le sens de la distance avec le modèle SOTA basé sur monoculaire et binoculaire.
Figure 11. Visualisation de la surface routière reconstruite par RoadBEV-mono.
Figure 12. Visualisation de la surface routière reconstruite par RoadBEV-stereo.
Cet article reconstruit pour la première fois l'élévation de la surface de la route vue à vol d'oiseau. Cet article propose et analyse deux modèles basés sur des images monoculaires et binoculaires, nommés respectivement RoadBEV-mono et RoadBEV-stereo. Cet article révèle que l'estimation monoculaire et la correspondance binoculaire dans BEV sont les mêmes mécanismes que dans les vues en perspective, qui sont améliorées en réduisant la plage de recherche et en explorant les caractéristiques directement dans la direction d'élévation. Des expériences complètes sur des ensembles de données du monde réel vérifient la faisabilité et la supériorité du volume BEV proposé, de la tête d'estimation et des paramètres. Pour les caméras monoculaires, les performances de reconstruction en BEV sont améliorées de 50 % par rapport à la vue en perspective. Dans le même temps, en BEV, les performances de l’utilisation de caméras binoculaires sont trois fois supérieures à celles des caméras monoculaires. Cet article fournit une analyse approfondie et des conseils sur le modèle. L’exploration révolutionnaire de cet article fournit également une référence précieuse pour d’autres recherches et applications liées à la perception BEV, à la reconstruction 3D et à la détection 3D.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!