量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
写在前面
当前自动驾驶系统摆脱对高精度地图依赖的算法之一,是利用远距离范围下的感知表现依然较差的现实依然较差。为此,我们提出了P-MapNet,其中的“P”专注于融合地图先验来提高模型性能。具体来说,我们利用了SDMap和HDMap中的先验信息:一方面,我们从OpenStreetMap中提取了弱对准的SDMap数据,并将其编码为独立的条款来支持输入。严格修改输入与实际HD Map存在弱对齐的问题,我们基于Cross-attention机制的结构能够自适应地关注SDMap骨架,并带来显着的性能提升;另一方面,我们提出了一种使用MAE来捕捉HDMap的先验分布的refine模块,该模块有助于生成更符合实际地图的分布,有助于减小遮挡、伪影等影响。我们在nuScenes和Argoverse2数据集上进行了广泛的实验验证。
图1
总结来说我们的贡献如下:
我们的SDMap先进能够提升在线地图生成性能,包含了栅格化(最多可提高18.73 mIoU)和量化化(最多可提高8.50 mAP)两种地图表现。
(2)我们的HDMap先验能够将地图感知指标提升最多6.34%。
(3)P-MapNet可以切换到不同的推理模式,以在精度和效率之间进行权衡。
P-MapNet是一种远距离HD Map生成的解决方案,对于较远的感知范围能够带来更大的改进。我们的代码和模型已经公开发布在https://jike5.github.io/P-MapNet/。
相关工作回顾
(1)在线地图生成
HD Map的制作主要包含SLAM建图、自动标注、人工标注等步骤。这导致了HD Map的成本高、鲜度有限。因此,在线地图生成对于自动驾驶系统是至关重要的。 HDMapNet将地图元素通 过格化化进行表达,使用pixel-wise的预测和后处理方法获得矢量化的预测结果。最近的一些方法,如MapTR、PivotNet、Streammapnet等基于Transformer架构实现了端到端的矢量化预测,但这些方法仅使用传感器输入,在遮挡、极端天气等复杂环境下性能仍有限。
(2)远距离地图感知
为了让在线地图生成的结果能够更好的被下游模块使用,一些研究尝试将地图感知范围进一步拓展。 SuperFusion[7]通过融合激光雷达和相机,通过depth-aware BEV变换,实现了前向90m的远距离预测。 NeuralMapPrior[8]通过维护和更新全局神经地图先验来增强当前在线观测的质量、拓展感知的范围。 [6]通过将卫星图像与车载传感器数据进行特征聚合来获得BEV特征,进一步再进行预测。 MV-Map则专注于离线、长距离的地图生成,该方法通过聚合所有关联帧特征,并使用神经辐射场来对BEV特征进行优化。
概述P-MapNet
整体框架如图 2所示。
图2
输入: 系统输入为点云: 、环视相机:,其中 为环视相机数量。通常的HDMap生成任务(例如HDMapNet)可以定义为:
其中 表示特征提取, 表示segmentation head, 则是HDMap的预测结果。
我们所提出的P-MapNet融合了SD Map和HD Map先验,这种新任务( setting)可以表示为:
其中, 表示SDMap先验, 表示本文所提的refinement模块。 模块通过预训练的方式学习HD Map分布先验。类似的,当只使用SDMap先验时,则得到 -only setting:
输出:对于地图生成任务,通常有两种地图表示形式:栅格化和矢量化。在本文的研究中,由于本文所设计的两个先验模块更适合栅格化输出,因此我们主要集中在栅格化的表示上。
3.1 SDMap Prior 模块
SDMap数据生成
本文基于nuScenes和Argoverse2数据集进行研究,使用OpenStreetMap数据生成以上数据集对应区域的SD Map数据,并通过车辆GPS进行坐标系变换,以获取对应区域的SD Map。
BEV Query
如图2中所示,我们首先分别对图像数据进行特征提取和视角转换、对点云进行特征提取,得到BEV特征。然后将BEV特征通过卷积网络进行下采样后得到新的BEV特征:,将该特征图展平得到BEV Query。
SD Map先验融合
对于SD Map数据,通过卷积网络进行特征提取后,得到的特征 与BEV Query进行Cross-attention机制:
经过交叉注意力机制后得到的BEV特征通过segmentation head可以获得地图元素的初始预测。
3.2、HDMap Prior 模块
直接将栅格化的HD Map作为原始MAE的输入,MAE则会通过MSE Loss进行训练,从而导致无法作为refinement模块。因此在本文中,我们通过将MAE的输出替换为我们的segmentation head。为了让预测的地图元素具有连续性和真实性(与实际HD Map的分布更贴近),我们使用了一个预训练的MAE模块来进行refine。训练该模块包含两步:第一步上使用自监督学习训练MAE模块来学习HD Map的分布,第二步是通过使用第一步得到的权重作为初始权重,对网络的所有模块进行微调。
第一步预训练时,从数据集中获取的真实HD Map经过随机mask后作为网络输入 ,训练目标则为补全HD Map:
第二步fine-tune时, 则使用第一步预训练的权重作为初始权重,完整的网络为:
4、实验
4.1 数据集和指标
我们在两个主流的数据集上进行了评测:nuScenes和Argoverse2。为了证明我们所提方法在远距离上的有效性,我们设置了在三种不同的探测距离:, , 。其中, 范围中BEV Grid的分辨率为0.15m,另外两种范围下分辨率为0.3m。我们使用mIOU指标来评估栅格化预测结果,使用mAP来评估矢量化预测结果。为了评估地图的真实性,我们还使用了LPIPS指标作为地图感知指标。
4.2 结果
与SOTA结果对比:我们对所提的方法与当前SOTA方法在短距离(60m × 30m)和长距离(90m × 30m)下的地图生成结果进行比较。如表II所示,我们的方法在与现有的仅视觉和多模态(RGB LiDAR)方法相比表现出更优越的性能。
我们在不同距离和使用不同传感器模式下,与HDMapNet [14] 进行了性能比较,结果总结在表I和表III中。我们的方法在240m×60m范围的mIOU上取得了13.4%改进。随着感知距离超出或甚至超过传感器检测范围,SDMap先验的有效性变得更加显著,从而验证了SDMap先验的功效。最后,我们利用HD地图先验通过将初始预测结果精细化以使其更加真实,并消除了错误结果,进一步带来了性能提升。
HDMap先验的感知度量指标。HDMap先验模块将网络的初始预测映射到HD地图的分布上,使其更加真实。为了评估HDMap先验模块输出的真实性,我们利用了感知度量LPIPS 数值越低表示性能越好)进行评测。如表IV所示,在 setting 中LPIPS指标要比 -only setting 中的提升更大。
可视化:
以上是量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

一先导与重点文章主要介绍自动驾驶技术中几种常用的坐标系统,以及他们之间如何完成关联和转换,最终构建出统一的环境模型。这里重点理解自车到相机刚体转换(外参),相机到图像转换(内参),图像到像素有单位转换。3d向2d转换会有相应的畸变,平移等。重点:自车坐标系相机机体坐标系需要被重写的是:平面坐标系像素坐标系难点:要考虑图像畸变,去畸变和加畸变都是在像平面上去补偿二简介视觉系统一共有四个坐标系:像素平面坐标系(u,v)、图像坐标系(x,y)、相机坐标系()和世界坐标系()。每种坐标系之间均存在联系,

轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(CNN&GNN&Transformer)技能等,入门难度很大!很多粉丝期望能够尽快上手轨迹预测,少踩坑,今天就为大家盘点下轨迹预测常见的一些问题和入门学习方法!入门相关知识1.预习的论文有没有切入顺序?A:先看survey,p

原标题:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving论文链接:https://arxiv.org/pdf/2402.02519.pdf代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL作者单位:香港科技大学大疆论文思路:本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-cent

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR
