目录
写在前面&笔者的个人理解
方法提出
方法设计
Multi-Scale Perception Neck
Transformer Decoder
Instance Interactive Attention
Vector Direction Difference Loss
实验
对比实验
消融实验
可视化结果
总结
首页 科技周边 人工智能 ADMap:抗干扰在线高精地图新思路

ADMap:抗干扰在线高精地图新思路

Mar 07, 2024 pm 12:30 PM
模型 高精地图

写在前面&笔者的个人理解

很高兴受邀参加自动驾驶之心的活动,我们将分享在线重建矢量化高精度地图的抗扰动方法ADMap。你可以在https://github.com/hht1996ok/ADMap 上找到我们的代码。感谢大家的关注和支持。

在自动驾驶领域,在线高清地图重建对于规划和预测任务具有重要意义,近期的工作构建了许多高性能的高清地图重建模型来满足这一需求。然而矢量化实例内部的点序由于预测偏差可能会出现抖动或锯齿现象,从而影响后续任务。因此,我们提出了Anti-Disturbance Map reconstruction framework(ADMap)。本文希望兼顾模型速度和整体的精度,并且在部署时不会让工程师们感到困扰。因此,提出了三个高效且有效的模块:Multi-Scale Perception Neck(MPN)、Instance Interactive Attention(IIA)和Vector Direction Difference Loss(VDDL)。通过级联的探索实例间和实例内部的点序关系,我们的模型更好地监督了点序的预测过程。

我们在nuScenes和Argoverse2数据集中验证了ADMap的有效性。实验结果表明,ADMap在各项基准测试中均表现出最佳性能。在nuScenes基准中,ADMap在使用仅相机数据和多模态数据的情况下,mAP相比基准分别提高了4.2%和5.5%。ADMapv2不仅降低了推理延迟,还显著提升了基线性能,最高mAP达到了82.8%。在Argoverse数据集中,ADMapv2的mAP提高至62.9%,同时帧率保持在14.8FPS。

总结来说,我们提出的ADMap主要有以下几点贡献:

  • 提出了端到端的ADMap,重建了更稳定的矢量化高精地图。
  • MPN在不增加推理资源的情况下更好的捕捉了多尺度信息,IIA完成了实例间和实例内部的有效交互,使点级特征更准确,VDDL更细致的约束了点序重建过程,在点序的几何关系上进行监督。
  • ADMap实现了矢量化高精地图的实时重建,并且在nuScenes基准和Argoverse2中达到了最高精度。

方法提出

如图1所示,实例中的预测点往往会不可避免的出现抖动或偏移现象,这种抖动会导致重建后的实例矢量变得不平滑或锯齿状,严重影响了在线高精地图的质量和实用性。我们认为,其原因在于现有模型并未充分考虑实例间和实例内部的交互方式,实例点与地图拓扑信息不完全的交互会导致其预测位置的不准。此外仅通过L1 loss和cosine embedding loss等监督无法有效的利用几何关系来约束实例点的预测过程,网络需要利用各点间的矢量线段来精细捕捉点序的方向信息以更准确的约束每个点的预测过程。

ADMap:抗干扰在线高精地图新思路

为了缓解以上问题,我们创新的提出了Anti-Disturbance Map reconstruction framework(ADMap),实现了矢量化高精地图的实时稳定重建。

方法设计

如图2所示,ADMap通过多尺度感知颈(Multi-Scale Perception Neck,MPN)、实例交互注意力(Instance Interactive Attention,IIA)和矢量方向差损失(Vector Direction Difference Loss,VDDL)来更精细地预测点序拓扑结构。下面将分别介绍MPN、IIA以及VDDL。

ADMap:抗干扰在线高精地图新思路

Multi-Scale Perception Neck

为了获得更详细的BEV特征,我们引入了Multi-Scale Perception Neck(MPN)。MPN接收融合后的BEV特征作为输入。通过下采样,每个层级的BEV特征将连接到一个上采样层,以恢复原始尺寸的特征图。最终,各层级的特征图将合并成多尺度的BEV特征。

如图2中的虚线代表该步骤仅在训练时实施,实线代表训练和推理过程都会实施该步骤。在训练过程中,多尺度BEV特征图和每一层级的BEV特征图都会被送入Transformer Decoder,这使网络可以在不同尺度预测场景的实例信息以捕捉更精细的多尺寸特征。而在推理过程中,MPN仅保留多尺度BEV特征,不会输出各层级特征图,这保证了该neck在推理时的资源占用不变。

Transformer Decoder

Transformer Decoder中定义了一组实例级别的查询和一组点级别的查询,随后将点级别查询共享到所有实例中,这些分层查询被定义为:

ADMap:抗干扰在线高精地图新思路

解码器包含几个级联的解码层,这些层迭代地更新分层查询。在各解码层中,分层查询被输入到自注意力机制中,这使得分层查询间可以相互交换信息,Deformable Attention被用来交互分层查询和多尺度BEV特征。

Instance Interactive Attention

为了在解码阶段更好的获取各实例特征,我们提出了Instance Interactive Attention(IIA),其由Instances self-attention和Points self-attention组成。不同于MapTRv2并行提取实例级和点级别的嵌入,IIA级联地提取了查询嵌入。实例嵌入间的特征交互进一步帮助了网络学习点级嵌入间的关系。

ADMap:抗干扰在线高精地图新思路

如图3所示,Deformable cross-attention输出的分层嵌入被输入到Instances self-attention。将点维度与通道维度合并后维度变换为。随后,分层嵌入接入由多个MLP组成的Embed Layer中获得实例查询,该查询被放入Multi-head self-attention中来捕捉实例间的拓扑关系,得到实例嵌入。为了在点级嵌入中融入实例级别信息,我们将实例嵌入和分层嵌入相加。相加后的特征被输入至Point self-attention中,对各实例内的点特征进行交互,进一步精细关联了点序间的拓扑关系。

Vector Direction Difference Loss

高精地图中包含了矢量化的静态地图元素,包括车道线、路沿和人行横道等。ADMap针对这些开放形状(车道线、路沿)和封闭形状(人行横道)提出了Vector Direction Difference Loss。我们建模了实例内部的点序矢量方向,通过预测矢量方向和真实矢量方向的差值可以更细致的监督点的方向。此外,真实矢量方向差较大的点被认为代表了部分场景拓扑的剧烈变化(更不容易预测),更加需要被模型关注。因此,真实矢量方向差较大的点被赋予了更大的权重,以保证网络可以准确预测到这个剧烈变化的点。

ADMap:抗干扰在线高精地图新思路

图4展示了预测点序{ 和真实点序{ 中对预测矢量线{ 和真实矢量线{ 的初始建模。为了保证相反的角度不会得到相同的损失,我们计算矢量线角度差余弦值θ':

ADMap:抗干扰在线高精地图新思路

其中函数累加了矢量线的坐标位置,代表归一化操作。我们利用真实实例中各点的矢量角度差来为它们赋予不同大小的权重。权重定义如下:

ADMap:抗干扰在线高精地图新思路

其中代表实例中点的数量,函数代表底数为e的指数函数。由于首尾两点无法计算矢量角度差,因此我们将首尾点的权重设置为1。当真实值中的矢量角度差变大时,我们赋予该点更大的权重,这使得网络更为关注显著变化的地图拓扑结构。点序中各点的角度差损失定义为:

ADMap:抗干扰在线高精地图新思路

我们使用θ将损失值的区间调整为[0.0, 2.0]。通过将各点的相邻矢量线角度差余弦相加,该损失更全面的涵盖了各点的几何拓扑信息。由于首尾两点仅有一根相邻矢量线,因此首尾两点的损失为单个矢量角度差的余弦值。

实验

为了公平的评估,我们将地图元素分为车道线、道路边界和人行横道三种。采用平均精度(AP)来评估地图构建的质量,使用预测点序和真实点序的chamfer距离之和来判断两者是否匹配。Chamfer距离阈值设置为[0.5, 1.0, 1.5],我们分别在这三种阈值下计算AP,并将平均值作为最终指标。

对比实验

ADMap:抗干扰在线高精地图新思路

表1报告了ADMap和最先进方法在nuScenes数据集的指标。在camera-only框架下,ADMap的mAP相较于baseline(MapTR)提高了5.5%,ADMapv2相较于baseline(MapTRv2)提高了1.4%。 ADMapv2最高mAP达到82.8%,取得当前基准中最佳性能,部分细节会在后续arxiv版本中公布。在速度方面,ADMap相较于其baseline在FPS略微降低的情况下显着提高模型性能。值得一提的是,ADMapv2不仅提高了性能,在模型推理速度方面也有提升。

ADMap:抗干扰在线高精地图新思路

表2报告了ADMap和最先进方法在Argoverse2中的指标。在camera-only框架下,ADMap和ADMapv2相较于baseline分别提高了3.4%和1.3%。在多模态框架下,ADMap和ADMapv2达到了最佳性能,mAP分别为75.2%和76.9%。在速度方面。 ADMapv2相较于MapTRv2提升了11.4ms。

消融实验

在表 3 中,我们提供了在 nuScenes 基准上ADMap各个模块的消融实验。

ADMap:抗干扰在线高精地图新思路

表4给出了插入不同注意力机制对于最终性能的影响。 DSA表示decoupled self-attention,IIA表示实例交互注意力。结果表示IIA相较于DSA,mAP提高1.3%。

ADMap:抗干扰在线高精地图新思路

表5报告了在融合特征后增加backbone和neck层对mAP的影响。增加基于SECOND的backbone和neck层后,mAP提高了1.2%。而增加MPN后,在不增加推理时间的前提下,模型的mAP提高了2.0%。

ADMap:抗干扰在线高精地图新思路

表6报告了在nuScenes基准中增加VDDL对性能的影响。可以看到,当权重设置为1.0时,mAP最高,达到了53.3%。

ADMap:抗干扰在线高精地图新思路

表7报告了在nuScenes基准中,MPN下采样层数对最终性能的影响。下采样层数越多,模型推理速度越慢。因此,为了平衡速度和性能,我们设置了下采样层数为2。

ADMap:抗干扰在线高精地图新思路

为了验证ADMap有效缓解了点序扰动问题,我们提出了average chamfer distance(ACE)。我们挑选了chamfer distance之和小于1.5的预测实例,并计算它们的average chamfer distance(ACE)。当ACE越小代表实例点序预测的越准确。表8证明了ADMap可以有效缓解点云扰动这一问题。

ADMap:抗干扰在线高精地图新思路

可视化结果

下面两幅图为nuScenes数据集和Argoverse2数据集中的可视化结果。

ADMap:抗干扰在线高精地图新思路

ADMap:抗干扰在线高精地图新思路

总结

ADMap是一个高效且有效的矢量化高精地图重建框架,其有效缓解了实例矢量的点序由于预测偏差可能会出现的抖动或锯齿现象。大量实验表明,我们提出的方法在nuScenes和Argoverse2基准上均取得最佳性能。我们相信ADMap协助推进矢量高精地图重建任务的研究,从而更好地推动自动驾驶等领域的发展。

以上是ADMap:抗干扰在线高精地图新思路的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FisheyeDetNet:首个基于鱼眼相机的目标检测算法 FisheyeDetNet:首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

DualBEV:大幅超越BEVFormer、BEVDet4D,开卷! DualBEV:大幅超越BEVFormer、BEVDet4D,开卷! Mar 21, 2024 pm 05:21 PM

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的

See all articles