SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?
基于激光雷达相机融合的3D检测是自动驾驶的一项关键任务。近年来,出现了许多激光雷达相机融合方法,并取得了良好的性能,但是这些方法始终缺乏精心设计和有效监督的融合过程
本文介绍了一种名为SupFusion的新训练策略,它为激光雷达相机融合提供了辅助特征级监督,并显着提高了检测性能。该方法包括Polar Sampling数据增强方法,用于加密稀疏目标并训练辅助模型生成高质量特征进行监督。这些特征用于训练激光雷达相机融合模型,优化融合特征以模拟生成高质量特征。此外,还提出了一种简单而有效的深度融合模块,与之前使用SupFusion策略的融合方法相比,该模块连续获得了优越的性能。本文的方法具有以下优点:首先,SupFusion引入了辅助特征级监督,可以在不增加额外推理成本的情况下提高激光雷达相机的检测性能。其次,所提出的深度融合可以不断提高检测器的能力。提出的SupFusion和深度融合模块是即插即用的,本文通过大量实验证明了它们的有效性。在基于多个激光雷达相机的3D检测KITTI基准测试中,取得了约2%的3D mAP改进!
图1:顶部,以前的激光雷达相机3D检测模型,融合模块是通过检测loss进行优化的。底部:本文提出的SupFusion,通过辅助模型提供的高质量特征引入辅助监督。
基于激光雷达相机融合的3D检测是自动驾驶和机器人技术的一项关键且具有挑战性的任务,先前的方法总是通过内参和外参将相机输入投影到激光雷达BEV或体素空间,以对齐激光雷达和相机特征。然后,采用简单的级联或求和来获得用于最终检测的融合特征。此外,一些基于深度学习的融合方法获得了有希望的性能。然而,以往的融合方法总是通过检测损失直接优化3D/2D特征提取和融合模块,这在特征层面缺乏精心设计和有效的监督,限制了其性能。
近年来,蒸馏方式在用于3D检测的特征级监督方面显示出很大的改进。一些方法提供了激光雷达特征,以指导2D主干根据相机输入估计深度信息。此外,一些方法提供了激光雷达相机融合功能,以监督激光雷达主干从激光雷达输入中学习全局和上下文表示。通过模拟更稳健和高质量的特征引入特征级辅助监督,检测器可以促进边际改进。受此启发,处理激光雷达相机特征融合的自然解决方案是提供更强、高质量的特征,并为激光雷达相机3D检测引入辅助监督!
为了提高基于激光雷达相机的融合3D检测性能,本文提出了一种名为SupFusion的监督式激光雷达相机融合方法。该方法通过生成高质量的特征,并为融合和特征提取过程提供有效的监督来实现。首先,我们训练一个辅助模型,以提供高质量的功能。与以往利用较大模型或额外数据的方法不同,我们提出了一种新的数据增强方法,称为Polar Sampling。 Polar Sampling可以从稀疏的激光雷达数据中动态增强目标的密度,从而更容易检测并提高特征质量,例如准确的检测结果。然后,我们简单地训练基于激光雷达相机融合的检测器,并引入辅助特征级监督。在这一步中,我们将原始激光雷达和相机输入输入到3D/2D主干和融合模块中,以获得融合特征。融合特征被馈送到检测头中用于最终预测,同时辅助监督将融合特征模拟为高质量特征。这些特征是通过预训练的辅助模型和增强的激光雷达数据获得的。通过这种方式,所提出的特征级监督可以使融合模块生成更稳健的特征,并进一步提高检测性能。为了更好地融合激光雷达和相机的特征,我们提出了一种简单而有效的深度融合模块,该模块由堆叠的MLP块和动态融合块组成。 SupFusion可以充分挖掘深度融合模块的能力,并不断提高探测精度!
本文的主要贡献:
- 提出了一种新的监督融合训练策略SupFusion,该策略主要由高质量的特征生成过程组成,并首次提出了用于鲁棒融合特征提取和精确3D检测的辅助特征级监督损失。
- 为了在SupFusion中获得高质量的特征,提出了一种名为“Polar Sampling”的数据增强方法来加密稀疏目标。此外,还提出了一种有效的深度融合模块,以连续提高检测精度。
- 基于具有不同融合策略的多个检测器进行了广泛的实验,并在KITTI基准上获得了约2%的mAP改进。
提出的方法
高质量的特征生成过程如下图所示,对于任何给定的LiDAR样本,通过polar pasting粘贴来加密稀疏目标,极轴polar pasting计算方向和旋转以从数据库中查询密集目标,并通过pasting为稀疏目标添加额外的点。本文首先通过增强的数据训练辅助模型,并将增强的激光雷达数据馈送到辅助模型中,以在其收敛后生成高质量特征f*。
高质量的特征生成
为了在SupFusion中提供特征级监督,采用了一个辅助模型来从增强的数据中捕获高质量的特征,如图3所示。首先,训练一个辅助模型来提供高质量的特征。对于D中的任何样本,通过polar pasting来增强稀疏的激光雷达数据,以获得增强的数据,该极性粘贴通过极性分组中生成的添加点集来加密备用目标。然后,在辅助模型收敛之后,将增强的样本输入到优化的辅助模型中,以捕获高质量特征,用于训练激光雷达相机3D检测模型。为了更好地应用于给定的激光雷达相机检测器并更容易实现,这里简单地采用激光雷达分支探测器作为辅助模型!
检测器训练
对于任何给定的激光雷达相机检测器,在特征级别使用所提出的辅助监督来训练模型。给定样本,的情况下,首先将激光雷达和相机输入到3D和2D编码器和中,以捕获相应的特征和,这些特征被输入到融合模型中以生成融合特征,并流到检测头中进行最终预测。此外,采用所提出的辅助监督来模拟具有高质量特征的融合特征,该特征是由预先训练的辅助模型和增强的激光雷达数据生成的。上述过程可以公式化为:
Polar Sampling
为了提供高质量的特征,本文在提出的SupFusion中引入了一种名为Polar Sampling的新的数据增强方法,以解决稀疏问题,该问题经常导致检测失败。为此,我们对激光雷达数据中的稀疏目标进行了密集处理,类似于密集目标的处理方式。极坐标采样由两个部分组成,即极坐标分组和极坐标粘贴。在极坐标分组中,我们主要建立了一个数据库来存储密集目标,该数据库用于极坐标粘贴,从而使稀疏目标变得更加密集
考虑到激光雷达传感器的特性,收集到的点云数据自然存在特定的密度分布。例如,物体在表面上有更多的点朝向激光雷达传感器,而在相对两侧的点很少。密度分布主要受方向和旋转的影响,而点的密度主要取决于距离。离激光雷达传感器更近的物体具有更密集的点。受此启发,本文的目标是根据稀疏目标的方向和旋转,将长距离的稀疏目标与短距离的密集目标进行密度化,以保持密度分布。我们基于场景中心和特定目标为整个场景以及目标建立极坐标系,并将激光雷达传感器的正方向定义为0度,以测量相应的方向和旋转。然后,我们收集具有相似密度分布(例如,具有相似方向和旋转)的目标,并为极性分组中的每组生成一个密集目标,并在极坐标粘贴中使用它来密集稀疏目标
Polar Grouping
如图4所示,这里构建了一个数据库B,根据极性分组中的方向和旋转来存储生成的密集物点集l,在图4中记为α和β!
首先,搜索整个数据集,通过位置计算所有目标的极角,并在基准中提供旋转。其次,根据目标的极角将它们分成几组。手动将方向和旋转划分为N组,对于任何目标点集l,都可以根据索引将其放入相应的组中:
Polar Pasting
如图2所示,利用Polar Pasting来增强稀疏的激光雷达数据,以训练辅助模型并生成高质量特征。给定LiDAR样本,,,,包含个目标,对于任何目标,都可以计算与分组过程相同的方向和旋转,并根据标签和索引从B查询密集目标,这可以从E.q.6中获得增强样本中的所有目标并获得增强的数据。
Deep Fusion
为了模拟增强型激光雷达数据生成的高质量特征,融合模型旨在从相机输入中丰富的颜色和上下文特征中提取稀疏目标的缺失信息。为此,本文提出了深度融合模块,以利用图像特征并完成激光雷达演示。所提出的深度融合主要由3D学习器和2D-3D学习器组成。3D学习器是一个简单的卷积层,用于将3D呈现转移到2D空间中。然后,连接2D特征和3D呈现(例如,在2D空间中),2D-3D学习器被用来融合LiDAR相机特征。最后,通过MLP和激活函数对融合特征进行了加权,将其添加回原始激光雷达特征作为深度融合模块的输出。2D-3D学习器由深度为K的堆叠MLP块组成,学习利用相机特征来完成稀疏目标的激光雷达表示,以模拟密集激光雷达目标的高质量特征。
实验对比分析
实验结果(mAP@R40%)。这里列出了三个类别的简单、中等(mod.)和困难情况,以及总体性能。这里L、LC、LC*表示相应的激光雷达检测器、激光雷达相机融合检测器和本文提案的结果。∆表示改进。最佳结果以粗体显示,预期L†是辅助模型,并在增强验证集上进行测试。MVXNet是基于mmdetection3d重新进行的。PV-RCNN-LC和Voxel RCNN LC是基于VFF的开源代码重新进行的。
重写后的内容:整体性能。根据表1中的比较结果,3DmAP@R40基于三个检测器的比较显示了各个类别和每个难度划分的总体性能。可以明显观察到,通过引入额外的相机输入,激光雷达相机方法(LC)在性能上优于基于激光雷达的检测器(L)。通过引入极性采样,辅助模型(L†)在增强的验证集上表现出令人钦佩的性能(例如超过90%的mAP)。借助具有高质量特征的辅助监督和提出的深度融合模块,我们的提案不断提高检测精度。例如,与基线(LC)模型相比,我们的提案在中度和难度目标上分别获得了+1.54%和+1.24%的3D mAP改进。此外,我们还对基于SECOND-LC的nuScenes基准进行了实验,如表2所示,NDS和mAP分别提高了+2.01%和+1.38%
class感知改进分析。与基线模型相比,SupFusion和深度融合不仅可以提高整体性能,还可以提高包括Pedestrian在内的每个类别的检测性能,比较三个类别的平均改善(例如中等情况),可以获得以下观察结果:骑自行车的人获得最大的改善(+2.41%),而行人和汽车分别获得+1.35%和+0.86%的改善。原因很明显:(1) 与行人和骑自行车的人相比,汽车更容易被发现,并获得最佳效果,因此更难改进。(2) 与行人相比,骑自行车的人获得了更多的改进,因为行人是非网格的,生成的密集目标与骑自行车的相比不那么好,因此获得的性能改进较低!
请点击以下链接查看原文内容:https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw
以上是SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
