请联系出处获得本文的转载授权,本文是由自动驾驶之心公众号发布的
多模态传感器融合意味着信息互补、稳定和安全,长期以来都是自动驾驶感知的重要一环。然而信息利用的不充分、原始数据的噪声及各个传感器间的错位(如时间戳不同步),这些因素都导致融合性能一直受限。本文全面调研了现有多模态自动驾驶感知算法,传感器包括LiDAR和相机,聚焦于目标检测和语义分割,分析超过50篇文献。同传统融合算法分类方法不同,本文从融合阶段的不同将该领域分类两大类、四小类。此外,本文分析了当前领域存在的问题,对未来的研究方向提供参考。
这是因为单模态的感知算法存在固有的缺陷。举个例子,一般激光雷达的架设位置是高于相机的,在复杂的现实驾驶场景中,物体在前视摄像头中可能被遮挡,此时利用激光雷达就有可能捕获缺失的目标。但是由于机械结构的限制,LiDAR在不同的距离有不同的分辨率,而且容易受到极端恶劣天气的影响,如暴雨等。虽然两种传感器单独使用都可以做的很出色,但从未来的角度出发,LiDAR和相机的信息互补将会使得自动驾驶在感知层面上更安全。
近期,自动驾驶多模态感知算法取得了巨大进步。这些进步包括跨模态的特征表示、更可靠的模态传感器、更复杂、更稳定的多模态融合算法和技术。然而,只有少数综述[15, 81]专注于多模态融合的方法论本身,大多数文献都按照传统分类规则进行分类,即前融合、深度(特征)融合和后融合三大类,并主要关注算法中特征融合的阶段,无论是数据级、特征级还是提议级。这种分类规则存在两个问题:首先,没有明确定义每个级别的特征表示;其次,它从对称的角度处理激光雷达和相机这两个分支,进而模糊了LiDAR分支中提级级特征融合和相机分支中数据级特征融合的情况。总结来说,传统分类法虽然直观,但已经不适用于当前多模态融合算法的发展,一定程度上阻碍了研究人员从系统的角度进行研究和分析
常见的感知任务包括目标检测、语义分割、深度补全和预测等。本文重点关注检测和分割,如障碍物、交通信号灯、交通标志的检测和车道线、freespace的分割等。自动驾驶感知任务如下图所示:
常见的公开数据集主要包括KITTI、Waymo和nuScenes,下图总结了自动驾驶感知相关的数据集及其特点
多模态融合离不开数据表达形式,图像分支的数据表示较简单,一般均指RGB格式或灰度图,但激光雷达分支对数据格式的依赖度较高,不同的数据格式衍生出完全不同的下游模型设计,总结来说包含三个大方向:基于点、基于体素和基于二维映射的点云表示。
传统分类方法将多模态融合分为以下三种:
文章使用下图的分类方式,总体分为强融合和若融合,强融合又可细分为前融合、深度融合、不对称融合和后融合
本文使用KITTI的3D检测任务和BEV检测任务横向对比各个多模态融合算法的性能,下图是BEV检测测试集的结果:
以下是3D检测测试集的结果示例图:
根据激光雷达和相机数据表示的不同组合阶段,本文将强融合细分为:前融合、深度融合、不对称融合和后融合。如上图所示可以看出,强融合的每个子模块都高度依赖于激光雷达点云,而不是相机数据。
与传统的数据级融合定义不同,后者是一种在原始数据级别通过空间对齐和投影直接融合每种模态数据的方法,早期融合在数据级别融合LiDAR 数据和数据级别的相机数据或特征级。早期融合的一个例子可以是图4中的模型。 重写后的内容: 与传统的数据级融合定义不同,后者是一种通过在原始数据级别上进行空间对齐和投影,直接融合每种模态数据的方法。早期融合是指在数据级别上融合LiDAR数据和相机数据或特征级别的数据。图4中的模型是早期融合的一个例子
与传统分类方法定义的前融合不同,本文定义的前融合是指在原始数据级别通过空间对齐和投影直接融合各个模态数据的方法,前融合在数据级指的是融合激光雷达数据,在数据级或特征级融合图像数据,示意图如下:
在LiDAR分支中,点云有多种表达方式,比如反射图、体素化张量、前视图/距离视图/BEV视图以及伪点云等。尽管这些数据在不同主干网络中具有不同的内在特征,但除了伪点云之外[79],大部分数据都是通过一定的规则处理生成的。此外,与特征空间嵌入相比,LiDAR的这些数据都具有很强的可解释性,可以直接进行可视化展示
在图像分支中,严格意义上的数据级定义是指RGB或灰度图像,但是这个定义缺乏普适性和合理性。因此,本文对前融合阶段的图像数据的数据级定义进行了扩展,包括数据级和特征级数据。值得一提的是,本文将语义分割的预测结果也作为前融合的一种(图像特征级),一方面是因为它有助于3D目标检测,另一方面是因为语义分割的“目标级”特征与整个任务的最终目标级提议是不同的
深度融合,也称特征级融合,是指在激光雷达分支的特征级融合多模态数据,但在图像分支的数据集和特征级进行融合。例如一些方法使用特征提举起分别获取LiDAR点云和图像的嵌入表示,并通过一系列下游模块融合两种模态的特征。然而,与其他强融合不同的是,深度融合有时会以级联方式融合特征,这两者都利用了原始和高级语义信息。示意图如下:
后融合,也可以称为目标级融合,是指对多个模态的预测结果(或提案)进行融合。例如,一些后融合方法利用LiDAR点云和图像的输出进行融合[55]。两个分支的提案数据格式应与最终结果一致,但质量、数量和精度可能存在差异。后融合可以被看作是一种多模态信息优化最终提案的集成方法,示意图如下所示:
强融合的最后一种是不对称融合,指的是融合一个分支的目标级信息和其他分支的数据级或特征级信息。上述三种融合方法将多模态的各个分支平等对待,不对称融合则强调至少有一个分支占据主导地位,其他分支则提供辅助信息预测最终结果。下图是不对称融合的示意图,在proposal阶段,不对称融合只有一个分支的proposal,而后融合则是所有分支的proposal。
与强融合的区别在于,弱融合方法不直接从多模态分支中融合数据、特征或者目标,而是以其他形式处理数据。下图展示了弱融合算法的基本框架。基于弱融合的方法通常使用基于一定规则的方法来利用一种模态的数据作为监督信号,以指导另一种模态的交互。例如,图像分支中来自CNN的2D proposal可能会导致原始LiDAR点云中出现截断,弱融合直接将原始LiDAR 点云输入到 LiDAR 主干中以输出最终的proposal。
还有一些工作不属于上述任何一种范式,因为它们在模型设计的框架中使用了多种融合方式,例如[39]结合了深度融合和后融合,[77]则结合了前融合。这些方法不是融合算法设计的主流方式,本文统一归为其他融合方式。
近年来,用于自动驾驶感知任务的多模态融合方法取得了快速进展,从更高级的特征表示到更复杂的深度学习模型。然而,还有一些悬而未决的问题有待解决,本文总结了如下几个未来可能的改进方向 。
当前的融合模型存在错位和信息丢失的问题[13,67,98]。此外,平融合(flat fusion)操作也阻碍了感知任务性能的进一步提高。总结如下:
前视单帧图像是自动驾驶感知任务的典型场景。然而,大多数框架只能利用有限的信息,并未详细设计辅助任务来促进驾驶场景的理解。总结如下:
现实世界的场景和传感器高度会影响域偏差和分辨率。这些不足会妨碍自动驾驶深度学习模型的大规模训练和实时操作
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
原文链接:https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
以上是深入探讨多模态融合感知算法在自动驾驶中的应用的详细内容。更多信息请关注PHP中文网其他相关文章!