最近在 Arxiv 上阅读到一篇关于纯视觉环视感知的最新研究,该研究基于 PETR 系列方法,并专注于解决远距离目标检测的纯视觉感知问题,将感知范围扩大到150米。这篇论文的方法和结果对我们来说有很大的参考价值,所以我尝试着对其进行解读
原标题:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文链接:https:/ /arxiv.org/abs/2308.09616
作者单位:北京理工大学& 旷视科技
三维物体检测在理解自动驾驶的三维场景方面发挥着重要作用,其目的是对自车周围的物体进行精确定位和分类。纯视觉环视感知方法具有成本低、适用性广等优点,已取得显着进展。然而,它们大多侧重于近距离感知(例如,nuScenes的感知距离约为 50 米),对远距离探测领域的探索较少。检测远距离物体对于实际驾驶中保持安全距离至关重要,尤其是在高速或复杂路况下。
近来,从环视图像中进行三维物体检测取得了显着进展,其部署成本较低。然而,大多数研究主要集中在近距离感知范围,对远距离检测的研究较少。将现有方法直接扩展到覆盖长距离会面临计算成本高、收敛性不稳定等挑战。为了解决这些局限性,本文提出了一种新的基于稀疏查询的框架,称为 Far3D。
根据中间表征,现有的环视感知方法可以大致分为两类:基于BEV表征和基于稀疏查询表征的方法。基于BEV表征的方法由于需要计算密集的BEV特征,计算量非常大,难以扩展到远距离场景。而基于稀疏查询表征的方法会从训练数据中学习到全局的3D查询,计算量相对较小,且具有较强的扩展性。然而,它也存在一些弱点,尽管可以避免查询数量的平方增长,但全局固定查询不易适应动态场景,在远距离检测中通常会遗漏目标
图1:Argoverse 2 数据集上,3D检测和2D 检测的性能对比。
在远距离检测中,基于稀疏 query 表征的方法有两个主要挑战。
为了应对以上提到的问题,本文采取了以下设计方案:
为了给远距离检测模型引入多尺度特征,本文应用了 3D spatial deformable attention。它先在 query 对应的 3D 位置附近进行偏移采样,而后通过 3D-2D 视图变换聚合图像特征。这种方法替代 PETR 系列中的 global attention 的优势在于,计算量可以大幅降低。具体地,对于 3D 空间中的每个 query 的参考点,模型会学习其周围的 M 个采样偏移,并将这些偏移点投影到不同的 2D 视图特征中。
其后,3D query 与投影得到的采样特征交互。通过这种方式,来自不同视角和尺度的各种特征将通过考虑其相对重要性汇聚到三维查询中。
不同距离的 3D query 具有不同的回归难度,这不同于现有的 2D Denoising 方法(如 DN-DETR, 通常同等对待的2D query)。难度差异来自于 query 匹配密度和误差传播。一方面,与远处物体相对应的 query 匹配度低于近处物体。另一方面,在 3D adaptive query 中引入二维先验时,2D 物体框的微小误差会被放大,更不用说这种影响会随着物体距离的增加而增大。因此,GT 框附近的一些 query 可被视为 positive query,而其他有明显偏差则应被视为 negative query。本文提出一种 3D Denoising 方法,旨在优化那些正样本,并直接舍弃负样本。
具体而言,作者通过同时添加正样本和负样本组来构建基于 GT 的嘈杂查询。对于这两种类型,都会根据物体的位置和大小应用随机噪声,以促进远距离感知中的去噪学习。具体来说,正样本是在3D框内的随机点,而负样本则在GT上施加更大的偏移,偏移范围随着物体的距离变化。这种方法可以在训练过程中模拟有噪声的候选正样本和误报样本
Far3D 在 150m 感知范围的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以达到几个 Lidar-based 方法的性能,展现了纯视觉方法的潜力。
为了验证泛化性能,作者也在 nuScenes 数据集上做了实验,表明其在验证集和测试集上都达到 SoTA 性能。
经过消融实验,我们得出了以下结论:3D自适应查询、透视感知聚合和范围调节的3D降噪各自都具有一定的增益
Q:这篇文章有什么 novelty?
A:主要 novelty 是解决远距离场景的感知问题。现有方法拓展到远距离场景有许多问题,计算成本和收敛困难等。本文作者为这个任务提出了一个高效的框架。尽管单拎出来各个模块似曾相识,它们都是服务于远处目标的检测的,目标明确。
Q:相比 BevFormer v2, MV2D 有什么区别?
A: MV2D 主要是依赖 2D anchor 去取对应的特征对 3D 进行了绑定,但是没有显式的深度估计,所以对于远距离物体来说不确定性就会比较大,然后难收敛;BevFormer v2 主要解决的是2D backbone与 3D 任务场景之间的domain gap,一般 2D 识别任务上预训练的 backbone 察觉 3D 场景的能力存在不足,并没有探索远距离任务中的问题。
Q: 时序上能否改进,如 query propagation 再加上 feature propagation?
A: 理论上是可行的,但是实际应用中应该考虑performance-efficiency tradeoff。
Q: 还有哪些需要改进的地方?
A: 在长尾问题和远距离评测指标上都值得改进。在 Argoverse 2 这样的 26 类目标上,模型在长尾类别上表现不佳,最终也会降低平均精度,这一点尚未被探索。另一方面,使用统一的指标来评估远距离和近距离物体可能并不合适,这就强调了对实用的动态评估标准的需求,以适应现实世界的不同场景。
原文链接:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg
以上是AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路的详细内容。更多信息请关注PHP中文网其他相关文章!