ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%-人工智能-PHP中文网

实验结果

首页

科技周边

人工智能

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 07:51 PM

模型自动驾驶

对于自动驾驶中的许多任务来说，从自上而下、地图或鸟瞰 (BEV) 几个角度去看会更容易完成。由于许多自动驾驶主题被限制在地平面，所以俯视图是一种更实用的低维表征，对于导航也更加理想，能够捕获相关障碍和危险。对于像自主驾驶这样的场景，语义分割的 BEV 地图必须作为瞬时估计生成，以处理自由移动的对象和只访问一次的场景。

要想从图像推断 BEV 地图，就需要确定图像元素与它们在环境中的位置之间的对应关系。此前的一些研究以稠密深度图和图像分割地图指导这种转换过程，还有研究延展了隐式解析深度和语义的方法。一些研究则利用了相机的几何先验，但并没有明确地学习图像元素和 BEV 平面之间的相互作用。

在近期一篇论文中，来自萨里大学的研究者引入了注意力机制，将自动驾驶的 2D 图像转换为鸟瞰图，使得模型的识别准确率提升了 15%。这项研究在不久前落幕的 ICRA 2022 会议上获得了杰出论文奖。

论文链接：https://arxiv.org/pdf/2110.00966.pdf

与以往的方法不同，这项研究将 BEV 的转换视为一个「Image-to-World」的转换问题，其目标是学习图像中的垂直扫描线（vertical scan lines）和 BEV 中的极射线（polar ray）之间的对齐。因此，这种射影几何对网络来说是隐式的。

在对齐模型上，研究者采用了 Transformer 这种基于注意力的序列预测结构。利用其注意力机制，研究者明确地建模了图像中垂直扫描线与其极性 BEV 投影之间的成对相互作用。Transformer 非常适合图像到 BEV 的转换问题，因为它们可以推理出物体、深度和场景照明之间的相互依赖关系，以实现全局一致的表征。

研究者将基于 Transformer 的对齐模型嵌入到一个端到端学习公式中，该公式以单目图像及其固有矩阵为输入，然后预测静态和动态类的语义 BEV 映射。

本文构建了一个体系结构，有助于从对齐模型周围的单目图像预测语义 BEV 映射。如下图 1 所示，它包含三个主要组成部分：一个标准的 CNN 骨干，用于提取图像平面上的空间特征；编码器 - 解码器 Transformer 将图像平面上的特征转换为 BEV；最后一个分割网络将 BEV 特征解码为语义地图。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

具体而言，这项研究的主要贡献在于：

(1)用一组 1D 序列 - 序列的转换从一幅图像中生成一个 BEV 图；
(2)构建了一个受限制的数据高效的 Transformer 网络，具备空间感知能力；
(3)公式和语言领域单调注意力的结合表明，对于精确的映射来说，知道图像中一个点下面是什么比知道它上面是什么更重要，尽管两者都使用会导致最佳性能；
(4)展示了轴向注意力如何通过提供时间意识来提高性能，并在三个大规模数据集上展示了最新的结果。

实验结果

在实验中，研究者做了几项评估：将图像到 BEV 的转换作为 nuScenes 数据集上的转换问题评估其效用；在单调注意力中消融回溯方向，评估长序列水平上下文的效用和极位置信息（polar positional information）的影响。最后，将该方法与 nuScenes 、Argoverse 和 Lyft 数据集的 SOTA 方法进行比较。

消融实验

如下表 2 的第一部分所示，研究者比较了软注意力 (looking both ways)、图像底部回溯(looking down) 的单调注意力、图像顶部回溯 (looking up) 的单调注意力。结果表明，从图像中的一个点向下看比向上看要好。

沿着局部的纹理线索——这与人类在城市环境中试图确定物体距离的方法是一致的，我们会利用物体与地平面相交的位置。结果还表明，两个方向的观察都进一步提高了精度，使深度推理更具有识别力。

长序列水平上下文的效用。此处的图像 - BEV 转换是作为一组 1D 序列 - 序列转换进行的，因此一个问题是，当整个图像被转换成 BEV 时会发生什么。考虑到生成注意力地图所需的二次计算时间和记忆力，这种方法的成本高得令人望而却步。然而，可以通过在图像平面特征上应用水平轴向注意力，取得近似使用整个图像的上下文效益。借助通过图像行的轴向注意力，垂直扫描线中的像素现在具备了长距离的水平上下文，之后像以前一样，通过在 1D 序列之间转换来提供长距离的垂直上下文。

如表 2 中间部分所示，合并长序列水平上下文并不会使模型受益，甚至略有不利影响。这说明了两点：首先，每个转换后的射线并不需要输入图像整个宽度的信息，或者更确切地说，比起已经通过前端卷积聚合的上下文，长序列上下文并没有提供任何额外的好处。这表明，使用整个图像执行转换，不会让模型精度提高以至超过 baseline 约束公式；此外，引入水平轴向注意力导致的性能下降意味着使用注意力训练图像宽度的序列的困难，可以看出，使用整个图像作为输入序列的话，会更难训练。

Polar-agnostic vs polar-adaptive Transformers：表 2 最后一部分比较了 Po-Ag 与 Po-Ad 的变体。一个 Po-Ag 模型没有极化位置信息，图像平面的 Po-Ad 包括添加到 Transformer 编码器中的 polar encodings，而对于 BEV 平面，这些信息会加入到解码器中。在任何一个平面上添加 polar encodings 都比在不可知模型上添加更有益处，其中动态类的增加最多。将它添加到两个平面会进一步强化这一点，但对静态类的影响最大。

和 SOTA 方法的对比

研究者将本文方法与一些 SOTA 方法进行了比较。如下表 1 所示，空间模型的表现优于目前压缩的 SOTA 方法 STA-S ，平均相对改善 15% 。在更小的动态类上，改善更加显著，公共汽车、卡车、拖车和障碍物的检测准确度都增加了相对 35-45% 。

下图 2 中得到的定性结果也支持了这一结论，本文模型显示出更大的结构相似性和更好的形状感。这种差异可以部分归因于用于压缩的全连接层(FCL) : 当检测小而遥远的物体时，图像的大部分是冗余的上下文。

此外，行人等物体往往部分被车辆挡住。在这种情况下，全连接层将倾向于忽略行人，而是保持车辆的语义。在这里，注意力方法展示出了它的优势，因为每个径向深度都可以独立地注意到图像ーー如此，更深的深度可以使行人的身体可见，而此前的深度只可以注意到车辆。

下表 3 中 Argoverse 数据集上的结果展示了类似的模式，其中本文方法对比 PON [8]提高了 30% 。

如下表 4 所示，本文方法在 nuScenes 和 Lyft 上的表现优于 LSS [9]和 FIERY [20]。在 Lyft 上进行真正的对比是不可能的，因为它没有规范的 train/val 分割，而且无法获得 LSS 所使用的分割。

更多研究细节，可参考原论文。

以上是ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7667

CakePHP 教程

1393

C# 教程

1205

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

自动驾驶场景中的长尾问题怎么解决？ Jun 02, 2024 pm 02:44 PM

昨天面试被问到了是否做过长尾相关的问题，所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况，即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决，剩下的5%的长尾问题，逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车（AV）中的边缘情况，边缘情况是发生概率较低的可能场景。这些罕见的事件

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究！菲尔兹奖得主、华裔数学家领衔11篇顶刊论文｜陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI，的确正在改变数学。最近，一直十分关注这个议题的陶哲轩，转发了最近一期的《美国数学学会通报》（BulletinoftheAmericanMathematicalSociety）。围绕「机器会改变数学吗？」这个话题，众多数学家发表了自己的观点，全程火花四射，内容硬核，精彩纷呈。作者阵容强大，包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化，要知道，其中很多文章是在一年前提交的，而在这一

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多的大模型会基于JAX平台进行训练和运行。模型最近，Keras团队为三个后端（TensorFlow、JAX、PyTorch）与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先，他们为生成式和非生成式人工智能任务选择了一组主流

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

聊聊端到端与下一代自动驾驶系统，以及端到端自动驾驶的一些误区？ Apr 15, 2024 pm 04:13 PM

最近一个月由于众所周知的一些原因，非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会，整理一下在当下这个时刻的一些想法和观点，供大家参考和讨论。如何定义端到端的自动驾驶系统，应该期望端到端解决什么问题？按照最传统的定义，端到端的系统指的是一套系统，输入传感器的原始信息，直接输出任务关心的变量。例如，在图像识别中，CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中，输入各种传感器的数据（相机/LiDAR

FisheyeDetNet：首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大，标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述，我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示，并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型，并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

See all articles

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

实验结果

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题