端到端没有数据怎么办?ActiveAD:面向规划的端到端自动驾驶主动学习!
自动驾驶的端到端可微学习最近已成为一种突出的范式。一个主要瓶颈在于其对高质量标记数据的巨大需求,例如3D框和语义分割,这些数据的手动注释成本是出了名的昂贵。由于AD中样本内的行为往往存在长尾分布这一突出事实,这一困难更加明显。换言之,收集到的大部分数据可能微不足道(例如,在笔直的道路上向前行驶),只有少数情况是安全关键的。在本文中,我们探讨了一个实际重要但未被充分探索的问题,即如何实现端到端AD的样本和标签效率。
具体而言,论文设计了一种面向规划的主动学习方法,该方法根据所提出的规划路线的多样性和有用性标准,逐步注释部分收集的原始数据。经验上,提出的计划导向方法可以在很大程度上优于一般的主动学习方法。值得注意的是,方法仅使用30%的nuScenes数据,就实现了与最先进的端到端AD方法相当的性能。希望我们的工作能够激励未来的工作,从以数据为中心的角度,除了方法论方面的努力之外。
论文链接:https://arxiv.org/pdf/2403.02877.pdf
本文的主要贡献:
- 第一个深入研究E2E-AD的数据问题的人。还提供了一个简单而有效的解决方案,可以在有限的预算内识别和注释有价值的数据,用于规划。
- 基于端到端方法的面向规划的哲学,为规划路线设计了新的特定任务的多样性和不确定性测量。
- 大量的实验和消融研究证明了方法的有效性。ActiveAD在很大程度上优于一般的对等方法,并且仅使用30%的nuScenes数据,实现了与具有完整标签的SOTA方法相当的性能。
方法介绍
在端到端AD框架中详细描述了ActiveAD,并根据AD的数据特征设计了多样性和不确定性指标。
1)标签的初始样本选择
对于计算机视觉中的主动学习,初始样本选择通常仅基于原始图像,而没有额外的信息或学习到的特征,这导致了随机初始化的常见做法。对于AD,还有其他先前的信息可供利用。具体来说,当从传感器收集数据时,可以同时记录传统信息,如自车的速度和轨迹。此外,天气和照明条件通常是连续的,并且易于在片段级别中进行注释。这些信息有利于为初始集合选择做出明智的选择。因此,我们为初始选择设计了自我多样性度量。
Ego Diversity:由三个部分组成:1)天气照明2)驾驶指令3)平均速度。首先使用nuScenes中的描述,将完整的数据集划分为四个互斥子集:Day Sunny(DS)、Day Rainy(DR)、Night Sunny(NS)、NightRainy(NR)。其次,根据一个完整片段中左、右和直行驾驶命令的数量将每个子集分为四类:左转(L)、右转(R)、超车(O)、直行(S)。论文设计了一个阈值τc,其中如果剪辑中左右命令的数量都大于或等于阈值τc时,我们将其视为该剪辑中的超越行为。如果只有向左命令的数量大于阈值τc,则表示左转。如果只有向右命令的数量大于阈值τc,则表示向右转弯。所有其它情况都被认为是直接的。第三,计算每个场景中的平均速度,并在相关的子集中按升序对它们进行排序。
图2给出了基于多路树的初始选择过程的详细直观过程。
2)增量选择的准则设计
在本节将介绍如何基于使用已注释片段训练的模型,对片段的新部分进行增量注释。我们将使用中间模型对未标记的片段进行推理,随后的选择基于这些输出。尽管如此,还是采取了面向规划的观点,并介绍了后续数据选择的三个标准:位移误差、软碰撞和代理不确定性。
标准一:位移误差(DE)。将表示为模型的预测规划路线τ与数据集中记录的人类轨迹τ*之间的距离。
其中T表示场景中的帧。由于位移误差本身是一个性能指标(无需注释),因此它自然成为主动选择中的第一个也是最关键的标准。
标准二:软碰撞(SC)。将LSC定义为预测的自车轨迹和预测的agent轨迹之间的距离。将通过阈值ε过滤掉低置信度agent预测。在每个场景中,选择最短距离作为危险系数的度量。同时,在term和最近距离之间保持正相关:
使用“软碰撞”作为一个标准,因为:一方面,与“置换误差”不同,“碰撞比率”的计算取决于目标的3D框的注释,而这些注释在未标记的数据中不可用。因此,应该能够仅根据模型的推理结果来计算标准。另一方面,考虑一个硬碰撞标准:如果预测的自车轨迹会与其他预测的agent的轨迹发生碰撞,将其指定为1,否则指定为0。然而,这可能会导致标签为1的样本太少,因为AD中最先进模型的碰撞率通常很小(低于1%)。因此,选择使用与其他对目标最近的距离来代替“碰撞率”度量。当与其他车辆或行人的距离太近时,风险被认为要高得多。简言之,“软碰撞”是衡量碰撞可能性的有效指标,可以提供密集的监督。
标准III:agent不确定性(AU)。对周围agent的未来轨迹的预测自然具有不确定性,因此运动预测模块通常会生成多个模态和相应的置信度得分。我们的目标是选择那些附近agent具有高度不确定性的数据。具体来说,通过距离阈值δ过滤出遥远的主体,并计算剩余主体的多种模式的预测概率的加权熵。假设模态的数量是,并且agent在不同模态下的置信度得分是Pi(a),其中i∈{1,…,Nm}。然后,Agent不确定性可以定义为:
Overall Loss:
3)整体主动学习范式
Alg1介绍了方法的整个工作流程。给定可用预算B、初始选择大小n0、在每个步骤中进行的活动选择的数量ni以及总共M个选择阶段。首先使用上述描述的随机化或自车多样性方法初始化选择。然后,使用当前注释的数据来训练网络。基于训练的网络,我们对未标记的进行预测,并计算总损失。最后根据总体损失对样本进行排序,并选择当前迭代中要注释的前ni个样本。重复这个过程,直到迭代达到上限M,并且所选择的样本数量达到上限B。
实验结果
在广泛使用的nuScenes数据集上进行了实验。所有实验都使用PyTorch实现,并在RTX 3090和A100 GPU上运行。
表1:规划表现。ActiveAD在所有注释budget设置中都优于一般的主动学习基线。此外,与使用整个数据集进行训练相比,具有30%数据的ActiveAD实现了略好的规划性能。带有*的VAD表明已经更新了结果,这些结果比原始工作中报告的结果要好。带有†的UniAD表明已使用VAD的指标来更新结果。
表2:设计消融实验。“RA”和“ED”表示基于随机性和自车多样性的初始集选择。“DE”、“SC”和“AU”表示位移误差, 分别为软碰撞和agent不确定性。所有带“ED”的组合都使用相同的10%数据进行初始化。LDE、LSC和LAU分别归一化为[0,1],将超参数α和β设置为1。
图3:所选场景可视化。根据选择的前置摄像头图像基于在10%数据上训练的模型的位移误差(col 1)、软碰撞(col 2)、agent不确定性(col 3)和混合(col 4)标准。Mixed代表了我们的最终选择策略ActiveAD,并考虑了前三种情况!
表4,各种场景下的性能。在各种天气/照明和驾驶命令条件下,使用30%数据的活动模型的平均L2(m)/平均碰撞率(%)越小,性能越好。
图4:多个标准之间的相似性。它显示了 通过四个标准选择10%(左)和20%(右)的新采样场景:位移误差(DE)、软碰撞(SC)、代理不确定性(AU)和混合(MX)
本工作的一些结论
为了解决端到端自动驾驶数据标注的高成本和长尾问题,率先开发了量身定制的主动学习方案ActiveAD。ActiveAD基于面向规划的哲学,引入了新的任务特定的多样性和不确定性度量。大量实验证明了方法的有效性,仅使用30%的数据,就显著超过了一般的往期方法,并实现了与最先进模型相当的性能。这代表着从以数据为中心的角度对端到端自动驾驶的一次有意义的探索,并希望我们的工作能够启发未来的研究和发现。
以上是端到端没有数据怎么办?ActiveAD:面向规划的端到端自动驾驶主动学习!的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

一先导与重点文章主要介绍自动驾驶技术中几种常用的坐标系统,以及他们之间如何完成关联和转换,最终构建出统一的环境模型。这里重点理解自车到相机刚体转换(外参),相机到图像转换(内参),图像到像素有单位转换。3d向2d转换会有相应的畸变,平移等。重点:自车坐标系相机机体坐标系需要被重写的是:平面坐标系像素坐标系难点:要考虑图像畸变,去畸变和加畸变都是在像平面上去补偿二简介视觉系统一共有四个坐标系:像素平面坐标系(u,v)、图像坐标系(x,y)、相机坐标系()和世界坐标系()。每种坐标系之间均存在联系,

原标题:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving论文链接:https://arxiv.org/pdf/2402.02519.pdf代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL作者单位:香港科技大学大疆论文思路:本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-cent

轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(CNN&GNN&Transformer)技能等,入门难度很大!很多粉丝期望能够尽快上手轨迹预测,少踩坑,今天就为大家盘点下轨迹预测常见的一些问题和入门学习方法!入门相关知识1.预习的论文有没有切入顺序?A:先看survey,p

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
