目录
疑惑一:端到端感知,端到端决策规划都可以算作是端到端自动驾驶?
疑惑二:端到端是对之前技术的推倒重来?
疑惑三:学术Paper中的端到端能否迁移到实际产品中?
疑惑四:端到端自动驾驶仅仅是一次算法革新?
首页 科技周边 人工智能 2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

May 08, 2024 pm 02:49 PM
端到端 自动驾驶

并非所有人都能理解Tesla V12在北美大范围推送以及凭借其优良的表现开启获得越来越多用户认同的局面,端到端自动驾驶也成为自动驾驶行业里大家最为关注的技术方向。最近有机会和很多行业中的一流工程师、产品经理、投资者、媒体人进行了一些交流,发现大家对端到端自动驾驶很感兴趣,但甚至在一些对端到端自动驾驶的基本理解上还存在着这样那样的误区。作为有幸体验过国内一线品牌有图无图城市功能,同时又体验过FSD V11和V12两个版本的人,在这里我想结合自己专业背景和对Tesla FSD常年的进展跟踪,谈谈几个现阶段大家谈及端到端自动驾驶的常见误区,并给出我自己对于这些问题的解读。

疑惑一:端到端感知,端到端决策规划都可以算作是端到端自动驾驶?

从传感器输入开始到规划然后控制信号输出的过程中所有的步骤都是端到端可导,这样整个系统可以作为一个大模型进行训练,通过梯度下降的训练,通过梯度反向传播可以在模型训练期间对模型从输入到输出之间的所有环节进行参数更新优化,从而能够针对用户直接感知到的驱动决策轨迹优化整个系统的驱动行为。而最近一些友商在宣传端到端的自动驾驶的过程中声称自己是端到端感知,或者端到端的决策,但这二者其实我认为都不能算作是端到端的自动驾驶,而只能被称作纯数据驱动的感知和纯数据驱动的决策规划。

某些人可能会根据特定模型做出决策,并结合传统方法来进行安全校验和轨迹优化的混合策略,也称为端到端规划。此外,有说法认为Tesla V12并不是纯粹精准的模型输出控制信号,应该也是结合了一些规则方法的混合策略。根据就是http://X.com上的著名Green前段时间发过一条twitter称在V12技术栈里还是能够发现规则的代码。对此我的理解是Green发现的代码很可能是V12高速技术栈保留的V11版本代码,因为我们知道目前V12其实只是用端到端替换了原本城市技术栈,高速仍会沿用V11的方案,因此在解开的代码中找到一些规则代码的只言片语并不代表V12是假“端到端”,而是找到的很可能是高速的代码。实际上我们从2022年的AI Day上就可以看出,V11及之前的版本已经是混合方案,因此V12如果不是彻底的模型直出轨迹,那么方案上就和之前的版本差别不大,如果是这样V12的性能跳跃性提升又没有法合理的解释了。关于Tesla之前的方案可参考我在AI Day解读EatElephant:Tesla AI Day 2022 -- 世字解读:塪称自动驾驶春晚,去中心化的研发团队,麎心勃勃的向AI技术公司转型。

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

从2022年AI Day上来看,V11已经是混合了NN Planner的规划方案

总的来说,无论是感知后处理代码,还是规则的候选轨迹打分,甚至是安全兜底策略,一旦引入了规则的代码,有了if else的分支,整个系统的稳定传递就会被截断,这也就损失了端到端系统通过训练获得全局优化的最大优势。

疑惑二:端到端是对之前技术的推倒重来?

另一个常见的误区是端到端就是推翻了之前积累的技术进行彻底的新技术的革新,并且很多人觉得已然Tesla刚刚实现了端到端自动驾驶系统的用户推送,那么其他厂商根本不用再在原本感知、预测、规划的模块化技术栈上迭代,大家直接进入端到端的系统,反而可以借鉴后发优势快速追上甚至超越Tesla。确实以一个大模型来完成从传感器输入到规划控制信号的映射是最为彻底的端到端,也很早就有公司尝试过类似的方法,例如Nvidia的DAVE-2和Wayve等公司就使用了类似的方法。这种彻底的端到端技术确实更接近黑盒,很难进行debug和迭代优化,同时由于传感器输入信号如图像、点云等是非常高维度的输入空间,输出控制信号如方向盘转角和油门制动踏板是相对低维的输出空间,导致实车测试完全无法使用。

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

彻底的端到端系统也会使用一些常见的如语义分割,深度估计等辅助任务帮助模型收敛和debug

因此我们实际看到的FSD V12保留了几乎所有之前的可视化内容,这表明FSD V12是在原本强大的感知基础上进行的端到端训练,从2020年10月开始的FSD迭代并没有被抛弃,反而是成为了V12坚实的技术基础。Andrej Karparthy之前也回答过类似问题,他虽然没有参与V12的研发,但他认为所有之前的技术积累并没有被抛弃,只是从台前迁移到了幕后。因此端到端是在原有技术基础上一步步去掉个部分的规则代码逐渐实现的端到端导航。

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

V12保留了FSD几乎所有的感知,只取消了椎桶等有限的可视化内容

疑惑三:学术Paper中的端到端能否迁移到实际产品中?

UniAD成为2023年CVPR Best Paper无疑代表了学术界对端到端的自动驾驶系统寄予的厚望。从2021年Tesla介绍了其视觉BEV感知技术的创新后,国内学术界在自动驾驶BEV感知方面投入了非常大的热情,并诞生了一些列研究,推动了BEV方法的性能优化和落地部署,那么端到端是否也能走一条类似的路线,由学术界引领,产业界跟随从而推动端到端技术在产品上的快速迭代落地呢?我认为是比较难的。首先BEV感知还是一个相对模块化的技术,更多是算法层面,且入门级性能对数据量的需求没有那么高,高质量的学术开源数据集Nuscenes的推出为很多BEV研究提供了便利的前置条件,在Nuscenes上迭代的BEV感知方案虽然无法达到产品级性能要求,但是作为概念验证和模型选型,是具有很大借鉴价值的。然而学术界缺乏大规模的端到端可用数据。目前最大规模的Nuplan数据集包含了4个城市1200小时的实车采集数据,然而在2023年的一次财报会议上,Musk表示对于端到端的自动驾驶“训练了100万个视频case,勉强可以工作;200万个,稍好一些;300万个,就会感到Wow;到了1000万个,它的表现就变得难以置信了”。Tesla的Autopilot回传数据普遍认为是1min的片段,那么入门级别的100w视频case大概就是16000小时,比最大的学术数据集至少多一个数量级以上,这里还是要注意nuplan是连续采集数据,因此在数据的分布和多样性上有着致命的缺陷,绝大多数数据都是简单场景,这也就意味着使用nuplan这样的学术数据集甚至无法获得一个能够勉强上车的版本。

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

Nuplan数据集已经是非常巨大规模的学术数据集,然而作为端到端方案的探索可能还远远不够

于是我们看到包括UniAD在内的绝大多数端到端自动驾驶方案都无法实车运行,而只能退而求其次进行开环评测。而开环评测指标的可靠度非常低,因为开环评测无法识别出模型混淆因果的问题,所以模型即使只学到了利用历史路径外插也能获得非常好的开环指标,但这样的模型是完全不可用的,2023年百度曾经发表一篇叫做AD-MLP的Paper(https://arxiv.org/pdf/2305.10430)来讨论开环规划评测指标的不足,这篇Paper仅仅是用了历史信息,而没有引入任何感知,就获得了非常不错的开环评测指标,甚至接近一些目前的SOTA工作,然而显而易见,没有人能在闭上眼睛的情况下开好车!

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

AD MLP通过不依赖感知输入取得不错的开环指标来说明用开环指标作为参考实际意义不大

那么闭环方针验证是否能够解决开环模仿学习的问题呢?至少目前来讲学术界普遍依赖的CARLA闭环仿真系统来进行端到端的研发,但是基于游戏引擎的CARLA获得的模型也很难迁移到现实世界来。

疑惑四:端到端自动驾驶仅仅是一次算法革新?

最后端到端不仅仅是一个新的算法那么简单。模块化的自动驾驶系统不同模块的模型可以使用各自任务的数据分别迭代训练,然而端到端系统各个功能是同时进行训练的,这就要求训练数据具有极高的一致性,每条数据要对所有子任务标签都进行标注,一旦一种任务标注失败,那这条数据就很难在端到端训练任务中使用了,这对于自动标注Pipeline的成功率和性能提出了极高的要求。其次端到端系统因为需要所有模块都达到一个较高的性能水平才能在端到端的决策规划输出任务中达成较好的效果,因此普遍认为端到端系统数据门槛远高于各个单个模块的数据需求,而数据的门槛不仅是对绝对数量的要求,还对于数据的分布和多样性要求极高,这就是得自己没有车辆的完全控制权,不得不适配多个拥有不同车型客户的供应商在开发端到端系统时候可能遇到较大的困难。在算力门槛上,Musk曾在今年三月初在http://X.com上表示目前FSD的最大限制因素是算力,而在最近马老板则表示他们的算力问题得到了很大的环节,几乎就在同一时间在2024年Q1财报会议上Tesla透露如今他们已经拥有35000块H100的计算资源,并透漏在2024年底这一数字将达到85000块。毫无疑问Tesla拥有非常强大的算力工程优化能力,这意味着要达到FSD V12目前的水平,大概率35000块H100和数十亿美金的基础设施资本开销是必要前提,如果在算力使用方面不如Tesla高效,那么可能这一门槛会被进一步拔高。

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

3月初马斯克表示FSD的迭代主要限制因素是算力

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

4月初马斯克表示今年Tesla在算力方面的总投入将超过100亿美元

另外在http://X.com有网友分享了一张Nvidia汽车行业的高管Norm Marks在今年某次会议的截图,从中可以看出截止到2023年底,Tesla所拥有的NV显卡数量在柱状图上是完全爆表的存在(左图最右侧绿的箭头,中间文字说明了这个排名第一的OEM所拥有的NV显卡数量 > 7000个DGX节点,这个OEM显然就是Tesla,每个节点按照8卡计算,23年底Tesla大概有A100显卡超过56000卡,比排名第二的OEM多出四倍以上,这里我理解不包括2024年新购入的35000卡新款H100),再结合美国对出口中国显卡的限制政策,想要赶超这一算力的难度变得更加困难。

2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?

Norm Marks在某次内部分享截图,来源X.com@ChrisZheng001

除了上述数据算力挑战外,端到端的系统会遇到什么样的新挑战,如何保证系统的可控性,如何尽早发现问题,通过数据驱动的方式解决问题,并且在无法利用规则代码的情况下快速迭代,目前对于绝大多数自动驾驶研发团队而言都是一个未知的挑战。

最后端到端对于现在的自动驾驶研发团队还是一个组织变革,因为从L4自动驾驶以来,绝大多数自动驾驶团队的组织架构是模块化的,不仅分为感知组,预测组,定位组,规划控制组,甚至感知组还分视觉感知,激光感知等等。而端到端的技术架构直接干掉了不同模块间的接口壁垒,使得研发端到端的团队需要整合全部人力资源来适应新的技术范式,这对不够灵活的团队组织文化是一个极大的挑战。

以上是2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

为何在自动驾驶方面Gaussian Splatting如此受欢迎,开始放弃NeRF? 为何在自动驾驶方面Gaussian Splatting如此受欢迎,开始放弃NeRF? Jan 17, 2024 pm 02:57 PM

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

自动驾驶场景中的长尾问题怎么解决? 自动驾驶场景中的长尾问题怎么解决? Jun 02, 2024 pm 02:44 PM

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

选择相机还是激光雷达?实现鲁棒的三维目标检测的最新综述 选择相机还是激光雷达?实现鲁棒的三维目标检测的最新综述 Jan 26, 2024 am 11:18 AM

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

你是否真正掌握了坐标系转换?自动驾驶离不开的多传感器问题 你是否真正掌握了坐标系转换?自动驾驶离不开的多传感器问题 Oct 12, 2023 am 11:21 AM

一先导与重点文章主要介绍自动驾驶技术中几种常用的坐标系统,以及他们之间如何完成关联和转换,最终构建出统一的环境模型。这里重点理解自车到相机刚体转换(外参),相机到图像转换(内参),图像到像素有单位转换。3d向2d转换会有相应的畸变,平移等。重点:自车坐标系相机机体坐标系需要被重写的是:平面坐标系像素坐标系难点:要考虑图像畸变,去畸变和加畸变都是在像平面上去补偿二简介视觉系统一共有四个坐标系:像素平面坐标系(u,v)、图像坐标系(x,y)、相机坐标系()和世界坐标系()。每种坐标系之间均存在联系,

自动驾驶与轨迹预测看这一篇就够了! 自动驾驶与轨迹预测看这一篇就够了! Feb 28, 2024 pm 07:20 PM

轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(CNN&GNN&Transformer)技能等,入门难度很大!很多粉丝期望能够尽快上手轨迹预测,少踩坑,今天就为大家盘点下轨迹预测常见的一些问题和入门学习方法!入门相关知识1.预习的论文有没有切入顺序?A:先看survey,p

SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准 SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准 Feb 20, 2024 am 11:48 AM

原标题:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving论文链接:https://arxiv.org/pdf/2402.02519.pdf代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL作者单位:香港科技大学大疆论文思路:本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-cent

nuScenes最新SOTA | SparseAD:稀疏查询助力高效端到端自动驾驶! nuScenes最新SOTA | SparseAD:稀疏查询助力高效端到端自动驾驶! Apr 17, 2024 pm 06:22 PM

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重

聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区? 聊聊端到端与下一代自动驾驶系统,以及端到端自动驾驶的一些误区? Apr 15, 2024 pm 04:13 PM

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR

See all articles