来聊聊近期火爆的几个大模型和自动驾驶概念
近期大模型各种应用依然火爆,10月初前后出现了一系列颇有噱头的文章,试图把大模型应用于自动驾驶。和很多朋友最近也聊了很多相关的话题,写这篇文章,一方面是发现其实包括我在内,在过去其实都混淆了一些很相关但其实不同的概念,另一方面从这些概念延伸出来有一些有意思的思考,值得和大家一起分享和探讨。
大(语言)模型
这无疑是目前最为火爆的一个方向,也是论文最为集中的热点。那大语言模型究竟能怎么帮助到自动驾驶?一方面是像GPT-4V一样,通过和图像的对齐,提供极其强大的语义理解能力,这里暂时按下不表;另一方面便是把LLM作为agent去直接实现驾驶行为。后者其实也是目前最为sexy的研究方向,和embodied AI这一系列工作有着千丝万缕的联系。
目前看到的绝大部分后一类工作都是将LLM:1) 直接使用 2) 通过supervised learning的方式微调 3) 通过reinforcement learning的方式微调 用于驾驶任务。本质上并没有逃脱出之前基于learning方法去驾驶的范式框架。那其实很直接的一个问题就是,为什么用LLM做这件事情可能会更好?直觉上来说用语言去开车是一个很低效而啰嗦的事情。后来有一天突然想明白了LLM其实通过语言实现了一个对agent的pretrain!之前RL很难具有泛化性很重要的一个原因是难以统一起来各种不同的任务,去用各种通用的数据去pretrain,只能是每种任务from scratch训练,但是LLM很好解决了这样的问题。但其实也有几个并没有很好解决的问题:1) 完成pretrain之后,一定要保留语言作为输出的接口吗?这其实在很多任务中带来了很多的不便,也一定程度上造成了冗余的计算量。2) LLM as agent的做法上仍然没有克服现有RL类model free方法的本质问题,所有model free有的问题这样的方法仍然存在。最近也看到一些model based + LLM as agent的尝试,这可能会是一个有意思的方向。
最后想吐槽的一句各篇paper的是:并不是接上LLM,让LLM输出一个reason就能让你的模型变得可解释。这个reason仍然是可能胡说八道的。。。原先不会有保障的东西,并不会因为输出一句话就变得有保障了。
大(视觉)模型
纯粹的大视觉模型其实目前仍然没有看到那神奇的“涌现”时刻。谈到大视觉模型,一般有两个可能的所指:一个是基于CLIP或者DINO或者SAM这样海量的web data预训练实现的超强视觉信息特征提取器,这大大提升了模型的语义理解能力;另一个是指以GAIA为代表的world model实现的对(image, action,etc...)的联合模型。
前者其实我认为只是沿着传统的思路继续linear scale up的结果,目前很难看到对自动驾驶量变的可能性。后者其实在今年Wayve和Tesla的不断宣传之下,不断走入了研究者的视野。大家在聊world model的时候,往往夹杂着这个模型是端到端(直接输出action)且和LLM是相关联的。其实这样的假设是片面的。对于world model的我的理解也是非常有限,这里推荐一下Lecun的访谈和 @俞扬 老师的这篇model based RL的survey,就不展开了:
俞扬:关于环境模型(world model)的学习
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069
纯视觉自动驾驶
这其实很容易理解,是指仅依赖于视觉传感器的自动驾驶系统。这其实也是自动驾驶最美好的一个终极愿望:像人一样靠一双眼睛来开车。这样的概念一般都会和上述两个大模型联系起来,因为图像复杂的语义需要很强的抽象能力来提取有用的信息。在Tesla最近不断的宣传攻势下,这个概念也和下面要提到的端到端重合起来。但其实纯视觉驾驶有很多种实现的路径,端到端自然是其中的一条,但也不是仅有的一条。实现纯视觉自动驾驶最为困难的问题就是视觉天生对于3D信息的不敏感,大模型也并未本质上改变这一点。具体体现在:1) 被动接收电磁波的方式使得视觉不像其他传感器可以测量3D空间中的几何信息;2) 透视使得远处的物体对于误差的敏感程度极高。这对于下游默认在一个等误差的3D空间中实现的planning和control来说非常不友好。但是,人靠视觉开车等同于人能准确估计3D距离和速度吗?我觉得这才是纯视觉自动驾驶除了语义理解之外,值得深入研究的representation的问题。
端到端自动驾驶
这个概念是指从传感器到最终输出的控制信号(其实我认为也可以广义地包括到更上游一层planning的路点信息)使用一个联合优化的模型。这既可以是像早在80年代的ALVINN一样输入传感器数据,直接通过一个神经网络输出控制信号的直接端到端方法,也可以有像今年CVPR best paper UniAD这样的分阶段端到端方法。但是这些方法的一个共同要点都是通过下游的监督信号能够直接传递给到上游,而不是每个模块只有自己自定的优化目标。整体来说这是正确的一个思路,毕竟深度学习就是靠着这样的联合优化发家的。但是对于自动驾驶或者通用机器人这种往往复杂程度极高,且和物理世界打交道的系统来说,工程实现和数据组织和利用效率上都存在很多需要克服的难题。
Feed-Forward端到端自动驾驶
这个概念好像很少有人提到,但其实我发现端到端本身的存在是有价值的,但是问题在于对于观测这种Feed-Forward的使用方式。包括我在内,其实之前也都会默认端到端驾驶一定是Feed-Forward形式的,因为目前99%基于深度学习的方法都假设了这样的结构,也就是说最终关心的输出量(比如控制信号)u = f(x),x是传感器的各种观测。这里f可以是一个很复杂的函数。但其实,我们在某些问题里,我们希望能够使得最终的输出量满足或接近某些性质,这样Feed-Forward的形式便很难给出这样的保证。所以能还有一种方式我们可以写成u* = argmin g(u, x) s.t. h(u, x)
随着大模型的发展,这种直接式的Feed-Forward端到端自动驾驶的方案又迎来了一波复兴。大模型当然是非常强大的,但是我抛出一个问题希望大家来想想:如果大模型端到端是万能的,那是不是意味着大模型就应该可以端到端下围棋/五子棋呢?类似AlphaGo的范式就应该已经毫无意义了?相信大家也都知道这个答案是否定的。当然这种Feed-Forward的方式可以作为一个快速的近似求解器,在大部分场景下取得不错的结果。
以目前公开了自己使用了Neural Planner的各家方案来看,neural的部分只是为后续的优化方案提供了若干初始化的proposal去缓解后续优化高度非凸的问题。这本质上和AlphaGo里的fast rollout做的事情是一模一样的。但是AlphaGo不会把后续的MCTS搜索叫做一个“兜底”方案。。。
最后,希望这些能够帮助大家理清这些概念之间的区别与联系,大家在讨论问题的时候也能够明确在说的究竟是什么东西。。。
原文链接:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A
以上是来聊聊近期火爆的几个大模型和自动驾驶概念的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR
