最近来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显着性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。
本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。 在自动驾驶模型方面,基础模型可以用于实现各种自动驾驶功能,例如车辆的感知、决策和控制等。通过基础模型,车辆可以获取周围环境的信息,并做出相应的决策和控制动作。 在数据增强方面,基础模型可以用于增强数据
本文链接:https://arxiv.org/pdf/2405.02288
在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。
基础模型对于自动驾驶模型增强范式
目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解,再获取对于当前环境的整体感知理解后,基础模型就会给出一系列的语言命令,如:“前方有红灯,减速慢行”,“前方有十字路口,注意行人”等相关语言指令,便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。
近年来,学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能,以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端,它最终需要落在规划或控制指令上,基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索,但仍有很多发展空间。更重要的是,一些学者通过类似GPT的方法探索了自动驾驶模型的构建,该方法直接输出基于大规模语言模型的轨迹,然后通过控制命令实现,相关工作已经汇总在如下表格中。
上述的相关内容其核心思路是提高自动驾驶决策的可解释性,增强场景理解解析,指导自动驾驶系统的规划或控制。在过去的一段时间内,有许多工作一直以各种方式优化预训练模型主干网络,并且取得了非常不错的成果。因此,为了更加全面的总结基础模型在自动驾驶中的应用,我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。
基于预训练主干网络的端到端自动驾驶系统的流程图
在端到端自动驾驶的整体流程中,从原始数据中提取低级信息在一定程度上决定了后续模型性能的潜力,优秀的预训练骨干可以使模型具有更强的特征学习能力。ResNet和VGG等预训练卷积网络是端到端模型视觉特征提取应用最广泛的主干网络。这些预训练网络通常利用目标检测或分割作为提取广义特征的任务进行训练,并且他们所取得的性能已经在很多工作中得到了验证。
此外,早期的端到端自动驾驶模型主要是基于各种类型的卷积神经网络,通过模仿学习或者强化学习的方式来完成。最近的一些工作试图建立一个具有Transformer网络结构的端到端自动驾驶系统,并且同样取得了比较不错的成绩,比如Transfuser、FusionAD、UniAD等工作。
随着深度学习技术的进一步发展,底层网络架构的进一步完善和升级,具有预训练和微调的基础模型已经展现出了越来越强大的性能。由GPT代表的基础模型已经使得大模型从学习范式的规则向数据驱动的方式进行转换。数据作为模型学习关键环节的重要性是无可替代的。在自动驾驶模型的训练和测试过程中,大量的场景数据被用来使模型能够对各种道路和交通场景具有良好的理解和决策能力。自动驾驶面临的长尾问题也是这样一种事实,即存在无穷无尽的未知边缘场景,使模型的泛化能力似乎永远不足,导致性能较差。
数据增强对于提高自动驾驶模型的泛化能力至关重要。数据增强的实现需要考虑两个方面
所以,相关的研究工作主要从以上两个方面开展相关的技术研究,一是丰富现有的数据集中的数据内容,增强驾驶场景中的数据特征。二是通过模拟的方式生成多层次的驾驶场景。
现有的自动驾驶数据集主要是通过记录传感器数据然后标记数据来获得的。通过这种方式获得的数据特征通常是很低级的,同时数据集的量级也是比较差,这对于自动驾驶场景的视觉特征空间是完全不够的。语言模型表示的基础模型在高级语义理解、推理和解释能力为自动驾驶数据集的丰富和扩展提供了新的思路和技术途径。通过利用基础模型的高级理解、推理和解释能力来扩展数据集可以帮助更好地评估自动驾驶系统的可解释性和控制,从而提高自动驾驶系统的安全性和可靠性。
驾驶场景对自动驾驶来说具有重要的意义。为了获得不同的驾驶场景数据,仅依赖采集车辆的传感器进行实时采集需要消耗巨大的成本,很难为一些边缘场景获得足够的场景数据。通过仿真生成逼真的驾驶场景引起了许多研究者的关注,交通仿真研究主要分为基于规则和数据驱动两大类。
随着技术的发展,目前数据的生成方式已经逐渐由规则的方式转换为数据驱动的方式。通过高效、准确地模拟驾驶场景,包括各种复杂和危险的情况,为模型学习提供了大量的训练数据,可以有效提高自动驾驶系统的泛化能力。同时,生成的驾驶场景也可用于评估不同的自动驾驶系统和算法来测试和验证系统性能。下表是不同数据增强策略的总结。
不同数据增强策略总结
世界模型被認為是為一種人工智慧模型,它包含了它運行的環境的整體理解或表示。該模型能夠模擬環境做出預測或決策。在最近的文獻中,強化學習的背景下提到了術語」世界模型」。這個概念在自動駕駛應用中也得到了關注,因為它能夠理解和闡明駕駛環境的動態特性。世界模型與強化學習、模仿學習和深度生成模型高度相關。然而,在強化學習和模仿學習中利用世界模型通常需要標註好的數據,而SEM2以及MILE等方法都是在監督範式中進行的。同時,也有嘗試根據標記的數據的限制將強化學習和無監督學習結合。由於與自監督學習密切相關,深度生成模型變得越來越流行,目前已經提出了許多工作。下圖展示了使用世界模型增強自動駕駛模型的整體流程圖。
世界模型進行自動駕駛模型增強的整體流程圖
總之,雖然在將基礎模型應用於自動駕駛方面存在許多挑戰,但其具有非常廣泛的應用空間和發展前景。未來,我們將繼續觀察應用於自動駕駛的基礎模型的相關進展。
以上是综述!全面概括基础模型对于推动自动驾驶的重要作用的详细内容。更多信息请关注PHP中文网其他相关文章!