综述！全面概括基础模型对于推动自动驾驶的重要作用-人工智能-PHP中文网

写在前面&笔者的个人理解

最近来，随着深度学习技术的发展和突破，大规模的基础模型（Foundation Models）在自然语言处理和计算机视觉领域取得了显着性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景，可以提高对于场景的理解和推理。

通过对丰富的语言和视觉数据进行预训练，基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理，为驾驶决策和规划提供语言和动作命令。
基础模型可以根据对驾驶场景的理解来实现数据增强，用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行场景以实现提高自动驾驶系统准确性和可靠性的目的。
对基础模型应用的另外一个场景是在于世界模型，该模型展示了理解物理定律和动态事物的能力。通过采用自监督的学习范式对海量数据进行学习，世界模型可以生成不可见但是可信的驾驶场景，促进对于动态物体行为预测的增强以及驾驶策略的离线训练过程。

本文主要概述了基础模型在自动驾驶领域中的应用，并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。在自动驾驶模型方面，基础模型可以用于实现各种自动驾驶功能，例如车辆的感知、决策和控制等。通过基础模型，车辆可以获取周围环境的信息，并做出相应的决策和控制动作。在数据增强方面，基础模型可以用于增强数据

本文链接：https://arxiv.org/pdf/2405.02288

自动驾驶模型

基于语言和视觉基础模型的类人驾驶

在自动驾驶中，语言和视觉的基础模型显示出了巨大的应用潜力，通过增强自动驾驶模型在驾驶场景中的理解和推理，实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。

综述！全面概括基础模型对于推动自动驾驶的重要作用

基础模型对于自动驾驶模型增强范式

目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解，再获取对于当前环境的整体感知理解后，基础模型就会给出一系列的语言命令，如：“前方有红灯，减速慢行”，“前方有十字路口，注意行人”等相关语言指令，便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。

近年来，学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能，以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端，它最终需要落在规划或控制指令上，基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索，但仍有很多发展空间。更重要的是，一些学者通过类似GPT的方法探索了自动驾驶模型的构建，该方法直接输出基于大规模语言模型的轨迹，然后通过控制命令实现，相关工作已经汇总在如下表格中。

综述！全面概括基础模型对于推动自动驾驶的重要作用

使用预训练主干网络进行端到端自动驾驶

上述的相关内容其核心思路是提高自动驾驶决策的可解释性，增强场景理解解析，指导自动驾驶系统的规划或控制。在过去的一段时间内，有许多工作一直以各种方式优化预训练模型主干网络，并且取得了非常不错的成果。因此，为了更加全面的总结基础模型在自动驾驶中的应用，我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。

综述！全面概括基础模型对于推动自动驾驶的重要作用

基于预训练主干网络的端到端自动驾驶系统的流程图

在端到端自动驾驶的整体流程中，从原始数据中提取低级信息在一定程度上决定了后续模型性能的潜力，优秀的预训练骨干可以使模型具有更强的特征学习能力。ResNet和VGG等预训练卷积网络是端到端模型视觉特征提取应用最广泛的主干网络。这些预训练网络通常利用目标检测或分割作为提取广义特征的任务进行训练，并且他们所取得的性能已经在很多工作中得到了验证。

此外，早期的端到端自动驾驶模型主要是基于各种类型的卷积神经网络，通过模仿学习或者强化学习的方式来完成。最近的一些工作试图建立一个具有Transformer网络结构的端到端自动驾驶系统，并且同样取得了比较不错的成绩，比如Transfuser、FusionAD、UniAD等工作。

数据增强

随着深度学习技术的进一步发展，底层网络架构的进一步完善和升级，具有预训练和微调的基础模型已经展现出了越来越强大的性能。由GPT代表的基础模型已经使得大模型从学习范式的规则向数据驱动的方式进行转换。数据作为模型学习关键环节的重要性是无可替代的。在自动驾驶模型的训练和测试过程中，大量的场景数据被用来使模型能够对各种道路和交通场景具有良好的理解和决策能力。自动驾驶面临的长尾问题也是这样一种事实，即存在无穷无尽的未知边缘场景，使模型的泛化能力似乎永远不足，导致性能较差。

数据增强对于提高自动驾驶模型的泛化能力至关重要。数据增强的实现需要考虑两个方面

一方面：如何获取大规模的数据，使提供给自动驾驶模型的数据具有足够的多样性和广泛性
另一方面：如何获取尽可能多的高质量数据，使用于训练和测试自动驾驶模型的数据准确可靠

所以，相关的研究工作主要从以上两个方面开展相关的技术研究，一是丰富现有的数据集中的数据内容，增强驾驶场景中的数据特征。二是通过模拟的方式生成多层次的驾驶场景。

扩展自动驾驶数据集

现有的自动驾驶数据集主要是通过记录传感器数据然后标记数据来获得的。通过这种方式获得的数据特征通常是很低级的，同时数据集的量级也是比较差，这对于自动驾驶场景的视觉特征空间是完全不够的。语言模型表示的基础模型在高级语义理解、推理和解释能力为自动驾驶数据集的丰富和扩展提供了新的思路和技术途径。通过利用基础模型的高级理解、推理和解释能力来扩展数据集可以帮助更好地评估自动驾驶系统的可解释性和控制，从而提高自动驾驶系统的安全性和可靠性。

生成驾驶场景

驾驶场景对自动驾驶来说具有重要的意义。为了获得不同的驾驶场景数据，仅依赖采集车辆的传感器进行实时采集需要消耗巨大的成本，很难为一些边缘场景获得足够的场景数据。通过仿真生成逼真的驾驶场景引起了许多研究者的关注，交通仿真研究主要分为基于规则和数据驱动两大类。

基于规则的方法：使用预定义的规则，这些规则通常不足以描述复杂的驾驶场景，并且模拟的驾驶场景更简单、更通用
基于数据驱动的方法：使用驾驶数据来训练模型，模型可以从中持续学习和适应。然而，数据驱动的方法通常需要大量的标记数据进行训练，这阻碍了流量模拟的进一步发展

随着技术的发展，目前数据的生成方式已经逐渐由规则的方式转换为数据驱动的方式。通过高效、准确地模拟驾驶场景，包括各种复杂和危险的情况，为模型学习提供了大量的训练数据，可以有效提高自动驾驶系统的泛化能力。同时，生成的驾驶场景也可用于评估不同的自动驾驶系统和算法来测试和验证系统性能。下表是不同数据增强策略的总结。

综述！全面概括基础模型对于推动自动驾驶的重要作用

不同数据增强策略总结

世界模型

世界模型被認為是為一種人工智慧模型，它包含了它運行的環境的整體理解或表示。該模型能夠模擬環境做出預測或決策。在最近的文獻中，強化學習的背景下提到了術語」世界模型」。這個概念在自動駕駛應用中也得到了關注，因為它能夠理解和闡明駕駛環境的動態特性。世界模型與強化學習、模仿學習和深度生成模型高度相關。然而，在強化學習和模仿學習中利用世界模型通常需要標註好的數據，而SEM2以及MILE等方法都是在監督範式中進行的。同時，也有嘗試根據標記的數據的限制將強化學習和無監督學習結合。由於與自監督學習密切相關，深度生成模型變得越來越流行，目前已經提出了許多工作。下圖展示了使用世界模型增強自動駕駛模型的整體流程圖。

综述！全面概括基础模型对于推动自动驾驶的重要作用

世界模型進行自動駕駛模型增強的整體流程圖

#深度生成模型

##深度生成模型通常包括變分自動編碼器、生成對抗網路、流模型、自回歸模型。

產生對抗網路由兩個神經網路、生成器和鑑別器組成，它們利用對抗訓練相互競爭和增強，最終實現生成真實樣本的目標
流模型透過一系列可逆變換將簡單的先驗分佈轉換為複雜的後驗分佈來產生相似的資料樣本
自迴歸模型是一類序列分析方法，基於序列資料之間的自相關，描述當前觀測值與過去觀測值之間的關係，模型參數的估計通常是利用最小平方法和最大似然估計來完成的。擴散模型是一種典型的自回歸模型，它從純雜訊資料中學習逐步去雜訊的過程。由於其強大的生成性能，擴散模型是當前深度生成模型中的新SOTA模型

#生成式方法

基於深度生成模型的強大能力，利用深度生成模型作為世界模型學習駕駛場景以增強自動駕駛已逐漸成為研究熱點。接下來我們將回顧利用深度生成模型作為自動駕駛中的世界模型的應用。視覺是人類獲取有關世界資訊的最直接有效的方法之一，因為影像資料中包含的特徵資訊極為豐富。許多先前的工作透過世界模型完成了圖像生成的任務，表明世界模型對圖像資料具有良好的理解和推理能力。目前整體來看，研究者希望可以從影像資料中學習世界的內在演化規律，然後預測未來的狀態。結合自監督學習，世界模型用於從圖像資料中學習，充分釋放模型的推理能力，為視覺域建立廣義基礎模型提供了一個可行的方向。下圖展示了一些利用世界模型的相關工作內容摘要。

综述！全面概括基础模型对于推动自动驾驶的重要作用

使用世界模型進行預測的工作總結

#非生成式方法

與產生世界模型相比，LeCun透過提出聯合提取和預測架構(JEPA) 詳細闡述了他對世界模型的不同概念。這是一個非生成和自監督的架構，因為它不是直接根據輸入資料來預測輸出結果，而是將輸入資料編碼在抽象空間中進行編碼完成最終的預測。這種預測方式的優點是它不需要預測關於輸出結果的所有信息，並且可以消除不相關的細節資訊。

JEPA是一種基於能量模型的自監督學習架構，它觀察和學習世界如何運作和高度概括的規律。 JEPA在自動駕駛中也有很大的潛力，有望透過學習駕駛是如何運作的來產生高品質的駕駛場景和駕駛策略。

結論

本文全面概述了基礎模型在自動駕駛應用中的重要角色。從本文研究的相關研究工作的總結和發現來看，另一個值得進一步探索的方向是如何為自監督學習設計一個有效的網路架構。自監督學習可以有效地突破資料標註的局限性，允許模型大規模的對資料進行學習，充分釋放模型的推理能力。如果自動駕駛的基礎模型可以在自監督學習範式下使用不同規模的駕駛場景資料進行訓練，則預期其泛化能力將大大提高。這種進步可能會實現更通用的基礎模型。

總之，雖然在將基礎模型應用於自動駕駛方面存在許多挑戰，但其具有非常廣泛的應用空間和發展前景。未來，我們將繼續觀察應用於自動駕駛的基礎模型的相關進展。

以上是综述！全面概括基础模型对于推动自动驾驶的重要作用的详细内容。更多信息请关注PHP中文网其他相关文章！