最近来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。
本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。 在自动驾驶模型方面,基础模型可以用于实现各种自动驾驶功能,例如车辆的感知、决策和控制等。通过基础模型,车辆可以获取周围环境的信息,并做出相应的决策和控制动作。 在数据增强方面,基础模型可以用于增强数据
本文链接:https://arxiv.org/pdf/2405.02288
在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。
基础模型对于自动驾驶模型增强范式
目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解,再获取对于当前环境的整体感知理解后,基础模型就会给出一系列的语言命令,如:“前方有红灯,减速慢行”,“前方有十字路口,注意行人”等相关语言指令,便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。
近年来,学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能,以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端,它最终需要落在规划或控制指令上,基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索,但仍有很多发展空间。更重要的是,一些学者通过类似GPT的方法探索了自动驾驶模型的构建,该方法直接输出基于大规模语言模型的轨迹,然后通过控制命令实现,相关工作已经汇总在如下表格中。
上述的相关内容其核心思路是提高自动驾驶决策的可解释性,增强场景理解解析,指导自动驾驶系统的规划或控制。在过去的一段时间内,有许多工作一直以各种方式优化预训练模型主干网络,并且取得了非常不错的成果。因此,为了更加全面的总结基础模型在自动驾驶中的应用,我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。
基于预训练主干网络的端到端自动驾驶系统的流程图
在端到端自動駕駛的整體流程中,從原始資料中提取低階資訊在一定程度上決定了後續模型性能的潛力,優秀的預訓練骨幹可以使模型具有更強的特徵學習能力。 ResNet和VGG等預訓練卷積網路是端到端模型視覺特徵擷取應用最廣泛的主幹網路。這些預訓練網路通常利用目標偵測或分割作為提取廣義特徵的任務進行訓練,並且他們所取得的效能已經在許多工作中得到了驗證。
此外,早期的端到端自動駕駛模型主要是基於各種類型的捲積神經網絡,透過模仿學習或強化學習的方式來完成。最近的一些工作試圖建立一個具有Transformer網路結構的端對端自動駕駛系統,並且同樣取得了比較不錯的成績,例如Transfuser、FusionAD、UniAD等工作。
隨著深度學習技術的進一步發展,底層網路架構的進一步完善和升級,具有預訓練和微調的基礎模型已經展現出了越來越強大的性能。由GPT代表的基礎模型已經使得大模型從學習範式的規則向資料驅動的方式轉換。資料作為模型學習關鍵環節的重要性是無可取代的。在自動駕駛模型的訓練和測試過程中,大量的場景資料被用來使模型能夠對各種道路和交通場景具有良好的理解和決策能力。自動駕駛面臨的長尾問題也是這樣一種事實,即存在無窮無盡的未知邊緣場景,使模型的泛化能力似乎永遠不足,導致性能較差。
資料增強對於提高自動駕駛模型的泛化能力至關重要。數據增強的實現需要考慮兩個面向
所以,相關的研究工作主要從以上兩個方面開展相關的技術研究,一是豐富現有的資料集中的資料內容,增強駕駛場景中的資料特徵。二是透過模擬的方式產生多層次的駕駛場景。
現有的自動駕駛資料集主要是透過記錄感測器資料然後標記資料來獲得的。透過這種方式獲得的資料特徵通常是很低級的,同時資料集的量級也是比較差,這對於自動駕駛場景的視覺特徵空間是完全不夠的。語言模型表示的基礎模型在高級語義理解、推理和解釋能力為自動駕駛資料集的豐富和擴展提供了新的思路和技術途徑。透過利用基礎模型的高級理解、推理和解釋能力來擴展資料集可以幫助更好地評估自動駕駛系統的可解釋性和控制,從而提高自動駕駛系統的安全性和可靠性。
駕駛場景對自動駕駛來說具有重要的意義。為了獲得不同的駕駛場景數據,僅依賴採集車輛的感測器進行即時擷取需要消耗龐大的成本,很難為一些邊緣場景獲得足夠的場景數據。透過模擬產生逼真的駕駛場景引起了許多研究者的關注,交通模擬研究主要分為基於規則和數據驅動兩大類。
#隨著技術的發展,目前資料的產生方式已經逐漸由規則的方式轉換為數據驅動的方式。透過有效率、準確地模擬駕駛場景,包括各種複雜和危險的情況,為模型學習提供了大量的訓練數據,可以有效提高自動駕駛系統的泛化能力。同時,產生的駕駛場景也可用於評估不同的自動駕駛系統和演算法來測試和驗證系統性能。下表是不同資料增強策略的總結。
不同資料增強策略總結
#世界模型被認為是為一種人工智慧模型,它包含了它運行的環境的整體理解或表示。該模型能夠模擬環境做出預測或決策。在最近的文獻中,強化學習的背景下提到了術語」世界模型」。這個概念在自動駕駛應用中也得到了關注,因為它能夠理解和闡明駕駛環境的動態特性。世界模型與強化學習、模仿學習和深度生成模型高度相關。然而,在強化學習和模仿學習中利用世界模型通常需要標註好的數據,而SEM2以及MILE等方法都是在監督範式中進行的。同時,也有嘗試根據標記的數據的限制將強化學習和無監督學習結合。由於與自監督學習密切相關,深度生成模型變得越來越流行,目前已經提出了許多工作。下圖展示了使用世界模型增強自動駕駛模型的整體流程圖。
世界模型進行自動駕駛模型增強的整體流程圖
總之,雖然在將基礎模型應用於自動駕駛方面存在許多挑戰,但其具有非常廣泛的應用空間和發展前景。未來,我們將繼續觀察應用於自動駕駛的基礎模型的相關進展。
以上是綜述!全面概括基礎模型對於推動自動駕駛的重要作用的詳細內容。更多資訊請關注PHP中文網其他相關文章!