綜述!全面概括基礎模型對於推動自動駕駛的重要作用
写在前面&笔者的个人理解
最近来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。
- 通过对丰富的语言和视觉数据进行预训练,基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理,为驾驶决策和规划提供语言和动作命令。
- 基础模型可以根据对驾驶场景的理解来实现数据增强,用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行场景以实现提高自动驾驶系统准确性和可靠性的目的。
- 对基础模型应用的另外一个场景是在于世界模型,该模型展示了理解物理定律和动态事物的能力。通过采用自监督的学习范式对海量数据进行学习,世界模型可以生成不可见但是可信的驾驶场景,促进对于动态物体行为预测的增强以及驾驶策略的离线训练过程。
本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。 在自动驾驶模型方面,基础模型可以用于实现各种自动驾驶功能,例如车辆的感知、决策和控制等。通过基础模型,车辆可以获取周围环境的信息,并做出相应的决策和控制动作。 在数据增强方面,基础模型可以用于增强数据
本文链接:https://arxiv.org/pdf/2405.02288
自动驾驶模型
基于语言和视觉基础模型的类人驾驶
在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。
基础模型对于自动驾驶模型增强范式
目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解,再获取对于当前环境的整体感知理解后,基础模型就会给出一系列的语言命令,如:“前方有红灯,减速慢行”,“前方有十字路口,注意行人”等相关语言指令,便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。
近年来,学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能,以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端,它最终需要落在规划或控制指令上,基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索,但仍有很多发展空间。更重要的是,一些学者通过类似GPT的方法探索了自动驾驶模型的构建,该方法直接输出基于大规模语言模型的轨迹,然后通过控制命令实现,相关工作已经汇总在如下表格中。
使用预训练主干网络进行端到端自动驾驶
上述的相关内容其核心思路是提高自动驾驶决策的可解释性,增强场景理解解析,指导自动驾驶系统的规划或控制。在过去的一段时间内,有许多工作一直以各种方式优化预训练模型主干网络,并且取得了非常不错的成果。因此,为了更加全面的总结基础模型在自动驾驶中的应用,我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。
基于预训练主干网络的端到端自动驾驶系统的流程图
在端到端自動駕駛的整體流程中,從原始資料中提取低階資訊在一定程度上決定了後續模型性能的潛力,優秀的預訓練骨幹可以使模型具有更強的特徵學習能力。 ResNet和VGG等預訓練卷積網路是端到端模型視覺特徵擷取應用最廣泛的主幹網路。這些預訓練網路通常利用目標偵測或分割作為提取廣義特徵的任務進行訓練,並且他們所取得的效能已經在許多工作中得到了驗證。
此外,早期的端到端自動駕駛模型主要是基於各種類型的捲積神經網絡,透過模仿學習或強化學習的方式來完成。最近的一些工作試圖建立一個具有Transformer網路結構的端對端自動駕駛系統,並且同樣取得了比較不錯的成績,例如Transfuser、FusionAD、UniAD等工作。
資料增強
隨著深度學習技術的進一步發展,底層網路架構的進一步完善和升級,具有預訓練和微調的基礎模型已經展現出了越來越強大的性能。由GPT代表的基礎模型已經使得大模型從學習範式的規則向資料驅動的方式轉換。資料作為模型學習關鍵環節的重要性是無可取代的。在自動駕駛模型的訓練和測試過程中,大量的場景資料被用來使模型能夠對各種道路和交通場景具有良好的理解和決策能力。自動駕駛面臨的長尾問題也是這樣一種事實,即存在無窮無盡的未知邊緣場景,使模型的泛化能力似乎永遠不足,導致性能較差。
資料增強對於提高自動駕駛模型的泛化能力至關重要。數據增強的實現需要考慮兩個面向
- 一方面:如何獲得大規模的數據,使提供給自動駕駛模型的數據具有足夠的多樣性和廣泛性
- #另一方面:如何獲得盡可能多的高品質數據,使用於訓練和測試自動駕駛模型的數據準確可靠
所以,相關的研究工作主要從以上兩個方面開展相關的技術研究,一是豐富現有的資料集中的資料內容,增強駕駛場景中的資料特徵。二是透過模擬的方式產生多層次的駕駛場景。
擴展自動駕駛資料集
現有的自動駕駛資料集主要是透過記錄感測器資料然後標記資料來獲得的。透過這種方式獲得的資料特徵通常是很低級的,同時資料集的量級也是比較差,這對於自動駕駛場景的視覺特徵空間是完全不夠的。語言模型表示的基礎模型在高級語義理解、推理和解釋能力為自動駕駛資料集的豐富和擴展提供了新的思路和技術途徑。透過利用基礎模型的高級理解、推理和解釋能力來擴展資料集可以幫助更好地評估自動駕駛系統的可解釋性和控制,從而提高自動駕駛系統的安全性和可靠性。
產生駕駛場景
駕駛場景對自動駕駛來說具有重要的意義。為了獲得不同的駕駛場景數據,僅依賴採集車輛的感測器進行即時擷取需要消耗龐大的成本,很難為一些邊緣場景獲得足夠的場景數據。透過模擬產生逼真的駕駛場景引起了許多研究者的關注,交通模擬研究主要分為基於規則和數據驅動兩大類。
- 基於規則的方法:使用預先定義的規則,這些規則通常不足以描述複雜的駕駛場景,並且模擬的駕駛場景更簡單、更通用
- 基於資料驅動的方法:使用駕駛資料來訓練模型,模型可以從中持續學習和適應。然而,資料驅動的方法通常需要大量的標記資料進行訓練,這阻礙了流量模擬的進一步發展
#隨著技術的發展,目前資料的產生方式已經逐漸由規則的方式轉換為數據驅動的方式。透過有效率、準確地模擬駕駛場景,包括各種複雜和危險的情況,為模型學習提供了大量的訓練數據,可以有效提高自動駕駛系統的泛化能力。同時,產生的駕駛場景也可用於評估不同的自動駕駛系統和演算法來測試和驗證系統性能。下表是不同資料增強策略的總結。
不同資料增強策略總結
#世界模型
世界模型被認為是為一種人工智慧模型,它包含了它運行的環境的整體理解或表示。該模型能夠模擬環境做出預測或決策。在最近的文獻中,強化學習的背景下提到了術語」世界模型」。這個概念在自動駕駛應用中也得到了關注,因為它能夠理解和闡明駕駛環境的動態特性。世界模型與強化學習、模仿學習和深度生成模型高度相關。然而,在強化學習和模仿學習中利用世界模型通常需要標註好的數據,而SEM2以及MILE等方法都是在監督範式中進行的。同時,也有嘗試根據標記的數據的限制將強化學習和無監督學習結合。由於與自監督學習密切相關,深度生成模型變得越來越流行,目前已經提出了許多工作。下圖展示了使用世界模型增強自動駕駛模型的整體流程圖。
世界模型進行自動駕駛模型增強的整體流程圖
#深度生成模型
##深度生成模型通常包括變分自動編碼器、生成對抗網路、流模型、自回歸模型。- 變分自動編碼器結合了自動編碼器和機率圖形模型的想法來學習資料的底層結構並產生新樣本
- 產生對抗網路由兩個神經網路、生成器和鑑別器組成,它們利用對抗訓練相互競爭和增強,最終實現生成真實樣本的目標
- 流模型透過一系列可逆變換將簡單的先驗分佈轉換為複雜的後驗分佈來產生相似的資料樣本
- 自迴歸模型是一類序列分析方法,基於序列資料之間的自相關,描述當前觀測值與過去觀測值之間的關係,模型參數的估計通常是利用最小平方法和最大似然估計來完成的。擴散模型是一種典型的自回歸模型,它從純雜訊資料中學習逐步去雜訊的過程。由於其強大的生成性能,擴散模型是當前深度生成模型中的新SOTA模型
#生成式方法
基於深度生成模型的強大能力,利用深度生成模型作為世界模型學習駕駛場景以增強自動駕駛已逐漸成為研究熱點。接下來我們將回顧利用深度生成模型作為自動駕駛中的世界模型的應用。視覺是人類獲取有關世界資訊的最直接有效的方法之一,因為影像資料中包含的特徵資訊極為豐富。許多先前的工作透過世界模型完成了圖像生成的任務,表明世界模型對圖像資料具有良好的理解和推理能力。目前整體來看,研究者希望可以從影像資料中學習世界的內在演化規律,然後預測未來的狀態。結合自監督學習,世界模型用於從圖像資料中學習,充分釋放模型的推理能力,為視覺域建立廣義基礎模型提供了一個可行的方向。下圖展示了一些利用世界模型的相關工作內容摘要。#非生成式方法
與產生世界模型相比,LeCun透過提出聯合提取和預測架構(JEPA) 詳細闡述了他對世界模型的不同概念。這是一個非生成和自監督的架構,因為它不是直接根據輸入資料來預測輸出結果,而是將輸入資料編碼在抽象空間中進行編碼完成最終的預測。這種預測方式的優點是它不需要預測關於輸出結果的所有信息,並且可以消除不相關的細節資訊。 JEPA是一種基於能量模型的自監督學習架構,它觀察和學習世界如何運作和高度概括的規律。 JEPA在自動駕駛中也有很大的潛力,有望透過學習駕駛是如何運作的來產生高品質的駕駛場景和駕駛策略。結論
本文全面概述了基礎模型在自動駕駛應用中的重要角色。從本文研究的相關研究工作的總結和發現來看,另一個值得進一步探索的方向是如何為自監督學習設計一個有效的網路架構。自監督學習可以有效地突破資料標註的局限性,允許模型大規模的對資料進行學習,充分釋放模型的推理能力。如果自動駕駛的基礎模型可以在自監督學習範式下使用不同規模的駕駛場景資料進行訓練,則預期其泛化能力將大大提高。這種進步可能會實現更通用的基礎模型。總之,雖然在將基礎模型應用於自動駕駛方面存在許多挑戰,但其具有非常廣泛的應用空間和發展前景。未來,我們將繼續觀察應用於自動駕駛的基礎模型的相關進展。
以上是綜述!全面概括基礎模型對於推動自動駕駛的重要作用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
