來聊聊近期火爆的幾個大模型和自動駕駛概念

WBOY
發布: 2023-11-09 11:13:16
轉載
1251 人瀏覽過

近期大模型各種應用依然火爆,10月初前後出現了一系列頗有噱頭的文章,試圖把大模型應用於自動駕駛。和許多朋友最近也聊了很多相關的話題,寫這篇文章,一方面是發現其實包括我在內,在過去其實都混淆了一些很相關但其實不同的概念,另一方面從這些概念延伸出來有一些有趣的思考,值得和大家一起分享和探討。

大(語言)模型

這無疑是目前最火爆的一個方向,也是論文最集中的熱點。那大語言模型究竟能怎麼幫助到自動駕駛?一方面是像GPT-4V一樣,透過和影像的對齊,提供極其強大的語意理解能力,這裡暫時按下不表;另一方面便是把LLM當作agent去直接實現駕駛行為。後者其實也是目前最為sexy的研究方向,和embodied AI這一系列工作有著千絲萬縷的關係。

目前看到的絕大部分後一類工作都是將LLM:1) 直接使用 2) 透過supervised learning的方式微調 3) 透過reinforcement learning的方式微調 用於駕駛任務。本質上並沒有逃脫出先前基於learning方法去駕駛的範式框架。那其實很直接的一個問題就是,為什麼用LLM來做這件事可能會更好?直覺上來說用語言去開車是一件很低效而囉嗦的事情。後來有一天突然想明白了LLM其實透過語言實現了一個對agent的pretrain! 之前RL很難有泛化性很重要的一個原因是難以統一起來各種不同的任務,去用各種通用的資料去pretrain,只能是每種任務from scratch訓練,但LLM很好解決了這樣的問題。但其實也有幾個沒有很好解決的問題:1) 完成pretrain之後,一定要保留語言作為輸出的介面嗎?這其實在許多任務中帶來了許多的不便,也一定程度上造成了冗餘的計算量。 2) LLM as agent的做法上仍然沒有克服現有RL類model free方法的本質問題,所有model free有的問題這樣的方法仍然存在。最近也看到一些model based LLM as agent的嘗試,這可能會是個有趣的方向。

最後想吐槽的一句各篇paper的是:並不是接上LLM,讓LLM輸出一個reason就能讓你的模型變得可解釋。這個reason仍然是可能胡說八道的。 。 。原先不會有保障的東西,並不會因為輸出一句話就變得有保障了。

大(視覺)模型

純粹的大視覺模型其實目前仍然沒有看到那神奇的「湧現」時刻。談到大視覺模型,一般有兩個可能的所指:一個是基於CLIP或DINO或SAM這樣海量的web data預訓練實現的超強視覺資訊特徵提取器,這大大提升了模型的語義理解能力;另一個是指以GAIA為代表的world model實現的對(image, action,etc...)的聯合模型。

前者其實我認為只是沿著傳統的思路繼續linear scale up的結果,目前很難看到對自動駕駛量變的可能性。後者其實在今年Wayve和Tesla的不斷宣傳之下,不斷走入了研究者的視野。大家在聊world model的時候,往往夾雜著這個模型是端對端(直接輸出action)且和LLM是相關聯的。其實這樣的假設是片面的。對於world model的我的理解也是非常有限,這裡推薦一下Lecun的訪談和@俞揚老師的這篇model based RL的survey,就不展開了:

俞揚:關於環境模型(world model)的學習
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

#純視覺自動駕駛

這其實很容易理解,是指僅依賴視覺感測器的自動駕駛系統。這其實也是自動駕駛最美好的終極願望:像人一樣靠一雙眼睛開車。這樣的概念一般都會和上述兩個大模型連結起來,因為圖像複雜的語意需要很強的抽象能力來提取有用的資訊。在Tesla最近不斷的宣傳攻勢下,這個概念也和下面要提到的端對端重疊。但其實純視覺駕駛有很多種實現的路徑,端到端自然是其中的一條,但也不是僅有的一條。要實現純視覺自動駕駛最困難的問題就是視覺天生對於3D資訊的不敏感,大模型也並未本質上改變這一點。具體體現在:1) 被動接收電磁波的方式使得視覺不像其他感測器可以測量3D空間中的幾何資訊;2) 透視使得遠處的物體對於誤差的敏感程度極高。這對於下游預設在一個等誤差的3D空間中實現的planning和control來說非常不友善。但是,人靠視覺開車等於人能準確估計3D距離和速度嗎?我覺得這才是純視覺自動駕駛除了語意理解之外,值得深入研究的representation的問題。

端對端自動駕駛

這個概念是指從感測器到最終輸出的控制訊號(其實我認為也可以廣義地包含到更上游一層planning的路點資訊)使用一個聯合優化的模型。這既可以是像早在80年代的ALVINN一樣輸入感測器數據,直接透過一個神經網路輸出控制訊號的直接端對端方法,也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個共同要點都是透過下游的監督訊號能夠直接傳遞給到上游,而不是每個模組只有自己自定的最佳化目標。整體來說這是正確的一個思路,畢竟深度學習就是靠著這樣的聯合優化發家的。但是對於自動駕駛或通用機器人這種往往複雜程度極高,且和物理世界打交道的系統來說,工程實現和數據組織和利用效率上都存在著許多需要克服的難題。

Feed-Forward端對端自動駕駛

這個概念好像很少有人提到,但其實我發現端到端本身的存在是有價值的,但是問題在於對於觀測這種Feed-Forward的使用方式。包括我在內,其實之前也會預設端對端駕駛一定是Feed-Forward形式的,因為目前99%基於深度學習的方法都假設了這樣的結構,也就是說最終關心的輸出量(例如控制訊號)u = f(x),x是感測器的各種觀測。這裡f可以是一個很複雜的函數。但其實,我們在某些​​問題裡,我們希望能夠使得最終的輸出量滿足或接近某些性質,這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x)

隨著大模型的發展,這個直接式的Feed-Forward端對端自動駕駛的方案又迎來了一波復興。大模型當然是非常強大的,但是我拋出一個問題希望大家來想想:如果大模型端到端是萬能的,那是不是意味著大模型就應該可以端到端下圍棋/五子棋呢?類似AlphaGo的典範就應該已經毫無意義了? 相信大家也都知道這個答案是否定的。當然這種Feed-Forward的方式可以作為一個快速的近似求解器,在大部分場景下取得不錯的結果。

以目前公開了自己使用了Neural Planner的各家方案來看,neural的部分只是為後續的優化方案提供了若干初始化的proposal去緩解後續優化高度非凸的問題。這本質上和AlphaGo裡的fast rollout做的事情是一模一樣的。但是AlphaGo不會把後續的MCTS搜尋叫做一個「兜底」方案。 。 。

最後,希望這些能夠幫助大家理清這些概念之間的區別與聯繫,大家在討論問題的時候也能夠明確在說的究竟是什麼東西。 。 。

來聊聊近期火爆的幾個大模型和自動駕駛概念

原文連結:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

以上是來聊聊近期火爆的幾個大模型和自動駕駛概念的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板