UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持
最近,新論文推陳出新的速度著實太快有點讀不來的感覺。可以看到的是,語言視覺多模態大模型融合已經是業界共識了,UniPad 這篇文章就比較有代表性,多模態的輸入,類世界模型的預訓練基座模型,同時又方便擴展到多個傳統視覺應用。並且也解決了將大語言模型的預訓練方法用到 3D 場景的問題,所以給統一的感知基座大模型提供了可能。
UniPAD 是一種基於 MAE 和 3D 渲染的自監督學習方法,可以訓練一個表現優異的基座模型,進而在該模型上微調訓練下游任務,如深度估計、目標偵測和分割。研究設計了一個統一的3D 空間表示方法,使其能夠輕鬆融入2D 和3D 框架,展現了較大的靈活性,符合基座模型的定位
閱讀時的思考與疑問點:
遮罩自編碼技術和3D 可微分渲染技術的關係是什麼?簡單說:掩碼自編碼是為了利用 Autoencoder 的自監督訓練能力,渲染技術是為了產生圖片後和原始圖片之間進行損失函數計算並進行監督訓練。所以邏輯還是很清晰的。
這篇文章在使用基座模型預先訓練的方法,再微調下游的偵測方法和分割方法。這個方法也可以幫助理解當下的大模型與下游任務的配合方法。
看起來是沒有結合時序訊息的。畢竟純視覺 50.2 的 NuScenes NDS 目前在帶時序的檢測方法(StreamPETR、Sparse4D 等)比較中還是弱了一些。所以 4D 的 MAE 方法,也是值得一試的,其實 GAIA-1 已經提到了類似的想法。
請問運算量和記憶體使用量如何?
具體方法:
UniPAD 隱性地編碼了3D 空間訊息,這裡主要受到了掩碼自編碼(MAE、VoxelMAE 等)的啟發,本文利用了生成式的mask 來完成體素特徵的加強,用來重建場景中連續的3D 形狀結構以及它們在2D 平面上的複雜外觀特徵。
我們的實驗結果充分證明了UniPAD的優越性。與傳統的雷射雷達、攝影機以及雷射雷達-攝影機融合基線相比,UniPAD的NDS分別提高了9.1、7.7和6.9。值得注意的是,在nuScenes驗證集上,我們的預訓練流程實現了73.2的NDS,同時在3D語義分割任務上獲得了79.4的mIoU分數,與以前的方法相比,取得了最佳成績
整體架構:
整體架構。該框架 LiDar 和多鏡頭圖片作為輸入,這些多模態資料會透過掩蔽生成器(Mask Generator)被填充為零。被遮罩遮蔽的 embedding 會被轉換到體素空間,在這樣的 3D 空間中透過渲染技術產生RGB或深度預測結果。這時沒有被遮罩遮蔽的原始影像就可以做為生成資料進行監督學習了。
Mask Generator
Masked AutoEncoder中的mask是透過Mask Generator產生的。可以將其理解為透過增加訓練難度的方式來提高模型的表示能力和泛化能力。引入了一個Mask生成器,透過選擇性地遮蔽某些區域來區分點雲資料和影像資料。在點雲數據中,採用了分塊遮罩的策略;對於影像數據,採用了稀疏卷積的方法,只在可見區域進行計算。當輸入資料被遮罩後,後續的編碼特徵在對應的被遮罩區域會被設定為0,在模型的處理中被忽略,同時也為後續的監督學習提供了可以用來預測目標和對應的groundtruth的資訊
統一的表示形式
為了讓預訓練方法適用於各種不同的資料模態,尋找一個統一的表示形式就很重要。過往的BEV和OCC等方法都在尋找一個統一的標識形式,將3D點投影到影像平面中會導致深度資訊的遺失,而將它們合併到BEV鳥瞰圖中則會遺漏與高度相關的細節。因此,本文提出將兩種模態都轉換為3D體積空間,也就是類似OCC的3D體素空間
#渲染方法:
##可微分渲染技術應該是作者認為論文最大的亮點了,本文透過類似NERF 的取樣射線穿過多視圖影像或點雲,透過神經網路結構預測每個3D 點的顏色或深度,最後再透過射線穿過的路徑取得2D的映射。這樣可以更好地利用影像中的幾何或紋理線索,提高模型的學習能力和應用範圍。我們將場景表示為SDF(implicit signed distance function field),當輸入是採樣點的3D 座標P(沿射線的相應深度D)與F(the feature embedding can be extracted from the volumetric representation by trilinear interpolation )時,SDF 可以看做一個MLP ,來預測取樣點的SDF 值。這裡 F 可以理解為 P 點所在的 encode 編碼。繼而得到輸出:N(condition the color field on the surface normal)和H(geometry feature vector),這時就可以透過一個以P、D、F、N、H 為輸入的MLP 取得到3D 採樣點的RGB值和深度值,再透過射線疊加3D 採樣點到2D 空間就得到了渲染結果。而這裡射線 Ray 的採用方法,和 Nerf 的方法基本上都一樣。
渲染方法還需要進行記憶體開支的最佳化工作,這裡先按下不表。不過這個問題是比較關鍵的落地問題。
Mask 與渲染方法的本質在於訓練一個預訓練模型,預訓練模型可以根據預測的遮罩進行訓練,甚至可以沒有後續分支。預訓練模型的後續工作透過不同的分支分別產生RGB 和深度預測,結合目標偵測/語意分割等任務進行微調,實現了即插即用的能力
Loss 損失函數:
Loss 函數並不複雜。
實驗結果:
和近期其他工作對比:
其實GAIA-1 已經在用時序上的Mask AutoEncoder 思路,只不過作為監督數據的是不同時刻的一整幀數據,但是UniPAD 則是在3D 空間中去隨機摳出一部分mask 來監督預測。倒是蠻期待能看到兩者結合的方法的。
另外,UniPAD 完全可以看成是一種多模態大模型的嘗試,也可以看做是一種世界模型。雖然文章中沒有非常強調這些。
總結:
本文應該算是 3D 領域較為新穎的 Masked Autoencoder 方法了。因為MAE 方法是用在了基座模型預訓練階段,所以支持了多個不同模態的信息,所以自然而然的可以擴展到微調下游很多任務,這和LLM 的設計思路非常的接近,都注重於在預訓練階段捕捉多模態訊息,為各種任務提供統一的基礎。這種方法為3D領域的研究提供了新的思路和可能性。
該方法不僅在3D領域具有潛力,還可以擴展到4D 時序領域,以及優化其內存與計算量等方面還可以產生很多新的工作,為未來的研究提供了新的思路和可能性。
原文連結:https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow
以上是UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR
