首個多視角自動駕駛場景影片產生世界模型 | DrivingDiffusion: BEV資料與模擬新思路
筆者的一些個人思考
在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高品質的多視圖訓練數據和對應的模擬場景建構愈發重要。針對當下任務的痛點,「高品質」可以解耦成三個面向:
- 不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準的朝向角,以及車道線資料中不同曲率的彎道或較難擷取的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。
- 3D真值-影像的高度一致性:當下的BEV資料擷取往往受到感測器安裝/標定,高精地圖以及重建演算法本身的誤差影響。這導致了我們很難保證數據中的每一組【3D真值-影像-感測器參數】 的精確一致。
- 滿足上述條件基礎上的時序資料:連續幀的多視角影像和對應真值,這對於當前的感知/預測/決策/端到端等任務都是必必不可少的。
而對模擬來說,可以直接透過佈局進行滿足上述條件的視訊生成,無疑是最直接的multi-agent感測器輸入的建構方式。而DrivingDiffusion則從一個新的角度解決了上述問題。
什麼是DrivingDiffusion?
- DrivingDiffusion是一個用於自動駕駛場景生成的擴散模型框架,實現了佈局控制的多視角圖像/視頻生成並分別實現了SOTA。
- DrivingDiffusion-Future作為自動駕駛世界模型有根據單幀圖像預測未來場景視頻並根據語言提示影響主車/他車運動規劃的能力。
DrivingDiffusion產生效果是怎麼樣的?
有需要的同學可以先看看專案首頁:https://drivingdiffusion.github.io
(1)DrivingDiffusion
#佈局控制的多視角影像產生
圖中展示了以佈局投影作為輸入的multi-view影像產生效果。
調整佈局:精確控制產生結果
#圖中上半部展示了生成結果的多樣性以及下文中模組設計的重要性。下半部展示了對正後方的車輛進行擾動的結果,包含移動,轉向,碰撞甚至懸浮在空中的場景的生成效果。
佈局控制的多重視角影片產生
#上:DrivingDiffusion在nuScenes資料上訓練後的影片產生結果。下:DrivingDiffusion在大量私有真實資料上訓練後的影片產生結果。
#根據輸入幀文字描述產生後續影格
DrivingDiffusion是如何解決上述問題的?
DrivingDiffusion首先人為地建構場景中的所有3D真值(障礙物/道路結構),在將真值投影為Layout影像後,以此為模型輸入得到多相機視角下的真實影像/影片。之所以沒有直接使用3D真值(BEV視圖或依照編碼後的實例)作為模型輸入,而是使用參數進行投影後輸入,是為了消除系統性的3D-2D一致性誤差。 (在這樣的一組資料中,3D真值和車輛參數都是人為地依照實際需求建構的,前者帶來了隨意建構罕見場景資料能力,後者消除了傳統資料生產中幾何一致性的誤差。)
此時還剩下一個問題:產生的影像/視訊品質能否滿足使用需求?
提到建構場景,大家往往會想到使用仿真引擎,然而其產生的資料和真實資料存在著較大的domain gap。 GAN-based 方法的產生結果往往和實際真實資料的分佈存在一定bias。而Diffusion Models則是基於馬可夫鏈透過學習噪音來產生資料的特性,其產生結果的保真度較高,更適合取代真實資料使用。
DrivingDiffusion依照人為構造的場景和車輛參數,直接產生時序multi-view視圖,不僅可以作為下游自動駕駛任務的訓練數據,還可以建構用於回饋自動駕駛演算法的模擬系統。
這裡的「人為構造的場景」僅包含障礙物和道路結構信息,但DrivingDiffusion的框架可以輕鬆引入標誌牌,紅綠燈,施工區域等layout信息甚至low-level的occupancy grid/depth map等控制模式。
DrivingDiffusion方法概述
產生多重視角影片時,有幾個困難:
- 相較常見的圖像生成,多視角視訊生成新增了視角和時序兩個維度,如何設計一個可以進行長視訊生成的框架?如何保持跨視角一致性和跨幀一致性?
- 從自動駕駛任務的角度,場景中的實例至關重要,如何保證生成實例的品質?
DrivingDiffusion主要設計了一個通用的訓練框架,將stable-diffusion-v1-4模型作為影像的預訓練模型,並使用3D偽卷積將原有影像輸入膨脹,用於處理視角/時序新增的維度後輸入3D-Unet,在得到了處理新增維度的擴散模型後,進行了交替迭代式的視頻擴展,透過關鍵幀控制和微調的操作保障了短時序和長時序的整體一致性。此外,DrivingDiffusion提出了Consistency Module和Local Prompt,分別解決了跨視角/跨幀一致性和實例品質的問題。
DrivingDiffusion產生長影片流程
- #單幀多視角模型:產生multi-view關鍵幀,
- #以關鍵幀作為額外控制,多視角共享的單視角時序模型:並行對各個view進行時序擴展,
- 以產生結果為額外控制的單幀多視角模型:時序並行地微調後續幀,
- 確定新關鍵影格並透過滑動視窗延長影片。
跨視角模型與時序模型的訓練架構
- 對於multi-view模型和時序模型來說,3D-Unet的擴展維度分別為視角和時間。二者都有相同的佈局控制器。作者認為後續幀可以從multi-view關鍵幀獲取場景中的信息,並隱式地學習不同目標的關聯信息。二者分別使用了不同的一致性注意力模組和相同的Local Prompt模組。
- 佈局編碼:障礙物類別/實例資訊和道路結構分割佈局,分別以不同的固定編碼值編碼為RGB影像,經過encode後輸出佈局token。
- 關鍵影格控制:所有的時序擴展過程,都採用了某一關鍵影格的multi-view影像,這是基於在短時序內的後續影格可以從關鍵影格取得資訊的假設。所有的微調過程都以關鍵幀和其產生的後續某幀的multi-view影像作為額外控制,輸出優化該幀跨視角一致性後multi-view影像。
- 基於特定視角的光流先驗:對於時序模型,訓練時只進行某個視角下資料的取樣。額外使用提前統計的此視角影像下每個像素位置的光流先驗值,編碼後作為相機ID token,進行類似擴散過程中的time embedding對hidden層的交互控制。
Consistency Module & Local Prompt
#Consistency Module分為兩部分:一致性注意力機制和一致性關聯損失。
一致性注意力機制關注了相鄰視角和時序相關幀的交互,具體來說對於跨幀一致性僅關注存在overlap的左右相鄰視角的信息交互,對於時序模型,每一幀只關注關鍵影格以及前一格。這避免了全局互動帶來的巨大計算量。
一致性關聯損失透過像素級關聯並回歸位姿來添加幾何約束,其梯度由一個預先訓練的位姿回歸器提供。此回歸器基於LoFTR添加位姿回歸head,並在對應資料集的真實資料上使用位姿真值進行訓練。對於多視角模型和時序模型此模組分別監督相機相對位姿和主車運動位姿。
Local Prompt和Global Prompt配合,復用了CLIP和stable-diffusion-v1-4的參數語義,對特定類別實例區域進行局部增強。如圖所示,在圖像token和全域的文字描述提示的交叉注意力機制基礎上,作者對某類別進行local prompt設計並使用該類別mask區域的圖像token對local prompt進行查詢。這個過程最大程度地利用了原始模型參數中在open domain的文字引導圖像生成的概念。
DrivingDiffusion-Future方法概述
#對於未來場景建立任務來說,DrivingDiffusion-Future使用了兩種方式:一種是直接透過第一幀影像預測後續幀影像(視覺分支),並使用幀間光流作為輔助損失。這種方式較簡單,但根據文字描述對後續生成影格進行產生的效果一般。另一種方式是在前者基礎上新增了概念分支,該分支透過第一幀BEV視圖預測後續幀BEV視圖,這是因為對BEV視圖的預測有助於模型捕捉駕駛場景的核心資訊和建立概念。此時文字描述同時作用於兩個分支,並透過BEV2PV的視角轉換模組將概念分支的特徵作用於視覺分支,其中視角轉換模組的部分參數是透過使用真值影像替代雜訊輸入預先訓練的(並在後續訓練中凍結)。值得注意的是,主車控製文字描述控制器和他車控制/環境文字描述控制器是解耦的。
實驗分析
為了評估模型的性能,DrivingDiffusion採用幀級Fréchet Inception Distance (FID)來評估生成影像的質量,相應地使用FVD來評估生成視訊品質。所有指標都是在nuScenes驗證集上計算的。如表1所示,和自動駕駛場景中的影像產生任務BEVGen 和影片產生任務DriveDreamer相比,DrivingDiffusion在不同設定下的效能指標都有較大優勢。
儘管FID等方法通常用於衡量影像合成的質量,但它們並沒有完全回饋任務的設計目標,也沒有反映不同語意類別的合成品質。由於任務致力於產生與3D佈局一致的多視圖影像,DrivingDiffuison提出使用BEV感知模型指標來衡量一致性方面的性能:利用CVT和BEVFusion的官方模型作為評測器,採用與nuScenes驗證集相同的以真實3D佈局為條件的生成影像,對每組產生的影像進行CVT和BevFusion推理,然後將預測的結果與真實結果進行比較,對其中可駕駛區域的平均交叉路口(mIoU)分數和所有物件類別的NDS進行了統計,如表2所示。實驗結果表明,對合成資料評測集的感知指標和真實評測集的指標十分接近,這反映了生成結果和3D真值的高度一致性和影像品質的高保真度。
除了上述實驗外,DrivingDiffusion針對其主要解決的問題-提升自動駕駛下游任務表現,進行了加入合成資料訓練的實驗。表3展示了合成資料增強在BEV感知任務中所實現的效能改進。在原始訓練資料中,存在長尾分佈的問題,特別是小目標、近距車輛和車輛定向角度。 DrivingDiffusion專注於為這些樣本有限的類別產生額外的數據來解決這個問題。在增加了專注於改善障礙物朝向角度的分佈的2000幀數據後,NDS略有改善,而mAOE從0.5613顯著下降到0.5295。在使用6000幀更全面,更專注於罕見場景的合成資料來輔助訓練後,可以觀察到nuScenes驗證集有顯著的增強:NDS由0.412上升至0.434, mAOE由0.5613下降至0.5130。這證明了合成資料的資料增強對感知任務帶來的顯著的提升。使用者可以根據實際需求,對資料中各個維度的分佈進行統計,再針對性地使用合成資料進行補充。
DrivingDiffusion的意義和未來工作
DrivingDiffuison同時實現了多視角的自動駕駛場景視訊生成和未來預測的能力,對自動駕駛任務有著重大意義。其中佈局和參數全部人為構造且3D-2D之間的轉換透過投影而非依賴可學習的模型參數,這消除了在以往獲取資料過程中的幾何誤差,有較強的實用價值。同時DrivingDiffuison的可擴展性極強,支援新增場景內容layout以及額外的controller,同時也可以透過超解析度和視訊插幀技術無損地提升生成品質。
在自動駕駛模擬中,關於Nerf的嘗試越來越多。然而在街景生成這一任務上,對動靜態內容的分離,大範圍街區重建,解耦天氣等維度的表觀控制等等,帶來了巨大工程量,此外Nerf往往需要再特定範圍場景內進行訓練後才可支援後續的模擬中的新視角合成任務。而DrivingDiffusion天然包含了一定的通識先驗,包括視覺-文字的聯繫,對視覺內容的概念理解等,可以僅透過構造佈局快速地根據需求建立一段場景。但如上文所述,整個流程較為複雜,且對於長影片的生成需要後處理的模型微調和擴展。 DrivingDiffusion將持續探索視角維度和時間維度的壓縮,以及結合Nerf進行新視角生成和轉換,持續提升生成品質以及可擴展性。
以上是首個多視角自動駕駛場景影片產生世界模型 | DrivingDiffusion: BEV資料與模擬新思路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR
