超越BEVFusion! DifFUSER:擴散模型殺入自動駕駛多任務(BEV分割+偵測雙SOTA)
寫在前面&筆者的個人理解
目前,隨著自動駕駛技術的越發成熟以及自動駕駛感知任務需求的日益增多,工業界和學術界非常希望一個理想的感知演算法模型,可以同時完成三維目標偵測以及基於BEV空間的語意分割任務。對於一輛能夠實現自動駕駛功能的車輛而言,其通常配備環視相機感測器、光達感測器以及毫米波雷達感測器來採集不同模態的數據資訊。從而充分利用不同模態資料之間的互補優勢,使得不同模態之間的資料補充優勢,例如三維點雲資料可以為3D目標檢測任務提供信息,而彩色影像資料則可以為語義分割任務提供更加準確的資訊。 針對不同模態資料之間的互補優勢,透過將不同模態資料的有效資訊轉換到同一個座標系中,便於之後的聯合處理以及決策。例如三維點雲數據可以轉換到基於BEV空間的點雲數據,而環景攝影機的影像數據可以透過相機內外參的標定將其投影到3D空間中,從而實現不同模態數據的統一處理。透過利用不同模態資料的優勢,可以得到比單一模態資料更為準確的感知結果。 現在,我們已經可以部署在車上的多模態感知演算法模型輸出更穩健且準確的空間感知結果,透過精確的空間感知結果,可以為自動駕駛功能的實現提供更可靠和安全的保障。
雖然最近在學術界和工業界提出了許多基於Transformer網路框架的多感測、多模態資料融合的3D感知演算法,但均採用了Transformer中的交叉注意力機制來實現多模態資料之間的融合,以實現比較理想的3D目標偵測結果。但是這類多模態的特徵融合方法並不完全適用於基於BEV空間的語意分割任務。此外,除了採用交叉注意力機制來完成不同模態之間資訊融合的方法外,許多演算法採用基於LSA中前向向量轉換方式來建構融合後的特徵,但也存在如下的一些問題:(限制字數,接下來進行具體描述)。
- 由於目前提出的相關多模態融合的3D感知演算法,對於不同模態資料特徵的融合方式設計的還不夠充分,造成感知演算法模型無法準確捕捉感測器資料之間的複雜連結關係,進而影響模型的最終感知性能。
- 不同感測器擷取資料的過程中難免會引入無關的雜訊訊息,這種不同模態之間的內在噪聲,也會導致不同模態特徵融合的過程中會混入噪聲,造成多模態特徵融合的不準確,影響後續的知覺任務。
針對上述提到的在多模態融合過程中存在的諸多可能會影響到最終模型感知能力的問題,同時考慮到生成模型最近展現出來的強大性能,我們對生成模型進行了探索,用於實現多感測器之間的多模態融合和去雜訊任務。基於此,我們提出了一種基於條件擴散的生成模型感知演算法DifFUSER,用於實現多模態的感知任務。透過下圖可以看出,我們提出的DifFUSER多模態資料融合演算法可以實現更有效的多模態融合過程。  DifFUSER多模態資料融合演算法可以實現更有效的多模態融合過程,方法主要包括兩個階段。首先,我們使用生成模型對輸入資料進行降噪和增強,產生乾淨且豐富的多模態資料。然後,利用生成模型產生的資料進行多模態融合,達到更好的感知效果。 透過DifFUSER演算法的實驗結果顯示,我們提出的多模態資料融合演算法可以實現更有效的多模態融合過程。此演算法在實現多模態感知任務時,能夠實現更有效的多模態融合過程,提升模型的感知能力。此外,此演算法的多模態資料融合演算法可以實現更有效的多模態融合過程。總而言之
提出的演算法模型與其它演算法模型的結果視覺化對比圖
論文連結:https://arxiv.org/pdf/2404.04629. pdf
網路模型的整體架構&細節梳理
"DifFUSER演算法的模組細節,基於條件擴散模型的多任務感知演算法"是一種用於解決任務感知問題的演算法。下圖展示了我們提出的DifFUSER演算法的整體網路結構。 在這個模組中,我們提出了一種基於條件擴散模型的多任務感知演算法,用於解決任務感知問題。該演算法的目標是透過在網路中傳播和聚合任務特定的資訊來提高多任務學習的效能。 DifFUSER演算法的整
提出的DifFUSER感知演算法模型網絡結構圖
透過上圖可以看出,我們提出的DifFUSER網絡結構主要包括三個子網絡,分別是主幹網絡部分、DifFUSER的多模態資料融合部分以及最終的BEV語意分割任務頭部分。 3D目標偵測感知任務頭部分。 在主幹網路部分,我們使用了現有的深度學習網路架構,如ResNet或VGG等,透過提取輸入資料的高級特徵。 DifFUSER的多模態資料融合部分使用了多個並行的分支,每個分支用於處理不同的感測器資料類型(如影像、雷射雷達和雷達等)。每個分支都有自
- 主幹網路部分:此部分主要對網路模型輸入的2D影像資料以及3D的光達點雲資料進行特徵擷取用於輸出相對應的BEV語意特徵。對於擷取影像特徵的主幹網路而言,主要包括2D的影像主幹網路以及視角轉換模組。對於提取3D的雷射雷達點雲特徵的主幹網路而言,主要包括3D的點雲主幹網路以及特徵Flatten模組。
- DifFUSER多模態資料融合部分:我們提出的DifFUSER模組以層級的雙向特徵金字塔網絡的形式連結在一起,我們把這樣的結構稱為cMini-BiFPN。該結構為潛在的擴散提供了可以替代的結構,可以更好的處理來自不同感測器資料中的多尺度和寬高詳細特徵資訊。
- BEV語意分割、3D目標偵測感知任務頭部分:由於我們的演算法模型可以同時輸出3D目標偵測結果以及BEV空間的語意分割結果,所以3D感知任務頭包括3D檢測頭以及語意分割頭。此外,我們提出的演算法模型涉及的損失則包括擴散損失、偵測損失和語意分割損失,透過將所有損失進行求和,並透過反向傳播的方式來更新網路模型的參數。
接下來,我們會仔細介紹模型中各個主要子部分的實作細節。
融合架構設計(Conditional-Mini-BiFPN,cMini-BiFPN)
對於自動駕駛系統中的感知任務而言,演算法模型能夠對當前的外部環境進行即時的感知是至關重要的,所以確保擴散模組的性能和效率是非常重要的。因此,我們從雙向特徵金字塔網路中得到啟發,引入一種條件類似的BiFPN擴散架構,我們稱之為Conditional-Mini-BiFPN,其具體的網路結構如上圖所示。
漸進感測器Dropout訓練(PSDT)
對於一輛自動駕駛汽車而言,配備的自動駕駛採集感測器的性能至關重要,在自動駕駛車輛日常行駛的過程中,極有可能會出現相機感測器或光達感測器出現遮蔽或故障的問題,從而影響最終自動駕駛系統的安全性以及運作效率。基於這個考慮出發,我們提出了漸進式的感測器Dropout訓練範式,用於增強提出的演算法模型在感測器可能被遮蔽等情況下的穩健性和適應性。
透過我們提出的漸進感測器Dropout訓練範式,可以使得演算法模型透過利用相機感測器以及雷射雷達感測器擷取到的兩種模態資料的分佈,重建缺失的特徵,從而實現了在惡劣狀況下的出色適應性和魯棒性。具體而言,我們利用來自影像資料和光達點雲資料的特徵,以三種不同的方式進行使用,分別是作為訓練目標、擴散模組的雜訊輸入以及模擬感測器遺失或故障的條件,為了模擬感測器遺失或故障的條件,我們在訓練期間逐漸將相機感測器或光達感測器輸入的遺失率從0增加到預先定義的最大值a=25。整個過程可以用下面的公式來表示:
其中,代表目前模型所處的訓練輪數,透過定義dropout的機率用於表示特徵中每個特徵被丟棄的機率。透過這種漸進式的訓練過程,不僅訓練模型有效去噪並產生更具有表現力的特徵,而且還最大限度地減少其對任何單一感測器的依賴,從而增強其處理具有更大彈性的不完整感測器數據的能力。
閘控自條件調變擴散模組(GSM Diffusion Module)
#具體而言,閘控自條件調變擴散模組的網路結構如下圖所示
門控自條件調變擴散模組網路結構示意圖
實驗結果&評估指標
定量分析部分
為了驗證我們提出的演算法模型DifFUSER在多任務上的感知結果,我們主要在nuScenes數據集上進行了3D目標偵測以及基於BEV空間的語意分割實驗。
首先,我們比較了所提出的演算法模型DifFUSER與其它的多模態融合演算法在語意分割任務上的效能比較情況,具體的實驗結果如下表所示:
不同演算法模型在nuScenes資料集上的基於BEV空間的語意分割任務的實驗結果對比情況
透過實驗結果可以看出,我們提出的演算法模型相比於基準模型而言在效能上有著顯著的提高。具體而言,BEVFusion模型的mIoU值只有62.7%,而我們提出的演算法模型已經達到了69.1%,具有6.4%個點的提升,這表明我們提出的演算法在不同類別上都更有優勢。此外,下圖也更直觀的說明了我們提出的演算法模型更具優勢。具體而言,BEVFusion演算法會輸出較差的分割結果,尤其在遠距離的場景下,感測器錯位的情況更加明顯。與之相比,我們的演算法模型具有更準確的分割結果,細節更加明顯,雜訊更少。
提出演算法模型與基準模型的分割視覺化結果比較
此外,我們也將提出的演算法模型與其它的3D目標偵測演算法模型進行對比,具體的實驗結果如下表所示
不同演算法模型在nuScenes資料集上的3D目標偵測任務的實驗結果對比情況
通過表格當中列出的結果可以看出,我們提出的演算法模型DifFUSER相比於基線模型在NDS和mAP指標上均有提高,相比於基線模型BEVFusion的72.9%NDS以及70.2%的mAP,我們的演算法模型分別高出1.8%以及1.0%。相關指標的提升表明,我們提出的多模態擴散融合模組對特徵的減少和特徵的細化過程是有效的。
此外,為了表明我們提出的演算法模型在感測器故障或遮蔽情況下的感知穩健性,我們進行了相關分割任務的結果比較,如下圖所示。
不同情況下的演算法效能比較
透過上圖可以看出,在取樣充足的情況下,我們提出的演算法模型可以有效的對缺失特徵進行補償,用於作為缺失感測器擷取資訊的替代內容。我們提出的DifFUSER演算法模型產生和利用合成特徵的能力,有效地減輕了對任何單一感測器模態的依賴,確保模型在多樣化和具有挑戰性的環境中能夠平穩運行。
定性分析部分
下圖展示了我們提出的DifFUSER演算法模型在3D目標偵測以及BEV空間的語意分割結果的可視化,透過視覺化結果可以看出,我們提出的演算法模型具有很好的檢測和分割效果。
結論
本文提出了一個基於擴散模型的多模態感知演算法模型DifFUSER,透過改進網路模型的融合架構以及利用擴散模型的去噪特性來提高網路模型的融合品質。透過在Nuscenes資料集上的實驗結果表明,我們提出的演算法模型在BEV空間的語義分割任務中實現了SOTA的分割性能,在3D目標檢測任務中可以和當前SOTA的演算法模型取得相近的檢測性能。
以上是超越BEVFusion! DifFUSER:擴散模型殺入自動駕駛多任務(BEV分割+偵測雙SOTA)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

Diffusion不僅可以更好地模仿,而且可以進行「創作」。擴散模型(DiffusionModel)是一種影像生成模型。與先前AI領域大名鼎鼎的GAN、VAE等演算法,擴散模型另闢蹊徑,其主要想法是先對影像增加噪聲,再逐步去噪的過程。其中如何去噪還原原影像是演算法的核心部分。最終演算法能夠從一張隨機的雜訊影像中產生影像。近年來,生成式AI的驚人成長將文字轉換為圖像生成、視訊生成等領域的許多令人興奮的應用提供了支援。這些生成工具背後的基本原理是擴散的概念,這是一種特殊的取樣機制,克服了先前的方法中被

擴散模型是目前生成式AI中最核心的模組,在Sora、DALL-E、Imagen等生成式AI大模型中都取得了廣泛的應用。同時,擴散模型也被越來越多的應用到了時間序列中。這篇文章為大家介紹了擴散模型的基本思路,以及幾篇擴散模型用於時間序列的典型工作,帶你理解擴散模型在時間序列中的應用原理。 1.擴散模型建模思路生成模型的核心是,能夠從隨機簡單分佈中取樣一個點,並透過一系列變換將這個點映射到目標空間的圖像或樣本上。擴散模型的做法是,在取樣的樣本點上,不斷的去噪聲,經過多個去除噪聲的步驟,產生最終的數

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

1.首先要確保您的BT種子是健康的,而且種子夠多,人氣夠旺,這樣才符合BT下載的前提條件,速度才快。打開自己的BitComet的"選擇"一欄,點擊第一欄"網路連線",全域最大下載速度無限調整到1000(2M以下使用者1000是個不可達到的數字,不過不調這個也行,誰不想下的快呢)。最大上傳速度無限制調整到40(依個人狀況合理選擇,速度快了電腦會卡)。 3、點選任務設定。裡面可以調預設下載目錄。 4.點選介面外觀。將最多顯示peer數量改到1000,就是顯示跟你連接的用戶的詳細狀況,這樣心裡有底5、點

netsh 命令用於在 Windows 7 中管理網絡,它能夠執行以下操作:查看網絡資訊配置 TCP/IP 設定管理無線網路設定網路代理

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
