深入探討多模態融合感知演算法在自動駕駛的應用
請聯絡出處取得本文的轉載授權,本文是由自動駕駛之心公眾號發布的
#1 簡介
多模態感測器融合意味著資訊互補、穩定和安全,長期以來都是自動駕駛感知的重要一環。然而資訊利用的不充分、原始資料的雜訊及各個感測器間的錯位(如時間戳記不同步),這些因素都導致融合性能一直受限。本文全面研究了現有多模態自動駕駛感知演算法,感測器包括LiDAR和相機,聚焦於目標偵測和語意分割,分析超過50篇文獻。同傳統融合演算法分類方法不同,本文從融合階段的不同將此領域分類兩大類、四小類。此外,本文分析了目前領域存在的問題,並對未來的研究方向提供參考。
2 為什麼需要多模態?
這是因為單模態的感知演算法存在固有的缺陷。舉個例子,一般光達的架設位置是高於相機的,在複雜的現實駕駛場景中,物體在前視攝影機中可能被遮擋,此時利用光達就有可能捕捉缺失的目標。但由於機械結構的限制,LiDAR在不同的距離有不同的分辨率,而且容易受到極端惡劣天氣的影響,如暴雨等。雖然兩種感光元件單獨使用都可以做的很出色,但從未來的角度出發,LiDAR和相機的資訊互補將會使得自動駕駛在感知層面上更安全。
近期,自動駕駛多模態感知演算法取得了巨大進步。這些進步包括跨模態的特徵表示、更可靠的模態感測器、更複雜、更穩定的多模態融合演算法和技術。然而,只有少數綜述[15, 81]專注於多模態融合的方法論本身,大多數文獻都按照傳統分類規則進行分類,即前融合、深度(特徵)融合和後融合三大類,並主要關注演算法中特徵融合的階段,無論是資料級、特徵級或提議級。這種分類規則有兩個問題:首先,沒有明確定義每個等級的特徵表示;其次,它從對稱的角度處理雷射雷達和相機這兩個分支,進而模糊了LiDAR分支中提級級特徵融合和相機分支中資料級特徵融合的情況。總結來說,傳統分類法雖然直觀,但已經不適用於當前多模態融合演算法的發展,一定程度上阻礙了研究人員從系統的角度進行研究和分析
##3 任務和公開比賽
常見的知覺任務包括目標偵測、語意分割、深度補全和預測等。本文重點在於偵測和分割,如障礙物、交通號誌、交通標誌的偵測和車道線、freespace的分割等。自動駕駛感知任務如下圖所示:4 融合方法
#多模態融合離不開資料表達形式,影像分支的資料表示較簡單,一般均指RGB格式或灰階圖,但光達分支對資料格式的依賴度較高,不同的資料格式衍生出完全不同的下游模型設計,總結來說包含三個大方向:基於點、基於體素和基於二維映射的點雲表示。 傳統分類方法將多模態融合分為以下三種:- 前融合(資料級融合)指透過空間對齊直接融合不同模態的原始感測器資料。
- 深度融合(特徵級融合)指透過級聯或元素相乘在特徵空間中融合跨模態資料。
- 後融合(目標層級融合)指將各模態模型的預測結果進行融合,做出最終決策。
#
5 強融合
根據雷射雷達與相機資料表示的不同組合階段,本文將強融合細分為:前融合、深度融合、不對稱融合和後融合。如上圖所示可以看出,強融合的每個子模組都高度依賴光達點雲,而不是相機資料。
前融合
與傳統的資料級融合定義不同,後者是一種在原始資料層級透過空間對齊和投影直接融合每種模態數據的方法,早期融合在資料層級融合LiDAR 資料和資料層級的相機資料或特徵級。早期融合的例子可以是圖4的模型。 重寫後的內容: 與傳統的資料級融合定義不同,後者是一種透過在原始資料層級上進行空間對齊和投影,直接融合每種模態資料的方法。早期融合是指在資料層級上融合LiDAR資料和相機資料或特徵層級的資料。圖4中的模型是早期融合的一個例子
與傳統分類方法定義的前融合不同,本文定義的前融合是指在原始資料層級透過空間對齊和投影直接融合各個模態資料的方法,前融合在數據級指的是融合光達數據,在數據級或特徵級融合圖像數據,示意圖如下:
在LiDAR分支中,點雲有多種表達方式,例如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點雲等。儘管這些資料在不同主幹網路中具有不同的內在特徵,但除了偽點雲之外[79],大部分的資料都是透過一定的規則處理產生。此外,與特徵空間嵌入相比,LiDAR的這些資料都具有很強的可解釋性,可以直接進行視覺化展示
在影像分支中,嚴格意義上的資料級定義是指RGB或灰度圖像,但是這個定義缺乏普遍性和合理性。因此,本文對前融合階段的影像資料的資料級定義進行了擴展,包括資料級和特徵級資料。值得一提的是,本文將語義分割的預測結果也作為前融合的一種(圖像特徵級),一方面是因為它有助於3D目標檢測,另一方面是因為語義分割的“目標級”特徵與整個任務的最終目標級提議是不同的
深度融合
#深度融合,也稱特徵級融合,是指在光達分支的特徵級融合多模態數據,但在影像分支的資料集和特徵級進行融合。例如一些方法使用特徵提舉起分別獲取LiDAR點雲和影像的嵌入表示,並透過一系列下游模組融合兩種模態的特徵。然而,與其他強融合不同的是,深度融合有時會以級聯方式融合特徵,這兩者都利用了原始和高級語義資訊。示意圖如下:
後融合
#後融合,也可以稱為目標級融合,是指對多個模態的預測結果(或提案)進行整合。例如,一些後融合方法利用LiDAR點雲和影像的輸出進行融合[55]。兩個分支的提案資料格式應與最終結果一致,但品質、數量和精度可能存在差異。後融合可以被看作是一種多模態資訊最佳化最終提案的整合方法,示意圖如下所示:
不對稱融合
##強融合的最後一種是不對稱融合,指的是融合一個分支的目標級資訊和其他分支的資料級或特徵級資訊。上述三種融合方法將多模態的各個分支平等對待,不對稱融合則強調至少有一個分支佔據主導地位,其他分支則提供輔助資訊預測最終結果。下圖是不對稱融合的示意圖,在proposal階段,不對稱融合只有一個分支的proposal,而後融合則是所有分支的proposal。
6 弱融合
與強融合的區別在於,弱融合方法不會直接從多模態分支中融合數據、特徵或目標,而是以其他形式處理數據。下圖展示了弱融合演算法的基本架構。基於弱融合的方法通常使用基於一定規則的方法來利用一種模態的數據作為監督訊號,以指導另一種模態的交互作用。例如,影像分支中來自CNN的2D proposal可能會導致原始LiDAR點雲中出現截斷,弱融合直接將原始LiDAR 點雲輸入到 LiDAR 主幹中以輸出最終的proposal。
7 其他方式融合
#還有一些工作不屬於上述任何一種範式,因為它們在模型設計的框架中使用了多種融合方式,例如[39]結合了深度融合和後融合,[77]則結合了前融合。這些方法並非融合演算法設計的主流方式,本文統一歸為其他融合方式。
8 多模態融合的機會
近年來,用於自動駕駛感知任務的多模態融合方法取得了快速進展,從更高級的特徵表示到更複雜的深度學習模型。然而,還有一些懸而未決的問題有待解決,本文總結瞭如下幾個未來可能的改進方向 。
更先進的融合方法
目前的融合模型存在錯位和資訊遺失的問題[13,67,98]。此外,平融合(flat fusion)操作也阻礙了感知任務表現的進一步提升。總結如下:
- 錯位和資訊遺失:相機和LiDAR的內外在差異很大,兩種模態的資料需要進行座標對齊。傳統的前融合和深度融合方法利用標定資訊將所有LiDAR點直接投影到相機座標系,反之亦然。然而由於架設位置、感測器噪聲,這種逐像素的對齊是不夠準確的。因此,一些工作利用周圍資訊進行補充以獲取更好的性能。此外,在輸入和特徵空間的轉換過程中,也存在一些其他資訊的遺失。通常,降維操作的投影不可避免地會導致大量資訊遺失,例如將3D LiDAR點雲映射為2D BEV影像中則損失了高度資訊。因此,可以考慮將多模態數據映射到另一種專為融合設計的高維度空間,進而有效的利用原始數據,減少資訊損失。
- 更合理的融合操作:目前許多方法使用級聯或元素相乘的方式進行融合。這些簡單的操作可能無法融合分佈差異較大的數據,因此難以擬合兩個模態間的語意紅狗。一些工作試圖使用更複雜的級聯結構來融合資料並提高效能。在未來的研究中,雙線性映射等機制可以融合具有不同特徵的特徵,也是可以考慮的方向。
多源資訊利用
前視單幀影像是自動駕駛感知任務的典型場景。然而,大多數框架只能利用有限的信息,並未詳細設計輔助任務來促進駕駛場景的理解。總結如下:
- 採用更多的潛在資訊:現有方法缺乏對個維度和來源的資訊的有效利用。大多數都將精力放在前視圖中的單幀多模態資料上。這就導致其他有意義的數據並未被充分利用,例如語義、空間和場景上下文資訊。有些工作嘗試使用語意分割結果輔助任務,而其他模型則有可能利用CNN主幹的中間層特徵。在自動駕駛場景中,許多具有顯式語義資訊的下游任務可能會極大的提高目標偵測效能,例如車道線、交通燈和交通標誌的偵測。未來的研究可以結合下游任務,共同建構一個完整的城市場景的語意理解框架,來提升感知表現。此外,[63]結合了幀間資訊提升性能。時間序列資訊包含序列化的監控訊號,與單幀方法相比,它可以提供更穩定的結果。因此,未來的工作可以考慮更深入地利用時間、上下文和空間資訊來實現效能突破。
- 自監督表徵學習:互相監督的訊號自然存在於從同一個真實世界場景但不同角度取樣的跨模態資料中。然而,由於缺乏對數據的深入理解,目前的方法還無法挖掘各個模態間的相互關係。未來的研究可以集中在如何利用多模態資料進行自我監督學習,包括預訓練、微調或對比學習。透過這些最先進的機制,融合演算法將加深模型對資料更深層的理解,同時取得更好的效能。
感測器固有問題
現實世界的場景和感測器高度會影響域偏差和解析度。這些不足會妨礙自動駕駛深度學習模型的大規模訓練和即時操作
- 域偏差:在自動駕駛感知場景中,不同感測器擷取的原始資料伴隨著嚴重的領域相關特徵。不同的攝影機有不同的光學特性,而LiDAR可能會從機械結構到固態結構而有所不同。更重要的是,數據本身會存在域偏差,例如天氣、季節或地理位置,即使它是由相同的感測器捕獲的。這就導致檢測模型的泛化性受到影響,無法有效適應新場景。這類缺陷阻礙了大規模資料集的收集和原始訓練資料的複用性。因此,未來可以專注於尋找一種消除域偏差並自適應整合不同資料來源的方法。
- 解析度衝突:不同的感測器通常有不同的解析度。例如,LiDAR的空間密度明顯低於影像的空間密度。無論採用哪種投影方式,都會因為找不到對應關係而導致資訊損失。這可能會導致模型被特定模態的資料所主導,無論是特徵向量的分辨率不同還是原始資訊的不平衡。因此,未來的工作可以探索一種與不同空間解析度感測器相容的新數據表示系統。
9參考
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
原文連結:https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
以上是深入探討多模態融合感知演算法在自動駕駛的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。
