FlashOcc:佔用預測新思路,精確度、效率和記憶體佔用新SOTA!
原文標題:FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
論文連結:https://arxiv.org/pdf/2311.12058.pdf
作者單位:大連理工大學Houmo AI 阿德萊德大學
#論文想法:
鑑於能夠緩解3D 目標偵測中普遍存在的長尾缺陷和複雜形狀缺失的能力,佔用預測已成為自動駕駛系統的關鍵組成部分。然而,三維體素級表示的處理不可避免地會在記憶體和計算方面引入大量開銷,阻礙了迄今為止的佔用預測方法的部署。與使模型變得更大、更複雜的趨勢相反,本文認為理想的框架應該對不同的晶片進行部署友好,同時保持高精度。為此,本文提出了一種即插即用範例,即 FlashOCC,以鞏固快速且節省記憶體的佔用預測,同時保持高精度。特別是,本文的 FlashOCC 是基於當代體素級佔用預測方法做出了兩項改進。首先,特徵保留在 BEV 中,從而能夠使用高效的 2D 卷積層進行特徵提取。其次,引入通道到高度變換(channel-to-height transformation) ,將 BEV 的輸出 logits 提升到 3D 空間。本文將 FlashOCC 應用於具有挑戰性的 Occ3D-nuScenes 基準的各種佔用預測基線,並進行廣泛的實驗來驗證其有效性。結果證實了本文的即插即用範例在精度、運行時效率和記憶體成本方面優於以前最先進的方法,展示了其部署潛力。該代碼將可供使用。
網路設計:
受到sub-pixel convolution 技術[26] 的啟發,我們將影像上取樣替換為通道重新排列,以實現通道到空間的特徵轉換。在本文的研究中,我們的目標是有效地實現通道到高度的特徵轉換。考慮到BEV 感知任務的發展,其中BEV 表示中的每個像素包含有關相應柱狀物體在高度維度上的信息,我們直觀地利用通道到高度變換(channel-to-height transformation)將扁平化的BEV 特徵重新塑造為三維體素層級的佔用logits。因此,我們的研究專注於以通用和即插即用的方式增強現有模型,而不是開發新穎的模型架構,如圖1 (a) 所示。具體來說,我們直接使用 2D 卷積取代當代方法中的 3D 卷積,並用透過 2D 卷積獲得的 BEV 級特徵的通道到高度變換來取代從 3D 卷積輸出中得到的佔用 logits。這些模型不僅實現了準確性和時間消耗之間的最佳權衡,還展現出了出色的部署兼容性FlashOcc 成功地以極高的精度成功完成了實時環視3D 佔用預測,代表了該領域的開創性貢獻。此外,它還展現了跨不同車載平台部署的增強的多功能性,因為它不需要昂貴的體素級特徵處理,其中避免了 view transformer 或 3D(可變形)卷積算子。如圖2所示,FlashOcc的輸入資料由環視圖像組成,而輸出則是密集的佔用預測結果。儘管本文的FlashOcc專注於以通用和即插即用的方式增強現有模型,但它仍然可以分為五個基本模組:(1)2D影像編碼器,負責從多相機影像中提取影像特徵。 (2) 視圖轉換模組,有助於將 2D 感知視圖影像特徵對應到 3D BEV 表示。 (3) BEV 編碼器,負責處理 BEV 特徵資訊。 (4) 佔用預測模組,預測每個體素的分割標籤。 (5) 一個可選的時間融合模組,旨在整合歷史資訊以提高效能。
圖 1.(a) 說明如何以即插即用的方式實作所提出的 FlashOcc。現代方法使用 3D-Conv 處理的體素級 3D 特徵來預測佔用率。相較之下,本文的插件替代模型透過(1) 以2D-Conv 取代3D-Conv 以及(2) 以通道到高度變換(channel-to-height transformation) 取代從3D-Conv 導出的佔用logits,實現快速且節省記憶體的佔用預測透過2D-Conv 取得的BEV 等級特徵。縮寫“Conv”代表卷積。 (b) 舉例說明了準確性與速度、推理記憶體消耗和訓練持續時間等因素之間的權衡。
圖4展示了3D體素級表示處理和本文提出的插件替換之間的架構比較
實驗結果:
總結:
本文介紹了一種名為FlashOCC的即插即用方法,旨在實現快速且記憶體高效的佔用預測。此方法使用2D卷積直接取代基於體素的佔用方法中的3D卷積,並結合通道到高度變換(channel-to-height transformation)將扁平化的BEV特徵重新塑造為佔用logits。 FlashOCC已在多種體素級佔用預測方法中證明了其有效性和通用性。大量實驗證明該方法在精度、時間消耗、記憶體效率和部署友善性方面優於以前最先進的方法。據本文所知,FlashOCC是第一個將sub-pixel範式(Channel-to-Height)應用於佔用任務的方法,專門利用BEV級特徵,完全避免使用計算3D(可變形)卷積或transformer模組。視覺化結果令人信服地證明FlashOCC成功保留了高度資訊。在未來的工作中,該方法將被整合到自動駕駛的感知管道中,旨在實現高效的on-chip部署
#引用:
Yu, Z., Shu, C., Deng, J., Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023). FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin. ArXiv. /abs/2311.12058
以上是FlashOcc:佔用預測新思路,精確度、效率和記憶體佔用新SOTA!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
