UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！-人工智慧-PHP中文網

近年來，自動駕駛技術中以視覺為中心的3D感知得到了迅速發展。儘管3D感知模型在結構和概念上相似，但在特徵表示、資料格式和目標方面仍存在差距，這對設計統一高效的3D感知框架提出了挑戰。因此，研究人員需要努力解決這些差距，以實現更準確、可靠的自動駕駛系統。透過合作和創新，我們有望進一步提升自動駕駛的安全性和性能。

特別是在BEV下的檢測任務和Occupancy任務方面，要實現聯合訓練並取得良好效果是非常困難的。由於不穩定性和效果難以控制，這給許多應用帶來了極大的困擾。然而，UniVision是一個簡單且有效率的框架，它統一了以視覺為中心的3D感知的兩個主要任務，即佔用預測和目標偵測。此框架的核心是一個顯式-隱式視圖變換模組，用於互補2D-3D特徵轉換。此外，UniVision還提出了一個局部全局特徵提取和融合模組，用於高效和自適應的體素和BEV特徵的提取、增強和交互作用。透過採用這些方法，UniVision能夠在BEV下的檢測任務和Occupancy任務中取得令人滿意的結果。

UniVision提出了一種聯合佔用偵測資料增強策略和漸進式loss weight調整策略，以提高多任務框架訓練的效率和穩定性。在四個公共基準上進行了廣泛的實驗，包括無場景雷射雷達分割、無場景偵測、OpenOccupancy和Occ3D。實驗結果顯示，UniVision在每個基準上分別實現了 1.5 mIoU、 1.8 NDS、 1.5 mIoU和 1.8 mIoU的增益，達到了SOTA水準。因此，UniVision框架可以作為統一的以視覺為中心的3D感知任務的高性能基線。

目前3D感知領域的狀態

3D感知是自動駕駛系統的首要任務，其目的是利用一系列感測器（如光達、雷達和相機）所獲得的數據來全面了解駕駛場景，用於後續的規劃和決策。過去，由於來自點雲資料的精確3D訊息，3D感知領域一直由基於雷射雷達的模型主導。然而，基於光達的系統成本高昂，容易受到惡劣天氣的影響，而且部署起來不方便。相較之下，基於視覺的系統具有許多優點，如低成本、易於部署和良好的可擴展性。因此，以視覺為中心的三維感知引起了研究者的廣泛關注。

最近，透過改進特徵表示變換、時間融合和監督訊號設計等方面，基於視覺的3D檢測取得了顯著進展，與基於光達的模型的差距不斷縮小。此外，基於視覺的佔用任務近年來也得到了快速發展。與使用3D box來表示目標不同，佔用率可以更全面地描述駕駛場景的幾何和語義特徵，且不受目標形狀和類別的限制。

雖然檢測方法和占用方法在結構和概念上有相似之處，但對於同時處理這兩個任務並探索它們之間相互關係的研究還不充分。佔用模型和偵測模型通常會提取不同的特徵表示。佔用預測任務需要進行詳盡的語意和幾何判斷，因此廣泛使用體素表示來保存細粒度的3D資訊。然而，在偵測任務中，BEV表示更為優選，因為大多數物件位於相同的水平水平面上，且有較小的重疊。

與BEV表示相比，體素表示在精細度方面更高，但效率較低。此外，許多高階算子主要針對2D特徵進行設計和最佳化，使其與3D體素表示的整合較不簡單。 BEV表示在時間效率和記憶體效率方面更具優勢，但對於密集空間預測來說，它是次優的，因為在高度維度上失去了結構資訊。除了特徵表示，不同的感知任務在資料格式和目標方面也有所不同。因此，確保訓練多任務3D感知框架的統一性和效率是一項巨大的挑戰。

UniVision網路結構

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

UniVision框架的整體架構如圖1所示。此框架接收來自周圍N個相機的多視角影像作為輸入，並透過影像特徵提取網路提取影像特徵。接下來，利用Ex-Im視圖變換模組將2D影像特徵轉換為3D體素特徵。此模組融合了深度引導的明確特徵提升和查詢引導的隱式特徵採樣。經過視圖變換後，體素特徵被送入局部全局特徵提取和融合塊，以分別提取局部上下文感知的體素特徵和全局上下文感知的BEV特徵。接下來，透過交叉表示特徵交互模組，對用於不同下游感知任務的體素特徵和BEV特徵進行資訊交換。在訓練過程中，UniVision框架採用聯合Occ-Det資料增強和漸進loss weight調整策略進行有效訓練。這些策略可以提高框架的訓練效果和泛化能力。總之，UniVision框架透過多視角影像和3D體素特徵的處理，以及特徵互動模組的應用，實現了對周圍環境的感知任務。同時，透過資料增強和loss weight調整策略的應用，有效提升了框架的訓練效果。

1）Ex-Im View Transform

深度導向明確特性提升。這裡遵循LSS方法：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

2）查詢引導的隱式特徵取樣。然而，在表示3D資訊方面存在一些缺陷。的精度與估計的深度分佈的精度高度相關。此外，LSS產生的點分佈不均勻。點在相機附近密集，在距離上稀疏。因此，我們進一步使用查詢引導的特徵採樣來補償的上述缺點。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

與從LSS產生的點相比，體素查詢在3D空間中均勻分佈，並且它們是從所有訓練樣本的統計特性中學習的，這與LSS中使用的深度先驗資訊無關。因此，和相互補充，將它們連接起來作為視圖變換模組的輸出特徵：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

#2）局部全局特徵提取與融合

#給定輸入體素特徵，首先將特徵疊加在Z軸上，並使用卷積層來減少通道，以獲得BEV特徵：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

然後，模型分成兩個平行的分支進行特徵提取和增強。局部特徵提取全域特徵提取，以及最後的交叉表示特徵交互作用！如圖1（b）所示。

3）損失函數與偵測頭

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！漸進式loss weight調整策略。在實踐中，發現直接結合上述損失往往會導致訓練過程失敗，網路無法收斂。在訓練的早期階段，體素特徵Fvoxel是隨機分佈的，佔用頭和檢測頭中的監督比收斂中的其他損失貢獻更小。同時，檢測任務中的分類損失Lcls等損失項目非常大，並且在訓練過程中占主導地位，使得模型難以優化。為了克服這個問題，提出了漸進式損失權重調整策略來動態調整損失權重。具體而言，將控制參數δ添加到非影像級損失（即佔用損失和偵測損失）中，以調整不同訓練週期中的損失權重。控制權重δ在開始時被設定為較小的值Vmin，並在N個訓練時期中逐漸增加到Vmax：

#########

4）聯合Occ-Det空間資料增強

在3D偵測任務中，除了常見的影像層級資料增強之外，空間層級資料增強在提升模型效能方面也是有效的。然而，在佔用任務中應用空間層級增強並不簡單。當我們將資料擴充（如隨機縮放和旋轉）應用於離散佔用標籤時，很難確定產生的體素語義。因此，現有的方法只應用簡單的空間擴充，如佔用任務中的隨機翻轉。

為了解決這個問題，UniVision提出了一種聯合Occ-Det空間資料增強，以允許在框架中同時增強3D偵測任務和佔用任務。由於3D box標籤是連續值，並且可以直接計算增強的3D box進行訓練，因此遵循BEVDet中的增強方法進行檢測。儘管佔用標籤是離散的並且難以操作，但體素特徵可以被視為連續的，並且可以透過採樣和插值等操作來處理。因此建議對體素特徵進行變換，而不是直接對佔用標籤進行操作以進行資料擴充。

具體來說，首先對空間資料增強進行取樣，並計算對應的3D變換矩陣。對於佔有標籤及其voxel indices ，我們計算了它們的三維座標。然後，將應用於，並對其進行歸一化，以獲得增強體素特徵中的voxel indices ：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

實驗結果比較

使用了多個資料集進行驗證，NuScenes LiDAR Segmentation、NuScenes 3D Object Detection、OpenOccupancy和Occ3D。

NuScenes LiDAR Segmentation：根據最近的OccFormer和TPVFormer，使用相機影像作為雷射雷達分割任務的輸入，且雷射雷達資料僅用於提供用於查詢輸出特徵的3D位置。使用mIoU作為評估度量。

NuScenes 3D Object Detection：對於檢測任務，使用nuScenes的官方度量，即nuScene檢測分數（NDS），它是平均mAP和幾個度量的加權和，包括平均平移誤差（ATE）、平均尺度誤差（ASE）、平均方向誤差（AOE）、平均速度誤差（AVE）和平均屬性誤差（AAE）。

OpenOccupancy：OpenOccupancy基準基於nuScenes資料集，提供512×512×40解析度的語意佔用標籤。標記的類別與雷射雷達分割任務中的類別相同，使用mIoU作為評估度量！

Occ3D：Occ3D基準基於nuScenes資料集，提供200×200×16解析度的語意佔用標籤。 Occ3D進一步提供了用於訓練和評估的可見mask。標記的類別與雷射雷達分割任務中的類別相同，使用mIoU作為評估度量！

1）Nuscenes雷射雷達分割

表1顯示了nuScenes LiDAR分割基準的結果。 UniVision顯著超過了最先進的基於視覺的方法OccFormer 1.5% mIoU，並在排行榜上創下了基於視覺的模型的新紀錄。值得注意的是，UniVision也優於一些基於雷射雷達的模型，如PolarNe和DB-UNet。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

2）NuScenes 3D目標偵測任務

如表2所示，當使用相同的訓練設定進行公平比較時，UniVision顯示出優於其他方法。與512×1408影像解析度的BEVDepth相比，UniVision在mAP和NDS方面分別獲得2.4%和1.1%的增益。當放大模型並將UniVision與時間輸入結合時，它進一步以顯著的優勢優於基於SOTA的時序偵測器。 UniVision透過較小的輸入解析度實現了這一點，而且它不使用CBGS。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

3）OpenOccupancy結果比較

OpenOccupancy基準測試的結果如表3所示。 UniVision在mIoU方面分別顯著超過了最近的基於視覺的佔用方法，包括MonoScene、TPVFormer和C-CONet，分別為7.3%、6.5%和1.5%。此外，UniVision超越了一些基於雷射雷達的方法，如LMSCNet和JS3C-Net。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

4）Occ3D實驗結果

表4列出了Occ3D基準測試的結果。在不同的輸入影像解析度下，UniVision在mIoU方面顯著優於最近的基於視覺的方法，分別超過2.7%和1.8%。值得注意的是，BEVFormer和BEVDet-stereo加載預先訓練的權重，並在推理中使用時間輸入，而UniVision沒有使用它們，但仍然實現了更好的性能。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

5）組件在檢測任務中的有效性

#在表5中顯示了檢測任務的消融研究。當將基於BEV的全局特徵提取分支插入基線模型時，效能提高了1.7%mAP和3.0%NDS。當將基於體素的佔用任務作為輔助任務新增至偵測器時，模型的mAP增益提高了1.6%。當從體素特徵中明確引入交叉表示交互作用時，該模型實現了最佳性能，與基線相比，mAP和NDS分別提高了3.5%和4.2%；

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

6）佔用任務中組件的有效性

在表6中顯示了佔用任務的消融研究。基於體素的局部特徵提取網絡為基線模型帶來了1.96%mIoU增益的改進。當檢測任務被引入作為輔助監督訊號時，模型效能提高了0.4%mIoU。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

7）其它

#表5和表6顯示，在UniVision框架中，偵測任務和佔用任務都是相輔相成的。對於偵測任務，佔用監督可以提高mAP和mATE測量，這表明體素語義學習有效地提高了偵測器對目標幾何的感知，即中心度和尺度。對於佔用任務，偵測監督顯著提高了前景類別（即偵測類別）的效能，從而實現了整體改進。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

在表7中展示了聯合Occ-Det空間增強、Ex-Im視圖轉換模組和漸進loss weight調整策略的有效性。透過所提出的空間增強和所提出的視圖變換模組，它在mIoU、mAP和NDS度量上顯示了檢測任務和占用任務的顯著改進。 loss weight調整策略能夠有效訓練多任務框架。如果沒有這一點，統一框架的訓練就無法收斂，表現也很低。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

原文連結：https://mp.weixin.qq.com/s/8jpS_I-wn1-svR3UlCF7KQ

以上是UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1318

PHP教程

1269

C# 教程

1248

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

$牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24)$ 牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結：https://nianticlabs.github.io/mickey/給定兩張圖片，可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常，這些對應關係是二維到二維的，而我們估計的姿態在尺度上是不確定的。一些應用，例如隨時隨地實現即時增強現實，需要尺度度量的姿態估計，因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey，這是一個關鍵點匹配流程，能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配，我們能夠在沒有深度測試的情況下推斷度量相對

See all articles

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

寫在前面&個人理解

目前3D感知領域的狀態

UniVision網路結構

1）Ex-Im View Transform

#2）局部全局特徵提取與融合

3）損失函數與偵測頭

4）聯合Occ-Det空間資料增強

實驗結果比較

1）Nuscenes雷射雷達分割

2）NuScenes 3D目標偵測任務

3）OpenOccupancy結果比較

4）Occ3D實驗結果

5）組件在檢測任務中的有效性

6）佔用任務中組件的有效性

7）其它

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題