OccNeRF:完全無需雷射雷達資料監督

WBOY
發布: 2024-02-07 21:57:13
轉載
434 人瀏覽過

寫在前面&筆者的個人總結

近年來,自動駕駛領域的3D佔據預測任務因其獨特的優勢受到學術界和工業界的廣泛關注。該任務透過重建周圍環境的3D結構,為自動駕駛的規劃和導航提供詳細資訊。然而,目前主流的方法大多依賴基於雷射雷達(LiDAR)點雲產生的標籤來監督網路訓練。 在最近的OccNeRF研究中,作者提出了一種自我監督的多相機佔據預測方法,名為參數化佔據場(Parameterized Occupancy Fields)。此方法解決了室外場景中無邊界的問題,並重新組織了採樣策略。然後,透過體渲染(Volume Rendering)技術,將佔據場轉換為多相機深度圖,並透過多幀光度一致性(Photometric Error)進行監督。 此外,該方法還利用預先訓練的開放詞彙語意分割模型來產生2D語意標籤,以賦予佔據場語意資訊。這種開放詞彙語意分割模型能夠對場景中的不同物體進行分割,並為每個物體分配語意標籤。透過將這些語義標籤與佔據場結合,模型能夠更好地理解環境並做出更準確的預測。 總之,OccNeRF方法透過參數化佔據場、體渲染和多幀光度一致性的組合使用,以及與開放詞彙語意分割模型的結合,實現了自動駕駛場景中的高精度佔據預測。這種方法為自動駕駛系統提供了更多的環境信息,有望提高自動駕駛的安全性和可靠性。

OccNeRF:完全無需雷射雷達資料監督

  • 論文連結:https://arxiv.org/pdf/2312.09243.pdf
  • 程式碼連結:https://github.com /LinShan-Bin/OccNeRF

OccNeRF問題背景

#近年來,隨著人工智慧技術的快速發展,自動駕駛領域也取得了巨大進展。 3D 感知是實現自動駕駛的基礎,為後續的規劃決策提供必要資訊。在傳統方法中,光達能直接捕捉精確的 3D 數據,但感測器成本高且掃描點稀疏,限制了其落地應用。相較之下,基於影像的 3D 感知方法成本低且有效,受到越來越多的關注。多相機 3D 目標偵測在一段時間內是3D 場景理解任務的主流,但它無法應對現實世界中無限的類別,並受到資料長尾分佈的影響。

3D 佔據預測能很好地彌補這些缺點,它透過多重視角輸入直接重建周圍場景的幾何結構。大多數現有方法專注於模型設計與效能最佳化,依賴 LiDAR 點雲產生的標籤來監督網路訓練,這在基於影像的系統中是不可用的。換言之,我們仍需要利用昂貴的數據採集車來收集訓練數據,並浪費大量沒有 LiDAR 點雲輔助標註的真實數據,這一定程度上限制了 3D 佔據預測的發展。因此探索自監督 3D 佔據預測是一個非常有價值的方向。

詳解OccNeRF演算法

下圖展示了 OccNeRF 方法的基本流程。模型以多相機影像  作為輸入,首先使用2D backbone 擷取N 個圖片的特徵 ,接著直接透過簡單的投影與雙線性內插獲3D 特徵(在參數化空間下),最後透過3D CNN 網路優化3D 特徵並輸出預測結果。為了訓練模型,OccNeRF 方法透過體渲染產生目前影格的深度圖,並引入前後影格來計算光度損失。為了引入更多的時序訊息,OccNeRF 會使用一個佔據場渲染多幀深度圖並計算損失函數。同時,OccNeRF 也同時渲染 2D 語意圖,並透過開放詞彙語意分割模型進行監督。

OccNeRF:完全無需雷射雷達資料監督

Parameterized Occupancy Fields

#Parameterized Occupancy Fields 的提出是為了解決相機與佔據網格之間存在感知範圍差距這一問題。理論上來講,相機可以拍攝到無限遠處的物體,而以往的佔據預測模型都只考慮較近的空間(例如 40 m 範圍內)。在有監督方法中,模型可以根據監督訊號學會忽略遠處的物體;而在無監督方法中,若仍只考慮近處的空間,則影像中存在的大量超出範圍的物體將對最佳化過程產生負面影響。基於此,OccNeRF 採用了 Parameterized Occupancy Fields 來建模範圍無限的室外場景。

OccNeRF:完全無需雷射雷達資料監督

OccNeRF 中的參數化空間分為內部和外部。內部空間是原始座標的線性映射,保持了較高的分辨率;而外部空間表示了無限大的範圍。具體來說,OccNeRF 分別對3D 空間中點的  座標做以下變化:

其中    座標,, 是可調節的參數,表示內部空間對應的邊界值, #也是可調節的參數,表示內部空間佔據的比例。在生成 parameterized occupancy fields 時,OccNeRF 先在參數化空間中採樣,透過逆變換得到原始座標,然後將原始座標投影到影像平面上,最後透過採樣和三維卷積得到佔據場。

Multi-frame Depth Estimation

為了實現訓練 occupancy 網絡,OccNeRF選擇利用體渲染將 occupancy 轉換為深度圖,並透過光度損失函數來監督。渲染深度圖時採樣策略很重要。在參數化空間中,若直接根據深度或視差均勻取樣,都會造成採樣點在內部或外部空間分佈不均勻,進而影響最佳化過程。因此,OccNeRF 提出在相機中心離原點較近的前提下,可直接在參數化空間中均勻取樣。此外,OccNeRF 在訓練時會渲染並監督多幀深度圖。

下圖直觀地展示了使用參數化空間表示所佔據的優勢。 (其中第三行使用了參數化空間,第二行沒有使用。)

OccNeRF:完全無需雷射雷達資料監督

#Semantic Label Generation

OccNeRF 使用預訓練的GroundedSAM (Grounding DINO SAM) 產生2D 語意標籤。為了產生高品質的標籤,OccNeRF 採用了兩個策略,一是提示詞優化,用精確的描述替換掉 nuScenes 中模糊的類別。 OccNeRF中使用了三種策略優化提示詞:歧義詞替換(car 替換為 sedan)、單字變多詞(manmade 替換為 building, billboard and bridge)和額外資訊引入(bicycle 替換為 bicycle, bicyclist)。二是根據 Grounding DINO 中偵測框的置信度而不是 SAM 給出的逐像素置信度來決定類別。 OccNeRF 產生的語意標籤效果如下:

OccNeRF:完全無需雷射雷達資料監督

OccNeRF實驗結果

OccNeRF 在nuScenes 上進行實驗,並主要完成了多視角自監督深度估計和3D 佔據預測任務。

多視角自監督深度估計

OccNeRF 在 nuScenes 上多視角自監督深度估計表現如下表所示。可以看到基於 3D 建模的 OccNeRF 顯著超過了 2D 方法,也超過了 SimpleOcc,很大程度上是由於 OccNeRF 針對室外場景建模了無限的空間範圍。

OccNeRF:完全無需雷射雷達資料監督

論文中的部分視覺化效果如下:

OccNeRF:完全無需雷射雷達資料監督

3D 佔據預測

OccNeRF 在nuScenes上3D 佔據預測性能如下表所示。由於 OccNeRF 完全不使用標註數據,其性能與監督方法仍有差距。但部分類別(如 drivable surface 與 manmade)已達到與有監督方法可比的性能。

OccNeRF:完全無需雷射雷達資料監督

文字中的部分視覺化效果如下:

OccNeRF:完全無需雷射雷達資料監督

總結

在許多汽車廠商都嘗試去除LiDAR 感測器的當下,如何利用成千上萬無標註的影像數據,是個重要的課題。而 OccNeRF 為我們帶來了一個很有價值的嘗試。

OccNeRF:完全無需雷射雷達資料監督

原文連結:https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

#

以上是OccNeRF:完全無需雷射雷達資料監督的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!