OccNeRF：完全無需雷射雷達資料監督-人工智慧-PHP中文網

寫在前面&筆者的個人總結

近年來，自動駕駛領域的3D佔據預測任務因其獨特的優勢受到學術界和工業界的廣泛關注。該任務透過重建周圍環境的3D結構，為自動駕駛的規劃和導航提供詳細資訊。然而，目前主流的方法大多依賴基於雷射雷達（LiDAR）點雲產生的標籤來監督網路訓練。在最近的OccNeRF研究中，作者提出了一種自我監督的多相機佔據預測方法，名為參數化佔據場（Parameterized Occupancy Fields）。此方法解決了室外場景中無邊界的問題，並重新組織了採樣策略。然後，透過體渲染（Volume Rendering）技術，將佔據場轉換為多相機深度圖，並透過多幀光度一致性（Photometric Error）進行監督。此外，該方法還利用預先訓練的開放詞彙語意分割模型來產生2D語意標籤，以賦予佔據場語意資訊。這種開放詞彙語意分割模型能夠對場景中的不同物體進行分割，並為每個物體分配語意標籤。透過將這些語義標籤與佔據場結合，模型能夠更好地理解環境並做出更準確的預測。總之，OccNeRF方法透過參數化佔據場、體渲染和多幀光度一致性的組合使用，以及與開放詞彙語意分割模型的結合，實現了自動駕駛場景中的高精度佔據預測。這種方法為自動駕駛系統提供了更多的環境信息，有望提高自動駕駛的安全性和可靠性。

OccNeRF：完全無需雷射雷達資料監督

論文連結：https://arxiv.org/pdf/2312.09243.pdf
程式碼連結：https://github.com /LinShan-Bin/OccNeRF

OccNeRF問題背景

#近年來，隨著人工智慧技術的快速發展，自動駕駛領域也取得了巨大進展。 3D 感知是實現自動駕駛的基礎，為後續的規劃決策提供必要資訊。在傳統方法中，光達能直接捕捉精確的 3D 數據，但感測器成本高且掃描點稀疏，限制了其落地應用。相較之下，基於影像的 3D 感知方法成本低且有效，受到越來越多的關注。多相機 3D 目標偵測在一段時間內是3D 場景理解任務的主流，但它無法應對現實世界中無限的類別，並受到資料長尾分佈的影響。

3D 佔據預測能很好地彌補這些缺點，它透過多重視角輸入直接重建周圍場景的幾何結構。大多數現有方法專注於模型設計與效能最佳化，依賴 LiDAR 點雲產生的標籤來監督網路訓練，這在基於影像的系統中是不可用的。換言之，我們仍需要利用昂貴的數據採集車來收集訓練數據，並浪費大量沒有 LiDAR 點雲輔助標註的真實數據，這一定程度上限制了 3D 佔據預測的發展。因此探索自監督 3D 佔據預測是一個非常有價值的方向。

詳解OccNeRF演算法

下圖展示了 OccNeRF 方法的基本流程。模型以多相機影像作為輸入，首先使用2D backbone 擷取N 個圖片的特徵，接著直接透過簡單的投影與雙線性內插獲3D 特徵（在參數化空間下），最後透過3D CNN 網路優化3D 特徵並輸出預測結果。為了訓練模型，OccNeRF 方法透過體渲染產生目前影格的深度圖，並引入前後影格來計算光度損失。為了引入更多的時序訊息，OccNeRF 會使用一個佔據場渲染多幀深度圖並計算損失函數。同時，OccNeRF 也同時渲染 2D 語意圖，並透過開放詞彙語意分割模型進行監督。

OccNeRF：完全無需雷射雷達資料監督

Parameterized Occupancy Fields

#Parameterized Occupancy Fields 的提出是為了解決相機與佔據網格之間存在感知範圍差距這一問題。理論上來講，相機可以拍攝到無限遠處的物體，而以往的佔據預測模型都只考慮較近的空間（例如 40 m 範圍內）。在有監督方法中，模型可以根據監督訊號學會忽略遠處的物體；而在無監督方法中，若仍只考慮近處的空間，則影像中存在的大量超出範圍的物體將對最佳化過程產生負面影響。基於此，OccNeRF 採用了 Parameterized Occupancy Fields 來建模範圍無限的室外場景。

OccNeRF：完全無需雷射雷達資料監督

OccNeRF 中的參數化空間分為內部和外部。內部空間是原始座標的線性映射，保持了較高的分辨率；而外部空間表示了無限大的範圍。具體來說，OccNeRF 分別對3D 空間中點的座標做以下變化：

其中為座標，，是可調節的參數，表示內部空間對應的邊界值， #也是可調節的參數，表示內部空間佔據的比例。在生成 parameterized occupancy fields 時，OccNeRF 先在參數化空間中採樣，透過逆變換得到原始座標，然後將原始座標投影到影像平面上，最後透過採樣和三維卷積得到佔據場。

Multi-frame Depth Estimation

為了實現訓練 occupancy 網絡，OccNeRF選擇利用體渲染將 occupancy 轉換為深度圖，並透過光度損失函數來監督。渲染深度圖時採樣策略很重要。在參數化空間中，若直接根據深度或視差均勻取樣，都會造成採樣點在內部或外部空間分佈不均勻，進而影響最佳化過程。因此，OccNeRF 提出在相機中心離原點較近的前提下，可直接在參數化空間中均勻取樣。此外，OccNeRF 在訓練時會渲染並監督多幀深度圖。

下圖直觀地展示了使用參數化空間表示所佔據的優勢。（其中第三行使用了參數化空間，第二行沒有使用。）

OccNeRF：完全無需雷射雷達資料監督

#Semantic Label Generation

OccNeRF 使用預訓練的GroundedSAM (Grounding DINO SAM) 產生2D 語意標籤。為了產生高品質的標籤，OccNeRF 採用了兩個策略，一是提示詞優化，用精確的描述替換掉 nuScenes 中模糊的類別。 OccNeRF中使用了三種策略優化提示詞：歧義詞替換（car 替換為 sedan）、單字變多詞（manmade 替換為 building, billboard and bridge）和額外資訊引入（bicycle 替換為 bicycle, bicyclist）。二是根據 Grounding DINO 中偵測框的置信度而不是 SAM 給出的逐像素置信度來決定類別。 OccNeRF 產生的語意標籤效果如下：

OccNeRF：完全無需雷射雷達資料監督