向量化高清(HD)地圖建構需要預測地圖元素的類別和點座標(例如道路邊界、車道分隔帶、行人穿越道等)。現有技術的方法主要基於點級表示學習,用於回歸精確的點座標。然而,這種pipeline在獲得element-level資訊和處理element-level故障方面具有局限性,例如錯誤的element 形狀或element之間的糾纏。為了解決上述問題,本文提出了一個簡單而有效的HybrId框架,命名為HIMap,以充分學習和交互點級和element級資訊。
具體來說,引入了一種稱為HIQuery的混合表示來表示所有地圖元素,並提出了一種點element交互器來交互式地提取元素的混合信息,如點位置和element形狀,並將其編碼到HIQuery。此外,也提出了點-element一致性約束,以增強點級和element級資訊之間的一致性。最後,整合HIQuery的輸出點元素可以直接轉換為地圖元素的類別、點座標和遮罩。在nuScenes和Argoverse2資料集上進行了廣泛的實驗,結果顯示始終優於先前的方法。值得注意的是,在nuScenes資料集上方法實現了77.8mAP ,顯著優於以前的SOTA至少8.3 mAP!
論文名稱:HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
論文連結:https://arxiv.org/pdf/2403.08639.pdf
HIMap首先引入一種稱為HIQuery的混合表示來表示地圖中的所有地圖元素。它是一組可學習的參數,可以透過與BEV特徵互動來迭代更新和細化。然後,設計了一個多層混合解碼器,將地圖元素的混合訊息(如點位置、元素形狀)編碼到HIQuery中,並進行點元素交互,見圖2。混合解碼器的每一層包括點元素互動器、自關注和FFN。在點元交互器內部,執行了一個相互交互機制,以實現點級和元素級資訊的交換,避免單級資訊的學習偏差。最終,整合HIQuery的輸出點元素可以直接轉換為元素的點座標、類別和掩碼。此外,也提出了點-元素一致性約束,以加強點級和元素級資訊之間的一致性。
HIMap的整體流程如圖3(a)所示。 HIMap能夠與多種機載感測器資料相容,例如來自多視圖相機的RGB影像、雷射雷達的點雲或多模態資料。這裡以多視圖RGB影像為例來解釋HIMap的工作原理。
BEV特徵擷取器是用於從多視圖RGB影像中擷取BEV特徵的工具。它的核心包括從每個透視圖中提取多尺度2D特徵的主幹部分,透過融合和細化多尺度特徵得到單一尺度特徵的FPN部分,以及利用2D到BEV特徵轉換模組將2D特徵映射為BEV特徵。這個過程有助於將影像資訊轉換為更適合用於處理和分析的BEV特徵,提高了特徵的可用性和準確性。透過這種方法,我們能夠更好地理解和利用多視圖影像中的信息,為後續的資料處理和決策提供更有力的支援。
HIQuery:為了充分學習地圖元素的點級和元素級訊息,引入HIQuery來表示地圖中的所有元素!
混合解碼器:混合解碼器透過將HIQuery Qh與BEV特徵X迭代互動來產生整合的HIQuery。
點元素互動器的目標是互動式地提取地圖元素的點級和元素級資訊並將其編碼到HIQuery中。兩個層次的資訊相互作用的動機來自於它們的互補性。點級資訊包含局部位置知識,而元素級資訊提供整體形狀和語意知識。因此,此交互作用使得能夠對地圖元素的局部資訊和整體資訊進行相互細化。
考慮到點級表示和元素級表示之間的原始差異,它們分別關注局部訊息和整體訊息,兩級表示的學習也可能相互幹擾。這將增加資訊互動的難度,降低資訊互動的有效性。因此,引入了點元素一致性約束,以增強每個點級別和元素級別資訊之間的一致性,元素的可分辨性也可以加強!
論文在NuScenes Dataset和Argoverse2 Dataset上進行了實驗!
在nuScenes val-set上的SOTA模型進行比較:
與Argoverse2 val set上的SOTA模型比較:
#與nuScenes驗證集多模態資料下SOTA模型比較:
#更多消融實驗:
以上是優於所有方法! HIMap:端到端向量化HD地圖構建的詳細內容。更多資訊請關注PHP中文網其他相關文章!