ADMap:抗干擾線上高精地圖新思路
寫在前面&筆者的個人理解
很高興受邀參加自動駕駛之心的活動,我們將分享在線重建矢量化高精度地圖的抗擾動方法ADMap。你可以在https://github.com/hht1996ok/ADMap 上找到我們的程式碼。感謝大家的關注與支持。
在自動駕駛領域,線上高清地圖重建對於規劃和預測任務具有重要意義,近期的工作構建了許多高性能的高清地圖重建模型來滿足這一需求。然而向量化實例內部的點序由於預測偏差可能會出現抖動或鋸齒現象,進而影響後續任務。因此,我們提出了Anti-Disturbance Map reconstruction framework(ADMap)。本文希望兼顧模型速度和整體的精度,並且在部署時不會讓工程師們感到困擾。因此,提出了三個高效且有效的模組:Multi-Scale Perception Neck(MPN)、Instance Interactive Attention(IIA)和Vector Direction Difference Loss(VDDL)。透過級聯的探索實例間和實例內部的點序關係,我們的模型更好地監督了點序的預測過程。
我們在nuScenes和Argoverse2資料集中驗證了ADMap的有效性。實驗結果表明,ADMap在各項基準測試中均表現出最佳效能。在nuScenes基準中,ADMap在使用僅相機資料和多模態資料的情況下,mAP相比基準分別提高了4.2%和5.5%。 ADMapv2不僅降低了推理延遲,還顯著提升了基線效能,最高mAP達到了82.8%。在Argoverse資料集中,ADMapv2的mAP提高至62.9%,同時幀率維持在14.8FPS。
總結來說,我們提出的ADMap主要有以下幾點貢獻:
- 提出了端到端的ADMap,重建了更穩定的向量化高精地圖。
- MPN在不增加推理資源的情況下更好的捕捉了多尺度信息,IIA完成了實例間和實例內部的有效交互,使點級特徵更準確,VDDL更細緻的約束了點序重建過程,在點序的幾何關係上進行監督。
- ADMap實現了向量化高精地圖的即時重建,並且在nuScenes基準和Argoverse2中達到了最高精度。
方法提出
如圖1所示,實例中的預測點往往會不可避免的出現抖動或偏移現象,這種抖動會導致重建後的實例向量變得不平滑或鋸齒狀,嚴重影響了線上高精地圖的品質和實用性。我們認為,原因在於現有模型並未充分考慮實例間和實例內部的交互方式,實例點與地圖拓撲資訊不完全的交互作用會導致其預測位置的不準。此外僅透過L1 loss和cosine embedding loss等監督無法有效的利用幾何關係來約束實例點的預測過程,網路需要利用各點間的向量線段來精細捕捉點序的方向資訊以更準確的約束每個點的預測過程。
為了緩解以上問題,我們創新的提出了Anti-Disturbance Map reconstruction framework(ADMap),實現了矢量化高精地圖的即時穩定重建。
方法設計
如圖2所示,ADMap透過多尺度感知頸部(Multi-Scale Perception Neck,MPN)、實例互動注意力(Instance Interactive Attention ,IIA)和向量方向差損失(Vector Direction Difference Loss,VDDL)來更精細地預測點序拓樸結構。以下將分別介紹MPN、IIA以及VDDL。
Multi-Scale Perception Neck
為了獲得更詳細的BEV特徵,我們引入了Multi-Scale Perception Neck(MPN )。 MPN接收融合後的BEV特徵作為輸入。透過下採樣,每個層級的BEV特徵將連接到一個上採樣層,以恢復原始尺寸的特徵圖。最終,各層級的特徵圖將合併成多尺度的BEV特徵。
如圖2中的虛線代表該步驟僅在訓練時實施,實線代表訓練和推理過程都會實施該步驟。在訓練過程中,多尺度BEV特徵圖和每一層的BEV特徵圖都會被送入Transformer Decoder,這使網路可以在不同尺度預測場景的實例資訊以捕捉更精細的多尺寸特徵。而在推理過程中,MPN僅保留多尺度BEV特徵,不會輸出各層級特徵圖,這保證了該neck在推理時的資源佔用不變。
Transformer Decoder
Transformer Decoder中定義了一組實例層級的查詢和一組點層級的查詢,隨後將點層級查詢共享到所有實例中,這些分層查詢被定義為:
解碼器包含幾個級聯的解碼層,這些層迭代地更新分層查詢。在各解碼層中,分層查詢被輸入到自註意力機制中,這使得分層查詢間可以相互交換訊息,Deformable Attention被用來交互分層查詢和多尺度BEV特徵。
Instance Interactive Attention
為了在解碼階段更好的獲取各實例特徵,我們提出了Instance Interactive Attention(IIA),其由Instances self-attention和Points self-attention組成。有別於MapTRv2並行擷取實例層級和點層級的嵌入,IIA級聯地擷取了查詢嵌入。實例嵌入間的特徵交互作用進一步幫助了網路學習點級嵌入間的關係。
如圖3所示,Deformable cross-attention輸出的分層嵌入被輸入到Instances self-attention。將點維度與通道維度合併後維度變換為。隨後,分層嵌入存取由多個MLP組成的Embed Layer中取得實例查詢,該查詢被放入Multi-head self-attention中來捕捉實例間的拓樸關係,得到實例嵌入。為了在點級嵌入中融入實例層級訊息,我們將實例嵌入和分層嵌入相加。相加後的特徵被輸入至Point self-attention中,對各實例內的點特徵進行交互,進一步精細關聯了點序間的拓樸關係。
Vector Direction Difference Loss
高精地圖中包含了向量化的靜態地圖元素,包括車道線、路沿和行人穿越道等。 ADMap針對這些開放形狀(車道線、路沿)和封閉形狀(人行橫道)提出了Vector Direction Difference Loss。我們建模了實例內部的點序向量方向,透過預測向量方向和真實向量方向的差值可以更細緻的監督點的方向。此外,真實向量方向差較大的點被認為代表了部分場景拓撲的劇烈變化(更不容易預測),更加需要被模型關注。因此,真實向量方向差較大的點被賦予了更大的權重,以確保網路可以準確預測到這個劇烈變化的點。
圖4展示了預報點序{ 和真實點序{ 中對預測向量線{ 與真實向量線{ 的初始建模。為了確保相反的角度不會得到相同的損失,我們計算向量線角度差餘弦值θ':
其中函數累加了向量線的座標位置,代表歸一化操作。我們利用真實實例中各點的向量角度差來為它們賦予不同大小的權重。權重定義如下:
其中代表實例中點的數量,函數代表底數為e的指數函數。由於首尾兩點無法計算向量角度差,因此我們將首尾點的權重設為1。當真實值中的向量角度差變大時,我們賦予該點更大的權重,這使得網路更為關注顯著變化的地圖拓撲結構。點序中各點的角度差損失定義為:
我們使用θ將損失值的區間調整為[0.0, 2.0]。透過將各點的相鄰向量線角度差餘弦相加,此損失更全面的涵蓋了各點的幾何拓樸資訊。由於首尾兩點僅有一條相鄰向量線,因此首尾兩點的損失為單一向量角度差的餘弦值。
實驗
為了公平的評估,我們將地圖元素分為車道線、道路邊界和行人穿越道三種。採用平均精度(AP)來評估地圖建構的質量,使用預測點序和真實點序的chamfer距離總和來判斷兩者是否匹配。 Chamfer距離閾值設定為[0.5, 1.0, 1.5],我們分別在這三種閾值下計算AP,並將平均值作為最終指標。
比較實驗
表1报告了ADMap和最先进方法在nuScenes数据集的指标。在camera-only框架下,ADMap的mAP相较于baseline(MapTR)提高了5.5%,ADMapv2相较于baseline(MapTRv2)提高了1.4%。ADMapv2最高mAP达到82.8%,取得当前基准中最佳性能,部分细节会在后续arxiv版本中公布。在速度方面,ADMap相较于其baseline在FPS略微降低的情况下显著提高模型性能。值得一提的是,ADMapv2不仅提高了性能,在模型推理速度方面也有提升。
表2报告了ADMap和最先进方法在Argoverse2中的指标。在camera-only框架下,ADMap和ADMapv2相较于baseline分别提高了3.4%和1.3%。在多模态框架下,ADMap和ADMapv2达到了最佳性能,mAP分别为75.2%和76.9%。在速度方面。ADMapv2相较于MapTRv2提升了11.4ms。
消融实验
在表 3 中,我们提供了在 nuScenes 基准上ADMap各个模块的消融实验。
表4给出了插入不同注意力机制对于最终性能的影响。DSA表示decoupled self-attention,IIA表示实例交互注意力。结果表示IIA相较于DSA,mAP提高1.3%。
表5报告了在融合特征后增加backbone和neck层对mAP的影响。增加基于SECOND的backbone和neck层后,mAP提高了1.2%。而增加MPN后,在不增加推理时间的前提下,模型的mAP提高了2.0%。
表6报告了在nuScenes基准中增加VDDL对性能的影响。可以看到,当权重设置为1.0时,mAP最高,达到了53.3%。
表7报告了在nuScenes基准中,MPN下采样层数对最终性能的影响。下采样层数越多,模型推理速度越慢。因此,为了平衡速度和性能,我们设置了下采样层数为2。
为了验证ADMap有效缓解了点序扰动问题,我们提出了average chamfer distance(ACE)。我们挑选了chamfer distance之和小于1.5的预测实例,并计算它们的average chamfer distance(ACE)。当ACE越小代表实例点序预测的越准确。表8证明了ADMap可以有效缓解点云扰动这一问题。
可视化结果
下面两幅图为nuScenes数据集和Argoverse2数据集中的可视化结果。
总结
ADMap是一个高效且有效的矢量化高精地图重建框架,其有效缓解了实例矢量的点序由于预测偏差可能会出现的抖动或锯齿现象。大量实验表明,我们提出的方法在nuScenes和Argoverse2基准上均取得最佳性能。我们相信ADMap协助推进矢量高精地图重建任务的研究,从而更好地推动自动驾驶等领域的发展。
以上是ADMap:抗干擾線上高精地圖新思路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
