首次超過70% mAP! GeMap:局部高精地圖SOTA再次刷新
寫在前面&筆者的個人理解
實時根據感測器資料建立向量化高精地圖對於預測和規劃等下游任務至關重要,可以有效彌補離線高精地圖即時性差的缺點。隨著深度學習的發展,線上向量化高精地圖建構逐漸興起,代表性的工作如HDMapNet,MapTR等相繼湧現。然而,現有的線上向量化高精地圖建構方法缺乏對地圖元素幾何性質(包括元素的形狀,垂直、平行等幾何關係)的探索。
向量化高精地圖的幾何性質
向量化高精地圖對道路上的元素進行了高度抽象,將每個地圖元素表示為二維點序列。而城市道路的設計具有特定的規範,例如,人行橫道在多數情況下表現為方正的矩形或平行四邊形;在不涉及分流合流的路段,相鄰的兩條車道互相平行。高精地圖中不同元素也具有許多類似的特點,這些常識性的規律,抽象化為高精地圖的幾何性質,包括地圖元素的形狀(矩形、平行四邊形、直線等),或不同地圖元素之間的關聯(平行、垂直等)。幾何性質強而有力地約束地圖元素的表現形式,在線建構模型如果充分理解了幾何性質,就能得到更精確的結果。
提出針對高精地圖的幾何表示的重要性
儘管理論上現有模型仍可能學到地圖元素的幾何性質,然而,幾何性質的特點決定了至少在傳統的設計下,模型並不容易學到。
- 幾何性質的不變性
中心車輛在道路上直線行駛,變換車道,或轉彎時,(在車輛座標系下)地圖元素的絕對座標不斷改變。而行人穿越道、車道、道路邊界等的形狀並不會隨之改變;類似的,車道之間平行關係也不會改變。地圖元素的幾何性質是客觀的,它的一個重要特徵就是不變性。更具體的,是剛性不變性(對旋轉、平移變換不變)。以往的工作,不論是使用樸素的折線表示,還是使用帶控制點的多項式曲線(比如貝塞爾曲線、分段貝塞爾曲線),都基於絕對坐標,並在絕對坐標基礎上端對端優化。 基於絕對座標的最佳化目標本身不具備剛性不變性,因此很難期待模型陷入的局部最佳解包含對幾何性質的理解。因此,一種能充分刻畫幾何性質且具有一定不變性的表示是必要的。
圖1. 幾何不變性的範例。
車輛右轉時,絕對座標會發生明顯的變化。右圖展示了一個對應的真實場景。
- 幾何性質的多樣性
此外,儘管具有強烈的先驗知識,道路的幾何性質仍然是多樣的。這些多樣的幾何性質大致上可以分為兩大類,一類是關於單一地圖元素的幾何形狀,一類是關於不同地圖元素的幾何關聯。由於幾何性質的多樣性,窮舉並人工地將幾何性質轉變為約束是不可能的,因此我們更希望模型能夠端到端地自主學習多樣的幾何性質。
GeMap的設計
幾何表示
針對上述兩個問題,我們先改進表示方法。我們希望在傳統的基於絕對座標的表示之外,引入一種良好的幾何表示,它需要滿足:
- #能刻畫地圖元素的形狀
- 能刻畫地圖元素之間的關聯
- 剛性不變性
為保證平移不變性,我們使用了相對量,即點之間的偏移向量;為進一步保證旋轉不變性,我們選擇了偏移向量的長度,以及不同偏移向量之間的夾角。這二者──長度和夾角──構成了我們提出的幾何表示的基礎。此外,為了更好地區分並刻畫形狀、關聯兩類不同的幾何性質,我們還按照從簡的原則進一步細化了設計:
為刻畫形狀,我們計算單一地圖元素中相鄰點之間的偏移向量,並計算偏移向量長度、相鄰偏移向量之間的夾角。此表示法能夠唯一確定任意的折線/多邊形。兩個形象的例子如下圖:
請看圖2,它展示了幾何形狀的表示方式
對於一個矩形,使用一個直角和兩對相等的邊就可以描述;對於一條直線,所有的夾角均為0度或180。
為刻畫關聯,類似地,我們首先考慮了任兩點之間的距離。然而,如果對所有點對點的偏移向量兩兩計算夾角,表示的複雜度過高,且計算代價不可承受。具體地,假設一共有個地圖元素,每個元素使用個個點來表示,那麼所有夾角的資料量將達到(取1000時,假設每一個角度資料都是32位浮點數,這樣的表示僅佔據的空間將達到TB等級)。事實上,對於一般的垂直、平行等關係來說這並不是必要的。因此,我們先計算元素內部的偏移,然後僅對這些偏移計算兩兩之間的夾角作為幾何表示的一部分。這種簡化的關聯表示保留了對平行、垂直等關係的描述能力,同時所對應的資料量僅為(前述條件下,大致4MB)。為了方便理解,我們同樣提供了一些例子:
圖3. 幾何關聯表示。
平行關係和垂直關係的表示方式是偏移向量的夾角為0度或90度;從兩點之間的距離可以一定程度上反映車道的寬度資訊
#為優化幾何形狀和關聯的表示,我們採用最樸素的做法,直接計算預測和標籤的幾何表示,然後用範數作為優化目標:
這裡和分別表示根據標籤計算得到的長度和夾角,和則表示根據預測計算得到的長度和夾角。在處理夾角時使用了一個技巧:直接計算角度涉及到不連續的arctan函數,在優化時會遇到困難(在±90度附近存在梯度消失的問題),因此我們實際上比較的是夾角的餘弦和正弦值:
幾何的基礎是角度和距離,因此我們常用「歐幾裡得損失」來形象化對應的幾何損失,這也代表了該損失對旋轉和平移變換的魯棒性
幾何解耦注意力
一種被MapTR,PivotNet等採用的架構將地圖元素上的每一個點對應到Transformer的一個查詢。這項架構的問題在於:對兩大類的幾何性質不加以區分。
在自註意力中,所有查詢(也就是「點」)之間都平等地互動。然而,地圖元素的形狀對應著一組一組的查詢。這些組之間的交互,在感知元素形狀時就成為了累贅。反之在感知元素之間關聯的時候,形狀也成為了冗餘因素。這意味著將形狀、關聯的感知解耦,可能帶來更好的結果。
為了將幾何形狀和關聯處理解耦,我們採用了自註意力的兩個步驟:
- 每個地圖元素包括個查詢,在這個查詢內部進行注意力,用以處理幾何形狀
- 補充跨元素的注意力關係,用以處理幾何關聯
幾何解耦的注意力可以透過下圖更形象化地表示。我們的實作方法相對簡單,直接使用遮罩來控制注意力的範圍。由於這兩種類型的注意力是互補的,因此透過合理的實現,時間複雜度有可能等同於進行單次自註意力
圖4. 幾何解耦注意力。
左側為單一元素內部進行的形狀注意力,右側為元素之間進行的關聯注意力。
實驗結果
我們在nuScenes和Argoverse 2兩個資料集上進行了大量實驗。二者都是常用的大規模自動駕駛資料集,且都提供了地圖示註。
主要結果
#我們在nuScenes上進行了三組實驗。首先,我們使用了一種較為純粹的目標函數組合,僅包括幾何損失和其他必要的損失(如點到點距離、邊的方向、分類),這種組合旨在突顯我們提出的幾何性質的重要值,而不過度追求SOTA的結果。結果顯示,在這種情況下,與MapTR相比,我們的方法在mAP上有所提升。為了探索GeMap的極限,我們也加入了一些輔助目標,包括分割和深度估計。在這種情況下,我們也得到了SOTA的結果(mAP提升)。值得注意的是,要實現這樣的提升並不需要犧牲太多的推理速度。最後,我們也嘗試了引入額外的LiDAR模態輸入,在額外模態輸入的幫助下,GeMap的效能進一步提升
同樣,在Argoverse 2資料集上,我們的方法也取得了非常突出的效果。
重寫的內容是:消融實驗
在nuScenes上進一步的重寫的內容是:消融實驗證明了幾何損失和幾何解耦注意力的價值。有趣的是,正如我們所預料的,直接使用幾何損失反而會帶來模型表現的下降。我們認為這是因為結構上的對形狀和關聯處理的耦合,導致模型很難優化幾何表示;而在與幾何解耦注意力結合之後,幾何損失就發揮了應有的作用(從” Euclidean Loss“到”Full“)。
更多結果
除此之外,我們也對nuScenes進行了視覺化分析。透過視覺化結果可以看出,GeMap不僅在處理旋轉和平移方面具有穩健性,而且在解決遮蔽問題方面也表現出了一定的優勢,如下圖所示。挑戰性的地圖元素在圖中以橘色方框標示
圖5. 視覺化對比結果。
在下雨天的實驗結果中,我們也對遮蔽的穩健性進行了定量驗證(見下表)。這是因為雨水會自然地對相機造成遮擋
這可以解釋為模型學習到了幾何性質,因此即使有遮擋,也能更好地猜測地圖元素。例如,模型理解了車道線的形狀,那麼只需要"看到"一部分,就能夠估計剩下的部分;模型理解了車道線之間的平行關係,或者車道的寬度特點,因此即使其中一條被遮擋,也能根據平行關係和寬度因素猜測被遮蔽的部分
總結
我們指出了地圖元素所具有的幾何性質,以及其對於在線向量化高精地圖建構的價值。基於此,我們提出了一個強而有力的方法,初步對此價值進行了驗證。此外,GeMap表現出的對遮蔽的穩健性,或許預示著在其它自動駕駛任務(例如檢測、佔有預測等)中利用幾何性質處理遮擋的思路——因為車輛和道路都具有相對規範的幾何性質。當然,我們的方法本身也有很多可以進一步探索的地方。例如不同複雜度的幾何元素是否可以適應性地使用不同的點來描述?是否能從機率的角度出發理解幾何表示,讓其對噪音更具穩健性?因為我們對於元素關聯進行了簡化,那麼是否存在更好的幾何關聯的表示方法?這些都是進一步優化的方向。
需要重寫的內容是:https://mp.weixin.qq.com/s/BoxlskT68Kjb07mfwQ7Swg 的連結
以上是首次超過70% mAP! GeMap:局部高精地圖SOTA再次刷新的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

iPhone上的預設地圖是Apple專有的地理位置供應商「地圖」。儘管地圖越來越好,但它在美國以外的地區運作不佳。與谷歌地圖相比,它沒有什麼可提供的。在本文中,我們討論了使用Google地圖成為iPhone上的預設地圖的可行性步驟。如何在iPhone中使Google地圖成為預設地圖將Google地圖設定為手機上的預設地圖應用程式比您想像的要容易。請依照以下步驟操作–先決條件步驟–您必須在手機上安裝Gmail。步驟1–開啟AppStore。步驟2–搜尋“Gmail”。步驟3–點選Gmail應用程式旁

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR
