目錄
写在前面&笔者的个人理解
相关工作回顾
詳解LaneSegNet
車道分段感知任務描述
LaneSegNet框架
消融實驗
結論
首頁 科技週邊 人工智慧 ICLR'24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

ICLR'24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

Jan 19, 2024 am 11:12 AM
網路 模型

写在前面&笔者的个人理解

地图作为自动驾驶系统下游应用的关键信息,通常以车道或中心线表示。然而,现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系,即车道线绑定中心线。虽然在一个模型中简单地预测两种类型的车道在学习目标中是互斥的,但本文提出将lane segment作为一种无缝结合几何和拓扑信息的新表示,因此提出了LaneSegNet。这是第一个生成lane segment以获得道路结构完整表示的端到端建图网络。LaneSegNet有两个关键的修改,一个是车道注意力模块,用于捕捉长距离特征空间内的关键区域细节。另一个是参考点的相同初始化策略,它增强了车道注意力的位置先验的学习。在OpenLane-V2数据集上,LaneSegNet在三项任务上都比以前的同类产品有显著的优势,即地图元素检测( 4.8 mAP)、车道中心线感知( 6.9 DETl)和新定义的lane segment感知( 5.6 mAP)。此外,它还获得了14.7FPS的实时推理速度。

开源链接:https://github.com/OpenDriveLab/LaneSegNet

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

总结来说,本文的主要贡献如下:

  • 本文引入了全新的lane segment感知作为一种新的地图学习公式。它包含了几何和拓扑要素。我们希望它能给领域带来新的见解。
  • 本文提出了LaneSegNet,这是一种为lane segment感知而提出的端到端网络。已经提出了两种新的修改,包括具有heads-to-regions机制的车道注意力模块,用于捕获长距离注意力,以及用于参考点的相同初始化策略,以增强车道注意力的位置先验学习。

相关工作回顾

中心线感知:来自车载传感器数据的中心线感知(与本文中的车道图学习相同)最近引起了极大的关注。STSU提出了一种类似DETR的网络来检测中心线,然后是多层感知器(MLP)模块来确定它们的连接性。在STSU的基础上,Can等人引入了额外的最小循环查询,以确保重叠行的正确顺序。CenterLineDet将中心线视为顶点,设计了通过模仿学习训练的图更新模型。值得注意的是,特斯拉提出了“车道语言”的概念,将车道图表示为一个句子。他们基于注意力的模型递归地预测车道标记及其连通性。除了这些分段方法外,LaneGAP还引入了一种使用额外转换算法恢复车道图的路径方法。TopoNet针对完整多样的驾驶场景图,对网络内中心线的连通性进行了显式建模,并将交通元素纳入任务中。在这项工作中,我们采用segment方法来构建车道图。然而,我们在建模Lane Segment而不是将中心线作为车道图的顶点方面与以往的方法不同,这允许方便地集成段级几何和语义信息。

地图元素检测:在先前的工作中,人们关注将地图元素检测从相机平面提升到3D空间,以克服投影误差。随着BEV感知的流行趋势,最近的工作专注于使用分割和矢量化方法学习高清地图。地图分割预测每个纯BEV网格的语义,如车道、人行横道和可驾驶区域。这些工作主要在透视图(PV)到BEV转换模块方面有所区别。然而,分割的地图不能提供下游模块所使用的直接信息。HDMapNet通过对具有复杂后处理的分割地图进行分组和矢量化来处理该问题。

尽管密集分割提供了像素级的信息,但它仍然无法触及重叠元素的复杂关系。VectorMapNet提出将每个地图元素直接表示为点序列,使用粗略的关键点来顺序解码车道位置。MapTR探索了一种统一的基于排列的点序列建模方法,以消除建模歧义,提高性能和效率。PivotNet进一步在集合预测框架中使用基于枢轴的表示对地图元素进行建模,以减少冗余并提高准确性。StreamMapNet利用多点注意力和时间信息来提高远程地图元素检测的稳定性。事实上,由于矢量化也丰富了车道的方向信息,因此基于矢量化的方法可以通过交替监督来容易地适应中心线感知。在这项工作中,我们为道路上的所有高清地图元素提出了一种统一的、便于学习的表示方式——车道分段。

詳解LaneSegNet

車道分段感知任務描述

Lane Segment的實例包含道路的幾何和語意麵向。至於幾何,它可以表示為由向量化的中心線及其對應的車道邊界所組成的線段:。每條線都被定義為3D空間中個點的有序集合。此外,幾何體也可以被描述為定義該車道內的可駕駛區域的閉合多邊形。

在語意方面,它包括Lane Segment類別C(例如,Lane Segment、行人交叉)和左/右車道邊界的線型(例如,不可見、實心、虛線):{}。這些細節為自動駕駛汽車提供了關於減速要求和變換車道可行性的重要見解。

此外,拓樸資訊在路徑規劃中扮演至關重要的角色。為了表示這一訊息,為Lane Segment建構了一個車道圖,表示為G=(V,E)。每個Lane Segment都是該圖中的一個節點,由集合V表示,而集合E中的邊描述了Lane Segment之間的連通性。我們使用鄰接矩陣來儲存該車道圖,其中只有當第j個Lane Segment跟隨第i個Lane Segment時,矩陣元素(i,j)才設為1;否則,它保持為0。

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

LaneSegNet框架

LaneSegNet的整體架構如圖2所示。 LaneSegNet將環視圖像作為輸入,以感知特定BEV範圍內的Lane Segment。在本節中,我們首先簡要介紹用於產生BEV特徵的LaneSeg編碼器。然後,我們介紹了車道分段解碼器和車道注意力。最後,我們提出了車道分段預測器以及訓練損失。

LaneSeg Encoder

編碼器將環視圖像轉換為BEV特徵,用於Lane Segment擷取。我們利用標準的ResNet-50主幹從原始影像中匯出特徵圖。隨後使用BEVFormer的PV到BEV編碼器模組被用於視圖轉換。

LaneSeg Decoder

基於Transformer的偵測方法利用解碼器從BEV特徵中收集特徵,並透過多層更新解碼器查詢。每個解碼器層利用自註意力、交叉注意力機制和前饋網路來更新查詢。此外,也採用了可學習的位置查詢。更新後的查詢隨後被輸出並饋送到下一階段。

由於複雜且細長的地圖幾何形狀,收集長距離BEV特徵對於線上地圖任務至關重要。先前的工作利用分層(實例點)解碼器查詢和可變形注意力來提取每個點查詢的局部特徵。雖然這種方法避免了捕獲長距離信息,但由於查詢數量的增加,隨之而來的是高昂的計算成本。

Lane Segment作為建構場景圖的車道實例表示,在實例層面上具有優越的特性。我們的目標不是使用多點查詢,而是採用單一實例查詢來表示Lane Segment。因此,核心挑戰在於如何使用單一實例查詢來交叉關注全域BEV特性。

Lane Attention:在目標偵測中,可變形注意力利用目標的位置先驗,只關注目標參考點附近的一小部分注意力值作為預濾波器,大大加速了收斂。在層迭代期間,參考點被放置在預測目標的中心,以細化注意力值的採樣位置,注意力值透過可學習的採樣偏移分散在參考點周圍。採樣偏移的有意初始化包含了二維目標之前的幾何體。透過這樣做,多分支機制可以很好地捕捉每個方向的特徵,如圖3a所示。

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

在地圖學習的脈絡下,李​​等人使用樸素的可變形注意力來預測中心線。然而如圖3b所示,由於參考點的樸素放置,它可能無法獲得lone range注意力。此外,由於目標的細長形狀和複雜的視覺線索(例如,精確預測實線和虛線之間的斷點),這個過程需要為我們的任務進行額外的自適應設計。考慮到所有這些特徵,網路有必要擁有不僅關注長範圍上下文信息,而且準確提取局部細節的能力。因此,建議將採樣位置分佈在大的區域中,以有效地感知長距離資訊。另一方面,局部細節應易於區分,以識別關鍵點。值得注意的是,雖然在單一注意力頭內的value特徵之間是競爭關係,但不同頭部之間的value特徵可以在Attention過程中保留。因此,明確利用這一屬性來促進對特定區域局部特徵的關注是有希望的。

為此,本文提出建立一個heads-to-regions機制。我們首先在Lane Segment區域內均勻分佈多個參考點。然後圍繞局部區域中的每個參考點對採樣位置進行初始化。為了保留複雜的局部細節,我們使用了多分支機制,其中每個頭都專注於局部區域內的一組特定採樣位置,如圖3c所示。

現在提供車道注意力模組的數學描述。給定BEV特徵,第i個Lane Segment查詢特徵qi和一組參考點pi作為輸入,車道注意力計算如下:

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

##參考點的相同初始化:參考點的位置是車道注意力模組功能的決定因素。為了使每個實例查詢的關注區域與其實際幾何結構和位置對齊,基於前一層的Lane Segment預測來分佈每個實例查詢中的參考點p,如圖3c所示。並迭代細化預測。

先前的工作認為,提供給第一層的參考點應該用從位置查詢嵌入推導出的可學習先驗來單獨初始化。然而,由於位置查詢與輸入影像無關,因此這種初始化方法可能會反過來限制模型記憶幾何先驗和位置先驗的能力,而錯誤生成的初始化位置也會對訓練構成障礙。

因此,對於Lane Segment解碼器的第一層,我們提出了相同的初始化策略。在第一層中,每個頭部採用由位置查詢產生的相同參考點。與傳統方法中的參考點分散式初始化(​​即為每個查詢初始化多個參考點)相比,相同的初始化將透過過濾掉複雜幾何形狀的干擾,使位置先驗的學習更加穩定。需要注意的是,相同的初始化似乎是反直覺的,但被觀察到是有效的。

LaneSeg Predictor

我們在多個預測分支中使用MLP,從Lane Segment查詢中產生最終預測的Lane Segment,同時考慮幾何、語義和拓撲方面。

對於幾何,我們首先設計了一個中心線迴歸分支來回歸中心線在三維座標中的向量化點位置。輸出的格式為。由於左右車道邊界的對稱性,我們引入了一個偏移分支來預測偏移,其格式為。因此,可以使用和來計算左右車道邊界座標。

假設車道分段可以概念化為可駕駛區域,我們將實例分段分支整合到預測器中。在語意方面,三個分類分支並行預測C的分類得分,和的得分。拓樸分支將更新的查詢特徵作為輸入,並使用MLP輸出車道圖G的加權相鄰矩陣。

訓練損失

LaneSegNet採用類似DETR的範式,使用匈牙利演算法有效地計算預測和地面實況之間的一對一最優分配。然後根據分配結果計算訓練損失。損失函數由四個部分組成:幾何損失、分類損失、laneline型分類損失和拓樸損失。

幾何損失監督每個預測Lane Segment的幾何結構。根據二分匹配結果,為每個預測的向量化Lane Segment分配一個GT Lane Segment。向量化幾何損失定義為分配的Lane Segment對之間計算的曼哈頓距離。

實驗結果

主要實驗結構

Lane Segment感知:表1中,我們在新引入的Lane Segment感知基準上,將LaneSegNet與幾種最先進的方法MapTR、MapTRv2和TopoNet進行了比較。用我們的Lane Segment標籤重新訓練他們的模型。 LaneSegNet在mAP上的表現優於其他方法高達9.6%,平均距離誤差相對降低了12.5%。 LaneSegNet-mini也超過了先前的方法,FPS更高,為16.2。

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

定性結果如圖4所示:

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

#地圖元素偵測:為了與地圖元素偵測方法進行更公平的比較,我們將LaneSegNet的預測Lane Segment分解為成對的車道,然後使用地圖元素偵測指標將其與最先進的方法進行比較。我們將拆下的車道線和行人穿越道標籤輸入到幾種最先進的方法中進行再訓練。實驗結果如表2所示,顯示LaneSegNet在地圖元素偵測任務方面始終優於其他方法。在公平的比較下,LaneSegNet可以在額外的監督下更好地恢復道路幾何形狀。這顯示Lane Segment學習表示善於捕捉道路幾何資訊。

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

中心線感知:我們也在表3中將LaneSegNet與最先進的中心線感知方法進行了比較。為了保持一致性,也從Lane Segment中提取中心線以進行重新訓練。可以得出結論,LaneSegNet在車道圖感知任務中的表現明顯高於其他方法。透過額外的地理監控,LaneSegNet也展現了卓越的拓樸推理能力。證明了推理能力與較強的定位和檢測能力密切相關。

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

消融實驗

Lane Segment公式:在表4中,我們提供消融來驗證我們提出的Lane Segment學習公式的設計優點和訓練效率。與前兩行的單獨訓練模型相比,中心線和地圖元素的聯合訓練對兩個主要指標帶來了全面的平均1.3的改進,如第4行所示,證明了多任務訓練的可行性。然而,透過添加額外的類別在單一分支中訓練中心線和地圖元素的普通方法會導致明顯的表現下降。與上述樸素單分支方法相比,我們使用Lane Segment標籤訓練的模型獲得了顯著的性能增強(對於第3行和第5行之間的比較,OLS上的7.2和mAP上的4.4),這驗證了我們的地圖學習公式中各種道路資訊之間的正交互作用。我們的模型甚至超過了多分支方法,特別是在中心線感知方面(OLS為 4.8)。這表明幾何學可以在我們的地圖學習公式中指導拓撲推理,其中多分支模型僅略微優於僅CL模型(第1行和第4行之間 0.6 OLS)。至於的小幅下降,它來自於我們預測結果的重塑過程,是由線型分類的錯誤引起的,

ICLR24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習

車道注意力模組:我們展示的注意力模組消融如表5所示。為了便於進行公平的比較,我們用替代注意力設計取代了框架中的車道注意力模組。在我們精心設計的情況下,具有車道注意力的LaneSegNet顯著優於這些方法,顯示出顯著的改進(與第1行相比,mAP提高了3.9,TOPll提高了1.2)。此外,與分層查詢設計相比,由於查詢數量的減少,解碼器延遲可以進一步減少(從23.45ms減少到20.96ms)。

結論

本文提出了Lane Segment感知作為一種新的地圖學習公式,並提出了LaneSegNet,一種專門針對這一問題的端到端網路。除了網路之外,還提出了兩個創新的增強功能,包括車道注意力模組,該模組採用頭到區域機制來捕捉長距離注意力,以及參考點的相同初始化策略,以增強車道注意力的位置先驗學習。在OpenLane-V2資料集上的實驗結果證明了我們設計的有效性。

限制和未來工作。由於計算限制,我們沒有將所提出的LaneSegNet擴展到更多的額外主幹。 Lane Segment感知和LaneSegNet的發展可能有利於下游任務,值得未來探索。

以上是ICLR'24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

網路連不上wifi怎麼回事 網路連不上wifi怎麼回事 Apr 03, 2024 pm 12:11 PM

1.檢查wifi密碼:確保自己輸入的wifi密碼是正確的,並注意區分大小寫。 2.確認wifi是否正常運作:檢查wifi路由器是否正常運作,可將其他裝置連接至相同路由器,以確定問題是否出在裝置上。 3.重新啟動設備和路由器:有時候,設備或路由器發生故障或網路問題,重新啟動設備和路由器可能會解決問題。 4.檢查設備設定:確保設備無線功能為開啟狀態,且未將wifi功能停用。

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles