Wayformer: 一個實現運動預測簡單有效的注意力網絡
arXiv論文“Wayformer: Motion Forecasting via Simple & Efficient Attention Networks“,2022年7月上傳,是GoogleWaymo的工作。
自動駕駛的運動預測是一項具有挑戰性的任務,因為複雜的駕駛場景會導致靜態和動態輸入的各種混合形式。如何最好地表示和融合有關道路幾何形狀、車道連通性、時變交通信號燈狀態以及智體的動態集及其交互的歷史信息,並將其轉換為有效的編碼,這是一個尚未解決的問題。為了對這組多樣輸入特徵進行建模,有許多方法設計具有不同特定模態模組集的同樣複雜系統。這導致系統難以擴展、規模化或以嚴格方式在品質和效率之間權衡。
本文的Wayformer,是一系列簡單且同類的基於注意力運動預測架構。 Wayformer提供了一個緊湊的模型描述,由基於注意力的場景編碼器和解碼器組成。在場景編碼器中,研究了輸入模式的前融合、後融合和分層融合的選擇。對於每種融合類型,探索透過分解注意力或潛在query注意力來權衡效率和品質的策略。前融合結構簡單,不僅模態不可知,而且在Waymo開放運動資料集(WOMD)和Argoverse排行榜上都實現了最先進的結果。
駕駛場景由多模態資料組成,例如道路資訊、紅綠燈狀態、智體歷史和互動。對於模態,有一個上下文第4維,表示每個建模智體的「一組上下文目標」(即其他道路使用者的表示)。
智體歷史包含一系列過去的智體狀態以及當前狀態。對於每個時間步,考慮定義智體狀態的特徵,例如x、y、速度、加速、邊框等,還有一個上下文維度。
交互張量表示智體之間的關係。對於每個建模的智體,考慮建模智體周圍的固定數量最鄰近上下文。這些上下文智體表示影響建模智體行為的智體。
道路圖包含智體周圍的道路特徵。道路圖線段表示為多段線,由其端點指定並以類型資訊註釋的線段集合,可近似道路形狀。採用最接近建模智體的道路圖線段。請注意,道路特徵沒有時間維度,可加入時間維度1。
對於每個智體,交通燈資訊包含最接近該智體的交通號誌狀態。每個交通號誌點具有描述號誌位置和置信度的特徵。
Wayformer模型系列,由兩個主要元件組成:場景編碼器和解碼器。場景編碼器主要由一個或多個注意力編碼器組成,用於總結駕駛場景。解碼器是一個或多個標準transformer交叉注意模組,其輸入學習的初始query,然後與場景編碼交叉注意產生軌跡。
如圖顯示Wayformer模型處理多模態輸入產生場景編碼:此場景編碼用作解碼器的上下文,產生覆蓋輸出空間多模態的k條可能軌跡。
場景編碼器的輸入多樣性使這種整合變成一項不平凡的任務。模態可能不會以相同的抽象層級或尺度來表示:{像素pixels vs 目標 objects}。因此,某些模態可能需要比其他模態更多的計算。模態之間計算分解是取決於應用的,對工程師來說非常重要。這裡提出三個融合層次來簡化這個過程:{後,前,分級},如圖所示:
後融合是運動預測模型最常用的方法,其中每個模態都有自己的專用編碼器。將這些編碼器的寬度設定相等,避免在輸出中引入額外的投影層。此外,在所有編碼器中共享相同深度,探索空間縮小到可管理的範圍。只允許在軌跡解碼器的交叉注意層跨模態傳輸訊息。
前融合不是將自註意編碼器專用於每個模態,而是減少特定模態的參數到投影層。圖中場景編碼器由單一自註意編碼器(「跨模態編碼器」)組成,網路在跨模態分配重要性時具有最大的彈性,同時具有最小的歸納偏差。
分層融合作為前兩個極端之間的折衷,體積以層次化的方式在模態特定的自註意編碼器和跨模態編碼器之間分解。正如在後融合所做的那樣,寬度和深度在註意編碼器和跨模態編碼器中共享。這有效地將場景編碼器的深度在模態特定編碼器和跨模態編碼器之間分攤。
由於以下兩個因素,Transformer網路無法很好地擴展到大型多維序列:
- (a)自註意對輸入序列長度是二次方。
- (b) 位置前饋網路是昂貴的子網路。
在下面討論加速方法,(S為空間維度,T為時域維度),其框架如圖所示:
多軸注意(Multi-Axis Attention):這是指預設的transformer設置,同時在空間和時間維度上應用自註意,預計是計算成本最高的。具有多軸注意的前、後和分層融合的計算複雜度為O(Sm2×T2)。
分解注意 (Factorized attention):自註意的計算複雜度是輸入序列長度的二次方。這在多維序列中變得更加明顯,因為每個額外維度都會透過乘法因子增加輸入的大小。例如,有些輸入模態有時間和空間維度,因此計算成本規模為O(Sm2×T2)。為了緩解這種情況,請考慮沿著兩個維度分解注意。此方法利用輸入序列的多維結構,透過在每個維度單獨應用自註意,將自註意子網路的成本從O(S2×T2)降低到O(S2) O(T2)。
雖然與多軸注意相比,分解注意有可能減少計算量,但將自註意應用到每個維度的順序時引入複雜性。這裡比較兩種分解注意範式:
- 順序注意(sequential attention):一個N層編碼器由N/2個時間編碼器區塊和另一個N/2個空間編碼器區塊組成。
- 交錯注意(Interleaved attention):N層編碼器由時間和空間編碼器區塊交替N/2次組成。
潛查詢注意(Latent query attention):解決大輸入序列計算成本的另一種方法是在第一個編碼器區塊中使用潛查詢,其中輸入映射到潛空間。這些潛變數由一系列編碼器區塊做進一步處理,這些編碼器區塊接收然後返回該潛空間。這樣可以完全自由地設定潛空間分辨率,減少每個區塊中自註意分量和位置前饋網路的運算成本。將縮減量(R=Lout/Lin)設定為輸入序列長度的百分比。在後融合和分層融合中,所有註意編碼器的折減因子R保持不變。
Wayformer預測器輸出高斯混合,表示智體可能採取的軌跡。為了產生預測,用Transformer解碼器,輸入一組k個學習的初始query(Si)並與編碼器的場景嵌入做交叉注意,為高斯混合的每個分量產生嵌入。
給定混合中一個特定成分的嵌入,一個線性投影層產生該成分的非規範對數似然,估計整個混合似然。為了產生軌跡,用另一個線性層投影,輸出4個時間序列,對應每個時間步預測高斯的平均值和對數標準差。
在訓練期間,將損失分解為各自分類和回歸損失。假設k個預測高斯,訓練混合似然,最大化真實軌跡的對數機率。
如果預測器輸出具有多個模式的混合高斯,則很難進行推理,基準測度通常會限制所考慮的軌跡數。因此,在評估過程中,應用軌跡聚合,減少所考慮的模態數量,同時仍保持原始輸出混合的多樣性。
實驗結果如下:
#注意
#「
以上是Wayformer: 一個實現運動預測簡單有效的注意力網絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
