邁向『閉環』| PlanAgent:基於MLLM的自動駕駛閉環規劃新SOTA!
中科院自動化所深度強化學習團隊聯合理想汽車等提出了一種新的基於多模態大語言模型MLLM的自動駕駛閉環規劃框架—PlanAgent。此方法以場景的鳥瞰圖和基於圖的文本提示為輸入,利用多模態大語言模型的多模態理解和常識推理能力,進行從場景理解到橫向和縱向運動指令生成的層次化推理,並進一步產生規劃器所需的指令。在大規模且具有挑戰性的nuPlan基準上對該方法進行了測試,實驗表明PlanAgent在常規場景和長尾場景上都取得了最好(SOTA)性能。與常規大語言模型(LLM)方法相比,PlanAgent所需的場景描述詞符(token)量僅為1/3左右。
論文資訊
- 論文主題:PlanAgent: A Multi-modal Large Language Agent for Closed loop Vehicle Motion Planning
- 論文發表單位:中科院自動化所,理想汽車,清華大學,北京航空航天大學
- 論文地址:https://arxiv .org/abs/2406.01587
1 引言
作為自動駕駛的核心模組之一,運動規劃的目標是產生一條安全舒適的最優軌跡。基於規則的演算法,如PDM[1]演算法,在處理常見場景時表現良好,但往往難以應對需求更複雜駕駛操作的長尾場景[2]。基於學習的演算法[2,3]常常會在長尾情況下過度擬合,導致其中在nuPlan中的表現並不如基於規則的方法PDM。
最近,大語言模型的發展為自動駕駛規劃開啟了新的可能性。最新的一些研究嘗試利用大語言模型強大的推理能力來增強自動駕駛演算法的規劃和控制能力。然而,它們遇到了一些問題:(1)實驗環境未能基於真實關閉環境場景(2)使用數量的座標數字表示地圖細節或運動狀態,大大增加了所需的詞符(token)數量;(3 )由大語言模型直接產生軌跡點難以確保安全。為因應上述挑戰,本文提出了PlanAgent方法。
2 方法
基於MLLM的閉迴路規劃智能體PlanAgent架構如圖1所示,本文設計了三個模組來解決自動駕駛中的複雜問題:
- 場景資訊擷取模組(Environment Transformation module):為了實現高效率的場景資訊表示,設計了一個環境資訊擷取模組,能夠擷取具有車道資訊的多模態輸入。
- 推理模組(Reasoning module):為了實現場景理解和常識推理,設計了一個推理模組,該模組利用多模態大語言模型MLLM產生合理且安全的規劃器代碼。
- 反思模組(Reflection module):為了保障安全規劃,設計了一個反思機制,能夠透過模擬對規劃器進行驗證,過濾掉不合理的MLLM提案。
圖1 PlanAgent的整體框架,包含情境資訊擷取/推理/反思模組
2.1 環境資訊擷取模組
大語言模型中的提示詞(prompt)對其產生輸出的品質有著重要的影響。為了提高MLLM的生成質量,場景資訊提取模組能夠提取模組能夠提取場景上下文訊息,並將其轉換為鳥現圖(BEV)圖像和文字表示,使其與MLLM的輸入保持一致。首先,本文將場景資訊轉換成鳥現圖(BEV)影像,以增強MLLM對全域場景的理解能力。同時,需要對道路資訊進行圖表徵,如圖 2所示,在此基礎上提取關鍵車輛輛運動訊息,使MLLM能夠足夠重點關注與自身位置最相關的區域。
圖2 基於圖形表徵的文字提示描述
2.2 推理模組
如何將大語言模式的推理能力引入自動駕駛規劃過程中,實現具有常識推理能力的規劃系統是一個關鍵問題。本文設計的方法能夠以包含當前場景資訊的使用者訊息和預先定義的系統訊息為輸入,經過分層思維鏈多輪推理,產生智慧駕駛員模型(IDM)的規劃器程式碼。由此,PlanAgent能夠透過情境學習將MLLM強大的推理能力嵌入自動駕駛規劃任務中。
其中,用戶訊息包括BEV編碼和基於圖表徵提取出來的周圍車輛運動資訊。系統訊息包括任務的定義、常識知識以及思考鏈步驟,如圖 3所示。
圖3 系統提示模版
在得到prompt資訊後, MLLM會對目前場景從三個層次進行推理:場景理解、運動指令和程式碼生成,最後產生規劃器的程式碼。在PlanAgent中,會產生跟車、中心線、速度限制、最大加速度和最大減速度參數代碼,再由IDM產生某一場景下的瞬時加速度,最終由此產生軌跡。
# 2.3 反思模組
透過上述兩個模組強化了MLLM對場景的理解與推理能力。然而,MLLM的幻覺仍然對自動駕駛的安全構成了挑戰。受到人類「三思而後行」決策的啟發,本文在演算法設計中加入了反思機制。對MLLM產生的規劃器進行模擬模擬,並透過碰撞可能性、行駛距離、舒適度等指標評估此規劃器的駕駛分數。當得分低於某個閾值τ時,表示MLLM產生的規劃器欠妥,MLLM將被要求重新產生規劃器。
3 實驗與結果
本文在大規模真實情境的閉迴路規劃平台nuPlan[4]進行閉迴路規劃實驗,以評估PlanAgent的性能,實驗結果如下。
3.1 主要實驗
表1 PlanAgent與其他演算法在nuPlan的val14和test-hard基準上的比較
如表1所示,本文將所提出的PlanAgent和三類最前沿的演算法進行比較,並在nuPlan的兩個基準val14和test-hard上進行測試。 PlanAgent與其他方法相比表現出了有競爭力和可泛化的結果。
- 有競爭力的結果:在常見場景val14基準上,PlanAgent優於其他基於規則、基於學習和基於大語言模型的方法,在NR-CLS和R-CLS中都取得了最好的評分。
- 可泛化的結果:以PDM-Closed[1]為代表的規則類別方法和以planTF[2]為代表的學習類別方法都不能同時在val14和test -hard上表現良好。與這兩類方法相比PlanAgent能夠在克服長尾場景的同時,確保常見場景中的表現。
表2 不同方法描述場景所用token比較
同時,PlanAgent比其他基於大模型的方法所使用的token數量較少,如表2,大概只需要GPT-Driver[5]或LLM-ASSIST[6]的1/3。這表明PlanAgent能夠用較少的token更有效地對場景進行描述。這對於閉源大語言模型的使用尤其重要。
3.2 消融實驗
表4 分層思維鏈中不同部分的消融實驗
#如表3和表4,本文對場景資訊擷取模組和推理模組中不同部分進行了消融實驗,實驗證明了各個模組的有效性和必要性。透過BEV影像和圖表徵兩種形式可以增強MLLM對場景的理解能力,透過分層思考鏈能增強MLLM對場景的推理能力。
表5 PlanAgent在不同語言模型上的實驗
##同時,如表5所示,本文使用了一些開源大語言模型進行測試。實驗結果表明,在Test-hard的NR-CLS基準上,PlanAgent使用不同的大語言模型分別能夠比PDM-Closed的駕駛分數高出4.1%、5.1%和6.7%。這證明了PlanAgent與各種多模態大語言模型的兼容性。
3.3 視覺化分析
#環島通行場景PDM選擇外側車道作為centerline,車輛靠外側車道行駛,在車輛匯入時卡住。 PlanAgent判斷有車輛匯入,輸出合理的左換道指令,並產生橫向動作選擇環島內側車道為centerline,車輛靠內側車道行駛。
PDM選擇了紅綠燈類別為跟車類別。 PlanAgent輸出合理指令,選擇停止線為跟車類別。
4 結論
本文提出了一個新的基於MLLM的自動駕駛閉環規劃框架,稱為PlanAgent。該方法引入了一個場景資訊提取模組,用於提取BEV圖像,並基於道路的圖表徵提取周圍車輛的運動資訊。同時提出了一個具有層次結構的推理模組,用於指導MLLM理解場景資訊、產生運動指令,最終產生規劃器程式碼。此外,PlanAgent也模仿人類決策進行反思,當軌跡評分低於閾值時進行重規劃,以加強決策的安全性。基於多模態大模型的自動駕駛閉環規劃智能體PlanAgent在nuPlan基準上取得了閉環規劃SOTA性能。
以上是邁向『閉環』| PlanAgent:基於MLLM的自動駕駛閉環規劃新SOTA!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

一先導與重點文章主要介紹自動駕駛技術中幾種常用的座標系統,以及他們之間如何完成關聯與轉換,最終建構出統一的環境模型。這裡重點理解自車到相機剛體轉換(外參),相機到影像轉換(內參),影像到像素有單位轉換。 3d向2d轉換會有對應的畸變,平移等。重點:自車座標系相機機體座標系需要被重寫的是:平面座標系像素座標系難點:要考慮影像畸變,去畸變和加畸變都是在像平面上去補償二簡介視覺系統一共有四個座標系:像素平面座標系(u,v)、影像座標系(x,y)、相機座標系()與世界座標系()。每種座標系之間均有聯繫,

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p
