2024年,端到端自動駕駛在國內是否會有實質的突破與進展?
並非所有人都能理解Tesla V12在北美大規模推送以及憑藉其優良的表現開啟獲得越來越多用戶認同的局面,端到端自動駕駛也成為自動駕駛行業里大家最為關注的技術方向。最近有機會和許多行業中的一流工程師、產品經理、投資者、媒體人進行了一些交流,發現大家對端到端自動駕駛很感興趣,但甚至在一些對端到端自動駕駛的基本理解上還存在著這樣那樣的迷思。作為有幸體驗過國內一線品牌有圖無圖城市功能,同時又體驗過FSD V11和V12兩個版本的人,在這裡我想結合自己專業背景和對Tesla FSD常年的進展跟踪,談談幾個現階段大家談及端對端自動駕駛的常見誤解,並給出我自己對於這些問題的解讀。
疑惑一:端對端感知,端到端決策規劃都可以算是端對端自動駕駛?
從感測器輸入開始到規劃然後控制訊號輸出的過程中所有的步驟都是端到端可導,這樣整個系統可以作為一個大模型進行訓練,通過梯度下降的訓練,透過梯度反向傳播可以在模型訓練期間對模型從輸入到輸出之間的所有環節進行參數更新優化,從而能夠針對使用者直接感知到的驅動決策軌跡優化整個系統的驅動行為。而最近一些友商在宣傳端到端的自動駕駛的過程中聲稱自己是端到端感知,或者端到端的決策,但這二者其實我認為都不能算作是端到端的自動駕駛,而只能被稱作純粹數據驅動的感知和純粹數據驅動的決策規劃。
某些人可能會根據特定模型做出決策,並結合傳統方法來進行安全校驗和軌跡最佳化的混合策略,也稱為端到端規劃。此外,有說法認為Tesla V12並不是純粹精確的模型輸出控制訊號,應該也是結合了一些規則方法的混合策略。根據就是http://X.com上的著名Green前段時間發過一條twitter稱在V12技術棧裡還是能夠發現規則的程式碼。對此我的理解是Green發現的程式碼很可能是V12高速技術棧保留的V11版本程式碼,因為我們知道目前V12其實只是用端到端取代了原本城市技術棧,高速仍會沿用V11的方案,因此在解開的程式碼中找到一些規則碼的只言片語並不代表V12是假“端到端”,而是找到的很可能是高速的程式碼。實際上我們從2022年的AI Day上就可以看出,V11及之前的版本已經是混合方案,因此V12如果不是徹底的模型直出軌跡,那麼方案上就和之前的版本差別不大,如果是這樣V12的性能跳躍性提升又沒有法合理的解釋了。關於Tesla之前的方案可參考我在AI Day解讀EatElephant:Tesla AI Day 2022 -- 世字解讀:塪稱自動駕駛春晚,去中心化的研發團隊,麎心勃勃的向AI技術公司轉型。
從2022年AI Day來看,V11已經是混合了NN Planner的規劃方案
總的來說,無論是感知後處理程式碼,還是規則的候選軌跡評分,甚至是安全兜底策略,一旦引入了規則的代碼,有了if else的分支,整個系統的穩定傳遞就會被截斷,這也就損失了端到端系統通過訓練獲得全域最佳化的最大優勢。
疑惑二:端到端是對之前技術的推倒重來?
另一個常見的誤解是端到端就是推翻了之前積累的技術進行徹底的新技術的革新,並且很多人覺得已然Tesla剛剛實現了端到端自動駕駛系統的用戶推送,那麼其他廠商根本不用再在原本感知、預測、規劃的模組化技術棧上迭代,大家直接進入端到端的系統,反而可以藉鑑後發優勢快速追上甚至超越Tesla。確實以一個大模型來完成從感測器輸入到規劃控制訊號的映射是最徹底的端到端,也很早就有公司嘗試過類似的方法,例如Nvidia的DAVE-2和Wayve等公司就使用了類似的方法。這種徹底的端到端技術確實更接近黑盒,很難進行debug和迭代優化,同時由於感測器輸入訊號如影像、點雲等是非常高維度的輸入空間,輸出控制訊號如方向盤轉角和油門制動踏板是相對低維度的輸出空間,導致實車測試完全無法使用。
徹底的端對端系統也會使用一些常見的如語意分割,深度估計等輔助任務幫助模型收斂和debug
#因此我們實際看到的FSD V12保留了幾乎所有先前的視覺化內容,這表明FSD V12是在原本強大的感知基礎上進行的端到端訓練,從2020年10月開始的FSD迭代並沒有被拋棄,反而成為了V12堅實的技術基礎。 Andrej Karparthy之前也回答過類似問題,他雖然沒有參與V12的研發,但他認為所有先前的技術累積並沒有被拋棄,只是從台前遷移到了幕後。因此端到端是在原有技術基礎上一步步去掉個部分的規則程式碼逐漸實現的端對端導航。
V12保留了FSD幾乎所有的感知,只取消了椎桶等有限的可視化內容
##疑惑三:學術Paper中的端到端能否遷移到實際產品?
UniAD成為2023年CVPR Best Paper無疑代表了學術界對端到端的自動駕駛系統寄予的厚望。從2021年Tesla介紹了其視覺BEV感知技術的創新後,國內學術界在自動駕駛BEV感知方面投入了非常大的熱情,並誕生了一些列研究,推動了BEV方法的性能優化和落地部署,那麼端到端是否也能走一條類似的路線,由學術界引領,產業界跟隨從而推動端到端技術在產品上的快速迭代落地呢?我認為是比較難的。首先BEV感知還是一個相對模組化的技術,更多是演算法層面,且入門級效能對資料量的需求沒有那麼高,高品質的學術開源資料集Nuscenes的推出為許多BEV研究提供了便利的前置條件,在Nuscenes上迭代的BEV感知方案雖然無法達到產品級性能要求,但是作為概念驗證和模型選型,是具有很大借鑒價值的。然而學術界缺乏大規模的端到端可用數據。目前最大規模的Nuplan數據集包含了4個城市1200小時的實車採集數據,然而在2023年的一次財報會議上,Musk表示對於端到端的自動駕駛「訓練了100萬個視頻case,勉強可以工作;200萬個,稍好一些;300萬個,就會感到Wow;到了1000萬個,它的表現就變得難以置信了」。 Tesla的Autopilot回傳數據普遍認為是1min的片段,那麼入門級別的100w視頻case大概就是16000小時,比最大的學術數據集至少多一個數量級以上,這裡還是要注意nuplan是連續採集數據,因此在數據的分佈和多樣性上有著致命的缺陷,絕大多數數據都是簡單場景,這也意味著使用nuplan這樣的學術數據集甚至無法獲得一個能夠勉強上車的版本。疑惑四:端到端自動駕駛只是一次演算法革新?
最後端對端不只是一個新的演算法那麼簡單。模組化的自動駕駛系統不同模組的模型可以使用各自任務的資料分別迭代訓練,然而端到端系統各個功能是同時進行訓練的,這就要求訓練資料具有極高的一致性,每條資料要對所有子任務標籤都進行標註,一旦一種任務標註失敗,那麼這條數據就很難在端到端訓練任務中使用了,這對於自動標註Pipeline的成功率和性能提出了極高的要求。其次端到端系統因為需要所有模組都達到一個較高的效能水準才能在端到端的決策規劃輸出任務中達成較好的效果,因此普遍認為端到端系統資料門檻遠高於各個單一模組的數據需求,而數據的門檻不僅是對絕對數量的要求,還對於數據的分佈和多樣性要求極高,這就是得自己沒有車輛的完全控制權,不得不適配多個擁有不同車型客戶的供應商在開發端到端系統時候可能會遇到較大的困難。在算力門檻上,Musk曾在今年三月初在http://X.com上表示目前FSD的最大限制因素是算力,而在最近馬老闆則表示他們的算力問題得到了很大的環節,幾乎就在同一時間在2024年Q1財報會議上Tesla透露如今他們已經擁有35000塊H100的計算資源,並透漏在2024年底這一數字將達到85000塊。毫無疑問Tesla擁有非常強大的算力工程優化能力,這意味著要達到FSD V12目前的水平,大概率35000塊H100和數十億美金的基礎設施資本開銷是必要前提,如果在算力使用方面不如Tesla高效,那麼可能這項門檻會被進一步拔高。
3月初馬斯克表示FSD的迭代主要限制因素是算力
4月初馬斯克表示今年Tesla在算力方面的總投入將超過100億美元
另外在http://X.com有網友分享了一張Nvidia汽車行業的高管Norm Marks在今年某次會議的截圖,從中可以看出截止到2023年底,Tesla所擁有的NV顯示卡數量在長條圖上是完全爆表的存在(左圖最右側綠的箭頭,中間文字說明了這個排名第一的OEM所擁有的NV顯示卡數>7000個DGX節點,這個OEM顯然就是Tesla,每個節點依照8卡計算,23年底Tesla大概有A100顯示卡超過56000卡,比排名第二的OEM多出四倍以上,這裡我理解不包括2024年新購入的35000卡新款H100),再結合美國對出口中國顯示卡的限制政策,想要趕上這一算力的難度變得更加困難。
Norm Marks在某次內部分享截圖,來源X.com@ChrisZheng001
除了上述資料算力挑戰外,端到端的系統會遇到什麼樣的新挑戰,如何保證系統的可控性,如何儘早發現問題,透過數據驅動的方式解決問題,並且在無法利用規則代碼的情況下快速迭代,目前對於絕大多數自動駕駛研發團隊而言都是一個未知的挑戰。
最後端到端對於現在的自動駕駛研發團隊還是一個組織變革,因為從L4自動駕駛以來,絕大多數自動駕駛團隊的組織架構是模組化的,不僅分為感知組,預測組,定位組,規劃控制組,甚至感知組還分視覺感知,雷射感知等等。而端到端的技術架構直接幹掉了不同模組間的介面壁壘,使得研發端到端的團隊需要整合全部人力資源來適應新的技術範式,這對不夠靈活的團隊組織文化是一個極大的挑戰。
以上是2024年,端到端自動駕駛在國內是否會有實質的突破與進展?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

一先導與重點文章主要介紹自動駕駛技術中幾種常用的座標系統,以及他們之間如何完成關聯與轉換,最終建構出統一的環境模型。這裡重點理解自車到相機剛體轉換(外參),相機到影像轉換(內參),影像到像素有單位轉換。 3d向2d轉換會有對應的畸變,平移等。重點:自車座標系相機機體座標系需要被重寫的是:平面座標系像素座標系難點:要考慮影像畸變,去畸變和加畸變都是在像平面上去補償二簡介視覺系統一共有四個座標系:像素平面座標系(u,v)、影像座標系(x,y)、相機座標系()與世界座標系()。每種座標系之間均有聯繫,

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR
