端到端競賽是當今科技領域備受矚目的趨勢,理想汽車在此方面是否有所作為? php小編柚子將為大家深入探討理想汽車在端到端的佈局,從PPT展示到實際落地,一探其端倪。
「端到端」的風正在席捲中國智駕產業。
進入 2024 年下半年,如果有車企談智能駕駛時不談“端到端”,那大概率會被視為落後了。
7月5日,理想汽車發布了基於端到端模型、VLM 視覺語言模型和世界模型的全新自動駕駛技術架構。這基本上是理想汽車端對端路徑的方法論輸出,較為完整呈現理想智駕下一步發展路徑。
在虎嗅汽車看來,這次發布有三大值得關注的焦點——理想的「端到端」和其它玩家的有何不同?理想的智駕研發到了什麼程度?以及,理想為何在此時強調智駕技術能力?
相較華為,理想方案更為激進
先看理想全新的自動駕駛技術架構。其受諾貝爾獎得主丹尼爾·卡尼曼的快慢系統理論啟發,在自動駕駛領域模擬人類的思考和決策過程,採用了“快系統”和“慢系統”進行協同。
快系統,即係統 1,善於處理簡單任務,是人類基於經驗和習慣形成的直覺,足以應對駕駛車輛時 95% 的常規場景。
慢系統,即係統2,是人類透過更深入的理解與學習,形成的邏輯推理、複雜分析和計算能力,在駕駛車輛時用於解決複雜甚至未知的交通場景,佔日常駕駛的約5%。
在這架構原型下,系統 1 由端到端模型實現,透過接收感測器輸入,並直接輸出行車軌跡用於控制車輛。系統 2 由 VLM 視覺語言模型實現,其接收感測器輸入後,經過邏輯思考,輸出決策訊息給到系統 1。雙系統構成的自動駕駛能力將在雲端利用世界模型進行訓練和驗證。
據理想的說法,其係統 1 的端到端模型採用的是 One Model 方案,主要由攝影機和雷射雷達構成,多感測器特徵經過 CNN 主幹網路的提取、融合,投影至 BEV 空間。
另外理想在輸入端還加入了車輛狀態資訊和導航訊息,經過 Transformer 模型的編碼,與 BEV 特徵共同解碼出動態障礙物、道路結構和通用障礙物,並規劃出行車軌跡。
相較於華為、小鵬等廠商採用的是分段式端到端方案,理想採用的 One Model 方案更為激進。特斯拉同樣是 One Model 方案,但其「輸入影像、輸出控制」的方案比理想的「輸入感測器資訊、輸出行車軌跡」更進一步。
需要指出的是,目前各廠商在端到端上採取不同的路徑只是選擇上的差異,並無優劣之分。 (關於端到端的技術原理,虎嗅汽車團隊曾在《特斯拉,要跟華為開戰了》一文中有過詳細解析)
理想這套架構的特別之處其實是系統2,其基於的VLM 視覺語言模型的演算法架構由一個統一的Transformer 模型組成,將Prompt(提示詞)文字進行Tokenizer(分詞器)編碼,並將前視相機的圖像和導航地圖資訊進行視覺資訊編碼,再透過圖文對齊模組進行模態對齊,最終統一進行自回歸推理,輸出對環境的理解、駕駛決策和駕駛軌跡,傳遞給系統1 輔助控制車輛。
在實際場景中,如果系統二發現行駛過程中地面路面非常坑洼不平時候,其會給系統1 發一個降速的提醒,並告知駕駛員前方的坑洼路車輛將慢速行駛,減少顛簸;又或者是能夠識別公車道的位置以及辨別潮汐車道等。
用理想的話說,系統 2 相當於副駕坐了個駕訓班的教練時刻監督駕駛行為。值得一提的是,小鵬的大語言模型 XBrain、毫末的自動駕駛語意感知大模型也有類似能力。
據悉,理想的 VLM 模型參數量達到 22 億,VLM 模型在車端的推理時間也從 4.1 秒最佳化至 0.3秒。
雙系統之外,理想也介紹了端到端方案的測試和驗證方法。業界主流的做法是透過 3D 虛擬環境、重建式模擬、生成式模擬等進行模擬測試。理想的做法則是結合了重建模擬和產生模擬兩種技術路徑,相當於做了重建的真題和產生的模擬題。
事實上,特斯拉也利用了大模型生成連續視頻,打造World Model 即世界模型;自動駕駛公司Wayve 的自動駕駛大模型GAIA-1(已擁有90 億個參數)也同樣可以生成駕駛場景視頻,描述場景以及做出預測。
總的來看,理想的技術架構是在車端佈局雙系統,ONE Model 的端到端模型讓其自動駕駛系統擁有了像人類老司機的行為能力;VLM 模型能夠讓自動駕駛系統擁有像人類一樣的邏輯思考能力;而世界模型則是提供了學習和考試的環境,擁有快速迭代的能力。
據理想智慧駕駛負責人郎咸朋透露,其端到端方案從去年下半年就在內部孵化並啟動預研,目前已經完成了模型的原型驗證和實車的部署。
不過,這項方案還難以交付給用戶,理想在本月給AD Max 用戶的,是推送無圖 NOA 方案。
智能駕駛迎來超車時刻
「端到端」正成為各廠商智慧駕駛追逐戰的重要方向。
今年3 月,元戎啟行能夠將端到端模型成功上車;華為在4 月發布乾崑3.0 時就表示技術轉向GOD/PDP 網路全新架構,實現預決策規劃一張網;小鵬5月在AI DAY 宣布端到端大模型已經量產上車。另外,包括蔚來、小米、小鵬等廠商都對智駕團隊進行了調整以進行端到端的佈局。
可以看到,包括特斯拉在內的各家廠商在端到端技術方向上目前都處在探索當中,儘管在方案、路徑上的選擇各有不同,但可以肯定的是,端到端已經成為智駕前進的方向。
不過,端到端會放大智駕系統的上限與下限,其能夠帶來智駕能力提升的同時,也帶來的難以解決的安全問題,端到端是一個神經網路黑箱,其不可解釋性帶來了一部分安全隱憂。
在各家爭相佈局之際,理想是首個公開端到端技術方案的車企,李想本人上個月在重慶論壇就公開了兩大系統的做法引起了業內熱議,此次更是將全套技術架構方案公示,可謂趁熱打鐵。
考慮到理想在下半年不會有新品發布,其率先在智駕能力上的輸出既能讓企業保持熱度,或也有維持其現有產品競爭力的考量。另外,端到端技術路徑的佈局也給了理想在智駕能力上追趕的機會。
相較於華為、小鵬等採用分段式端到端做法,理想的端到端模型實現難度更大,其從PPT到走向量產落地要耗時多久,效果如何,還需要保持觀察。
根據辰韜資本發布的《端到端自動駕駛產業研究報告》,國內自動駕駛公司的模組化端到端方案上車量產時間可能會在 2025年。是騾子是馬,明年就到了拉出來遛遛的時候了。
文章內容舉報
本文轉載於快科技,文中觀點僅代表作者個人看法,本站只做資訊儲存
以上是理想加入「端到端」競賽:雖只是PPT的詳細內容。更多資訊請關注PHP中文網其他相關文章!