佐思汽研發布《2022年中國自動駕駛資料閉環研究報告》。
#如今,自動駕駛感測器方案及運算平台已日益同質化,供應商技術差距日益收窄。近兩年自動駕駛技術迭代快速推進,量產落地加速。根據佐思資料中心,2021年,國內L2級輔助駕駛乘用車上險量累計達479.0萬輛,較去年同期成長 58.0%。 2022年1-6月,中國L2級輔助駕駛在乘用車新車市場滲透率攀升至32.4%。
對於自動駕駛而言,資料貫穿研發、測試、量產、營運維護等全生命週期。伴隨智慧網聯汽車感測器數量的快速增加,ADAS和自動駕駛車輛數據的產生量也呈現指數級增長,從GB到TB、PB、EB直至未來的ZB。以數據驅動的汽車進化,滿足使用者個人化的需求,車企才能走實走遠。
根據《汽車採集資料處理安全指南》,汽車採集資料是指汽車感測設備、控制單元收集的數據,以及對其進行加工後產生的數據,可細分為車外資料、座艙資料、運轉資料和位置軌跡資料等。
根據網信辦2021年8月頒布的《汽車資料安全管理若干規定(試行)》對汽車資料收集、分析、儲存、傳輸、查詢、應用、刪除等全流程做了詳細的規定。在進行汽車資料處理過程中堅持「車內處理」、「預設不收集」、「精確度範圍適用」、「脫敏處理」等資料處理原則,減少對汽車資料的無序收集和違規濫用。在自動駕駛技術開發過程中,資料收集及處理等首先要合法合規。
#從汽車攝影機、毫米波雷達、雷射雷達及超音波雷達收集來的大量非結構化資料(影像、視訊、語音)可能是原始的和混亂的。為使資料有意義,需對其進行清理、結構化與整理。首先將來自多個來源的資料匯入適當的儲存庫,標準化資料格式,並根據相關規則進行聚合。而後檢查損壞、重複或遺失的資料點,並丟棄可能影響資料集整體品質的不必要的資料。最後,用標籤對在不同條件下捕捉的影片進行分類,例如白天、夜晚、晴天、下雨等。此步驟提供了將用於訓練、驗證的清洗後的結構化資料。
對資料收集後經過清洗的結構化資料需要進行標註。標註是將編碼值分配給原始資料的過程。編碼值包括但不限於分配類別標籤、繪製邊界框和標記物件邊界。需要高品質的標註來教導監督學習模型物件是什麼以及測量訓練模型的表現。
在自動駕駛領域,資料標註處理的場景通常包括換道超車、透過路口、無紅綠燈控制的無保護左轉、右轉,以及一些複雜的長尾場景諸如闖紅燈車輛、橫越馬路的行人、路邊違規停靠的車輛等。
常用的標註工具包括圖片通用拉框、車道線標註、駕駛臉部標註、3D點雲標註、2D/3D融合標註、全景語意分割等。由於大數據的發展和大型資料集數量的增加,資料標註工具的使用不斷迅速擴大。
#如今,資料擷取的頻率已進入毫秒級,需要的是數千個訊號維度(如總線訊號、感測器內部狀態、軟體埋點、使用者行為及環境感知資料等)的高精度數據,同時避免資料遺失、亂序、跳變及延遲,並在高精度高品質前提下,極大壓縮傳輸/儲存成本。車聯網資料的上下行鏈路比較長(從車端MCU、DCU、閘道、4G/5G到雲端)需要確保各鏈路節點的資料傳輸品質。
#针对数据传输的新变化,部分企业已能提供高效的数据采集及车云一体传输方案,例如智协慧同EXCEEDDATA灵活数采平台方案,在车端边缘计算环境基于实时数据,实现了10毫秒级实时运算,用于触发灵活数据采集上传功能,上传的数据已经经过计算和筛选,显著降低上传的数据量。此外对车端原始信号进行100-300倍无损压缩和存储,云端管理平台保存无损高压缩比的车端高质量信号, 支持数采算法的下发、多种采集模式的触发、采集数据实时上传到业务桌面的一键式下载,按车辆、按事件、按时间段等多重灵活筛选,随用随解,存算分离,实现了车云同构的数据采集-计算-上传-加工的闭环;2021年,国内首个搭载智协慧同EXCEEDDATA解决方案的量产车型已落地(高合HiPhiX)。
来源:智协慧同
为更清晰感知周围环境,自动驾驶汽车增配更多传感器,并生成大量数据。一些高等级自动驾驶系统甚至配置40多个各类传感器,对车辆周边360°环境准确感知。自动驾驶系统的研发需经过数据采集、数据汇聚、清洗标记、模型训练、模拟仿真、大数据分析等多个环节,期间涉及对海量数据的汇聚存储,不同环节不同系统之间的数据流转,以及模型训练时对海量数据的读写。数据面临存储瓶颈的新挑战。
为此,众多云服务提供商在这方面的技术和能力成为了帮助车企制胜的关键。比如亚马逊云科技AWS以自动驾驶数据湖为中心,助力车企构建起端到端的自动驾驶数据闭环。借助Amazon Simple Storage Service (Amazon S3,云上对象存储服务)构建自动驾驶数据湖,实现数据采集、数据管理和分析、数据标注、模型和算法开发、仿真验证、地图开发以及DevOps和MLOps,车企能更加容易地实现自动驾驶全流程的开发、测试和应用。
来源:AWS
在国内的科技巨头中,以百度数据闭环解决方案为例,其数据存储提供路侧及车辆多源数据信息的数据检索服务,用于业务平台的海量数据查找,具备多维度检索(车辆信息、里程数、自动驾驶时长等)、数据生产到销毁的整个生命周期的管理、支持全景数据视图、数据溯源和数据开放共享等优势。
来源:百度
自动驾驶发展从技术驱动转向了数据驱动,但是数据驱动的商业模式面临诸多困难。
海量数据处理难:高等级自动驾驶测试车每天采集的数据量是TB级别的,开发团队需要PB级的存储空间,但这些数据中,可用于训练的价值数据约只占不到5%。且对车载摄像头、激光雷达、高精定位等传感器采集的数据还有严格的安全合规要求,无疑对海量数据的接入、存储、脱敏、处理等带来了极大的挑战。
数据标注成本高:数据标注占据了大量的人力和时间成本。随自动驾驶高阶能力的发展,场景复杂度持续提升,会出现更多的难例场景。而提升车辆感知模型的精度,则对训练数据集的规模和质量提出了更高要求。传统人工标注在效率和成本方面,已难以满足模型训练对海量数据集的需求。
仿真测试效率低:虚拟仿真是加速自动驾驶算法训练的有效手段,但仿真场景构建难、还原度低,尤其是一些复杂、危险场景,很难构建。加之并行仿真能力不足,仿真测试的效率低,算法的迭代周期过长。
高精地图覆盖少:高精地图主要还是靠自采集、自制图,仅满足试验阶段指定道路的场景。后续要走向商用,扩展到全国各大城市的城区街道,在覆盖、动态更新,以及成本和效率方面都面临着非常突出的挑战。
為了解決各種困難和問題,自動駕駛高效開發需建構高效的數據閉環系統。
來源:福瑞泰克
就自動駕駛資料閉環而言,在自動駕駛落地過程中需要不斷解決Corner Cases,為此必須擁有足夠的資料樣本以及便捷的車端驗證方式。影子模式就是解決Corner Cases的最佳解決方案之一。
影子模式由特斯拉2019年4月提出並應用到車端,進行相關決策的比較和觸發資料上傳。利用售出車輛上的自動駕駛軟體持續記錄感測器探測的數據,在適當時間選擇性回傳用於機器學習、改進原來的自動駕駛演算法。
Dojo超級電腦能利用大量視訊數據,做無人監管標註和訓練。
2021年特斯拉全球交付93.62萬輛汽車,其中中國工廠交付了48.41萬輛。 2022年上半年交付56萬輛。特斯拉利用量產優勢,透過影子模式不斷優化演算法。利用影子模式,透過百萬已售車輛做測試車輛,對周圍感知以及特殊路況進行捕捉,不斷強化對於不確定性事件的預測和規避、學習能力。因為有百萬量級的已售車輛支撐,涵蓋的Corner Cases及極端工況就會更全面,靈活觸發式採集的高品質數據能迭代出更優質的演算法,而演算法迭代的卓越度又決定著軟體的價值。從軟體升級訂閱服務來講,數據閉環的爆發力才剛嶄露頭角。
#自動駕駛系統不斷迭代的前提是演算法的持續優化,而演算法的卓越度又取決於數據閉環系統的效能,數據在自動駕駛開發每個場景的高效能流動至關重要,數據智能化將成為加速自動駕駛量產的關鍵。
2021年12月,毫末智行正式發布了國內首個自動駕駛資料智慧系統MANA雪湖,從感知、認知、標註、模擬、計算五大能力方面加速自動駕駛技術的演進。未來三年毫末輔助駕駛系統可搭載超100萬台乘用車。毫末智行依靠其全自研的自動駕駛系統,在數據的累積、處理、應用上取得了顯著優勢。海量資料帶來技術迭代優勢。降本增效優勢明顯。
再比如,Momenta實現了領先的全流程資料驅動的技術能力,包括感知、融合、預測和規控等演算法模組都可以透過資料驅動的方式高效的迭代與更新。其閉環自動化(Closed Loop Automation)是一整套讓資料流推動資料驅動的演算法自動迭代的工具鏈。 CLA能自動篩選出大量黃金數據,驅動演算法的自動迭代,讓自動駕駛飛輪越轉越快。
來源:Momenta
軟體定義汽車背景下,資料、演算法和算力是自動駕駛開發的三駕馬車。車企研發週期縮短、功能迭代加速,未來能夠持續地低成本、高效率、高效能收集數據,並透過真實數據迭代演算法,最終形成數據閉環及商業閉環是自動駕駛企業永續發展的關鍵所在。
以上是數據閉環研究:自動駕駛發展從技術驅動轉向數據驅動的詳細內容。更多資訊請關注PHP中文網其他相關文章!