Peking University and the EVLO innovation team jointly proposed DriveWorld, a four-dimensional space-time pre-training algorithm for autonomous driving. This method uses a world model for pre-training, designs a memory state space model for four-dimensional spatio-temporal modeling, and reduces the random uncertainty and knowledge uncertainty faced by autonomous driving by predicting the occupation grid of the scene. This paper has been accepted by CVPR 2024.
Paper title: DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving
Paper link: https://www.php.cn/link/293643def1ba1161bcdcfbfe434ab76d
1. Motivation
The scene understanding task of autonomous driving involves multiple levels such as perception of the scene and prediction of future changes. These levels include not only the three-dimensional structure in space, but also dynamic changes in the time dimension. This complex scene understanding requires the model to be able to capture and understand the intrinsic correlation of four-dimensional space and time to make accurate decisions. Learning four-dimensional spatiotemporal representations is extremely challenging due to the stochastic nature of natural scenes, local observability of the environment, and the diversity of various downstream tasks. Pre-training plays a key role in obtaining universal representations from large amounts of data, enabling the construction of a base model with universal knowledge. However, there are still relatively few pre-training studies on four-dimensional space-time in autonomous driving.
The design and implementation of autonomous driving systems need to face and deal with various uncertainties, which are mainly divided into two categories: Aleatoric uncertainty and Epistemic uncertainty. Aleatoric uncertainty arises from the inherent randomness of the world, such as the sudden movement of pedestrians or the unexpected behavior of vehicles. Epistemic uncertainty arises from incomplete knowledge of the environment, such as lack of information due to occlusion or sensor limitations. To effectively deal with these uncertainties, autonomous driving systems must be able to use past experience to predict possible future states and make inferences about unseen areas. This work addresses this challenge through a four-dimensional spatiotemporal pre-trained world model, aiming to improve the performance of autonomous driving systems in perception, prediction, and planning tasks.
2. Method
For the sequence of T video frames o1:T observed by the autonomous driving surround camera system, as well as their corresponding expert behaviors a1:T and the three-dimensional occupancy grid label y1:T, where the three-dimensional Occupancy raster labels can be obtained using 3D LiDAR point cloud and attitude data. We aim to learn a compact BEV representation from a world model that predicts current and future 3D occupancy grids from past multi-view images and actions.
2.1 Time series probability model
In order to give the model the ability to model four-dimensional space and time, we first introduce two potential variables (h1:T, s1:T), where ht represents the historical information variable, including All historical information at time step t, st represents the random state variable, which is the key to the model predicting the future state. ht is updated through historical information h1:t−1 and random state s1:t−1. In order to predict the future state, we follow the Recurrent State-Space Model (RSSM) and construct the posterior state distribution q(st∣o≤t,a Considering that the dimensionality of BEV features is high, we convert it into a one-dimensional vector xt, and then sample a Gaussian distribution from (ht,at−1,xt) to generate the posterior state distribution: In the absence of observed images, the model derives the prior state distribution based on historical information and predicted actions: 2.1.1 Dynamic messaging 자율주행의 장면 이해에서는 사물의 움직임을 고려하는 것이 미래 상태를 정확하게 예측하는 데 중요합니다. 이러한 동적 정보를 포착하기 위해 우리는 동적 정보가 전파되는 동안 모션 인식을 달성하기 위한 모션 매개변수를 도입하여 객체의 모션을 모델링할 것을 제안합니다. 모션 인식 레이어 정규화(MLN)를 소개합니다. 모션 속성에는 속도 v와 상대 시간 간격 Δt가 포함됩니다. (v,Δt)는 평탄화되어 두 개의 선형 레이어(ξ1,ξ2)를 통해 아핀 벡터 γ 및 β로 변환됩니다. γ=ξ1(v,Δt),β=ξ2(v,Δt). 그런 다음 st=γ⋅LN(st)+β로 표현되는 기본 확률론적 모션 인식 상태를 얻기 위해 아핀 변환이 수행됩니다. 차량이 이동함에 따라 결정론적 과거 상태 ht는 동적 메모리 라이브러리 h1:t를 구축할 수 있습니다. 동적 메모리 뱅크를 사용하여 교차 주의 메커니즘 계산을 수행함으로써 결정론적 기록 상태 ht를 얻을 수 있습니다. 2.1.2 공간정보 전달 자율주행의 장면 이해에는 동적 변화 정보 외에도 공간 구조 정보도 똑같이 중요합니다. 연속적인 장면 프레임은 대개 사소한 변화만 포함하고 장면의 주요 내용은 도로, 나무, 교통 표지판 등 정적인 객체로 구성되는 경우가 많기 때문에 이 정보를 처리할 때 입력 이미지를 직접 이미지로 변환하는 것이 가능합니다. 1차원 벡터로 인해 주요 공간 구조 정보가 손실됩니다. 우리는 1에서 T 프레임까지 무작위로 프레임 o'를 선택하고 BEV 특징 b'를 사용하여 공간 지각 구조를 설명하는 잠재 정적 표현 b^=zθ(b')를 구성합니다. 우리는 공간적으로 인식되는 정적 표현 b^을 동적으로 변화하는 모션 표현 st와 결합하여 주변 장면에 대한 포괄적인 표현을 얻습니다. 2.2 사전 훈련 보조 작업 자율 주행을 위해서는 주변 환경에 대한 포괄적인 이해가 중요합니다. 우리는 차량 주변 환경을 설명하기 위해 물리적 세계를 3차원 점유 그리드 구조로 모델링할 것을 제안합니다. 3차원 점유 그리드 디코더는 y^t=lθ(mθ(h~t,st),b^)로 설정됩니다. 여기서 mθ는 1차원 특징을 BEV 차원으로 확장하는 네트워크이고 lθ는 점유 그리드 3D 컨벌루션 네트워크를 예측합니다. 이러한 4차원 점유 그리드 사전 훈련은 장면의 정적 구조를 캡처할 수 있을 뿐만 아니라 시간에 따른 장면의 동적 변화를 이해하여 자율 주행 시스템에 대한 보다 풍부하고 동적인 환경 이해를 제공합니다. 2.3 작업 프롬프트 메커니즘 4차원 시공간 표현은 월드 모델에 의해 설계된 사전 학습 작업을 통해 학습될 수 있지만, 다양한 다운스트림 작업은 서로 다른 정보에 중점을 둡니다. 이 문제를 완화하기 위해 다중 작업 학습의 몇 장의 이미지 인식을 위한 의미론적 단서와 시각적 예제 안내 단서에서 영감을 받아 작업 관련 추출을 안내하는 다양한 작업에 대한 특정 단서를 제공하는 "작업 힌트" 메커니즘이 도입되었습니다. 특징. 서로 다른 작업 간에 의미론적 상관 관계가 있으므로 대규모 언어 모델 gψ(⋅) (예: BERT, CLIP)을 활용하여 이러한 작업 힌트를 구성합니다. 예를 들어, 3차원 점유 그리드 재구성 작업에 대한 작업 프롬프트는 현재 장면에 더 초점을 맞추고 "작업은 현재 장면의 3차원 점유 그리드를 예측하는 것입니다."로 설정됩니다. 프롬프트 ptext를 gψ(⋅)에 입력하여 프롬프트 인코딩 gψ(ptext)를 얻습니다. 그런 다음 qψ(gψ(ptext))로 표시되는 BEV 차원으로 확장되고 학습된 시공간 특징과 통합됩니다. 2.4 사전 훈련 목적 함수 DriveWorld의 사전 훈련 목표에는 사후 상태 분포와 이전 상태 분포(예: Kullback-Leibler(KL) 발산) 간의 차이를 최소화하고 과거와 이전 상태 간의 차이를 최소화하는 것이 포함됩니다. 미래의 3차원 점유 그리드(즉, 교차 엔트로피 손실(CE)) 및 동작(즉, L1 손실)과 관련된 손실입니다. 우리는 T 시간 단계에 대한 입력을 관찰하기 위해 모델을 채택한 다음 미래의 3차원 직업 그리드와 L 단계의 행동을 예측합니다. 3. 실험 3.1 실험 설정 자율주행 데이터 세트에 대해 NuScene과 OpenScene을 사전 학습하고 NuScene을 미세 조정했습니다. 우리는 밀도가 높은 3D 점유 그리드 라벨을 얻기 위해 다중 프레임 LiDAR 포인트 클라우드 집계를 사용합니다. 3.2 실험 결과 결과의 일부가 여기에 표시됩니다. 더 많은 결과는 논문을 참조하세요. 4. 요약 DriveWorld는 월드 모델을 기반으로 한 4차원 시공간 사전 훈련을 통해 자율주행 시스템의 주변 환경에 대한 이해와 예측 능력을 향상시키고, 자율주행이 직면하는 불확실성을 줄여줍니다. DriveWorld는 시간 인식 표현 학습을 위한 동적 메모리 저장 모듈과 공간 인식 표현 학습을 위한 정적 장면 전파 모듈을 포함하는 시공간 모델링을 위한 메모리 상태 공간 모델을 제안했습니다. 모델의 적응성과 유연성을 더욱 향상시키기 위해 DriveWorld는 모델이 현재 작업 요구 사항에 따라 표현을 적응적으로 조정할 수 있도록 하는 작업 프롬프트 메커니즘도 도입하여 다양한 자율 주행 작업에서 최고의 성능을 달성합니다. 참고자료 [1]Chen Min 외 3D 장면 재구성을 통한 다중 카메라 통합 사전 훈련[J] IEEE Robotics and Automation Letters, 2024. [2]Chen Min 외. Occupancy-mae: 마스크된 점유 자동 인코더를 사용한 자체 감독 사전 훈련 대규모 라이더 포인트 클라우드[J]. IEEE Transactions on Intelligent Vehicles, 2023. EVOL 혁신 팀 소개 Zhao Jian, China Telecom Artificial 지능 연구소의 멀티미디어 인지 학습 연구소(EVOL Lab)의 지능 책임자이자 젊은 과학자, 노스웨스턴 폴리테크니컬 대학의 광전자 공학 및 지능 연구소의 연구원이자 박사 과정 감독자는 싱가포르 국립 대학에서 박사 학위를 취득했습니다. 관심 분야에는 멀티미디어 분석, 로컬 보안, 구현된 지능이 포함됩니다. 1개의 T-PAMI×2(IF: 24.314) 및 IJCV×3(IF: 13.369)을 포함하여 총 60개 이상의 CCF-A 논문이 출판되었습니다. 최초 발명자는 5개의 국가 발명 특허를 승인했습니다. Baidu, Ant Financial, Qihoo 360 등 기술 업계의 6개 주요 기업이 관련 기술 성과를 적용하여 상당한 이점을 창출했습니다. 그는 중국 과학 기술 협회 및 베이징 과학 기술 협회의 "젊은 인재 육성 프로젝트"에 선정되었으며 국가 자연 청소년 과학 기금을 포함한 6개의 프로젝트를 주최했습니다. Wu Wenjun 인공지능 우수 청년상(2023), Wu Wenjun 인공지능 자연과학상 1위(2022.2/5), 싱가포르 패턴 인식 및 기계 지능 협회(PREMIA) Lee Hwee Kuan 상을 수상했으며, ACM 멀티미디어 논문상(첫 번째 작품, 1/208, CCF-A 컨퍼런스, 2018)의 유일한 최우수 학생으로, 중요한 국제 과학 기술 행사에서 7차례 우승을 차지했습니다. Beijing Image and Graphics Society의 이사, 국제적으로 유명한 저널 "Artificial Intelligence Advances" 및 "IET Computer Vision"의 편집위원, "Pattern Recognition Letters" 및 "Electronics" 특집호의 객원 편집자 역임 ", VALSE 수석 현장 회장 및 ACM 멀티미디어 2021 득점자. 포럼 회장, CICAI 2022/2023 지역 회장, CCBR 2024 포럼 회장, 중국 인공 지능 학회/중국 이미지 및 그래픽 학회 선임 회원, "챌린지 심사위원" 컵' 대학생 과학기술 작품 대회, 중국 인공지능 대회 전문위원회 위원 등 GitHub 홈페이지: https://zhaoj9014.github.io 대학 홈페이지: https://www.php.cn/link/2e36742b377be90ffbf553692153d9a1 Jin Lei 베이징우정통신대학교 특별 준회원 연구원, 주요 연구 방향에는 컴퓨터 비전, 데이터 마이닝 및 패턴 인식이 포함되며, 인간 자세 추정, 인간 행동 인식, 인체 분석 및 기타 하위 분야에 대한 심층 연구와 관련 결과가 다음과 같은 상위 수준의 컨퍼런스 및 저널에 발표되었습니다. CVPR, AAAI, NIPS, ACMMM 등으로 총 40편 이상의 SCI/EI 색인 논문이 게재되었으며, 중국학회 JCR Area 1에 제1저자로 게재된 논문을 포함해 11편의 고급 논문이 있습니다. of Sciences(IEEE Transactions on Multimedia), CCF-A 컨퍼런스 CVPR, ACMMM 논문, JCR Area 2 of the Chinese Academy of Sciences(Sensors), IEEE 센서 저널) 논문 등 국립자연과학재단 청년기금 주최, 국가핵심 R&D사업 2건, 자연과학재단 일반사업 4건 참여. 우리는 ICCV2021/CVPR2023 워크샵(Anti-UAV 워크샵 및 챌린지)을 조직하기 위해 최고의 컨퍼런스에 여러 번 의존해 왔습니다. 학생들이 전국 대학 바이오 인터넷 기술 및 응용 "3대 혁신" 대회(베이징 우편 통신 대학에서 인정하는 카테고리 A 대회)에서 1등상을 받을 수 있도록 지도합니다. Min Cheng, 북경 대학교 컴퓨터 과학부 박사, 중국 과학 아카데미 컴퓨팅 기술 연구소의 특별 연구 조교 그의 주요 연구 방향은 자율 주행, 구체화된 지능 및 3가지입니다. 차원 재구성 관련 결과는 CVPR, ICCV, ICRA 및 RAL과 같은 고위급 컨퍼런스 및 저널에 발표되었으며, CCF-A 컨퍼런스 CVPR이 제1저자이고, 최고 로봇공학 컨퍼런스 ICRA, 권위 있는 로봇공학 저널 RAL 등이 있습니다. . 다수의 국가 핵심 R&D 프로젝트에 참여했습니다.
p(st∣ht− 1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
where st is parameterized as a normal distribution with diagonal covariance , the initial distribution is set to s1∽N(0,I). (μϕ,σϕ) is a multilayer perceptron with parameterized posterior state distribution.
p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1),σθ(ht,a^t−1)I),
where (μθ,σθ) parameterizes the prior state distribution. ?? is a policy network used to predict action a^t−1, based on historical information ht−1 and random state st−1.
결정론적 과거 상태는 ht+1=fθ(ht,st)입니다.
The above is the detailed content of CVPR 2024 | Four-dimensional space-time pre-training of autonomous driving world model. For more information, please follow other related articles on the PHP Chinese website!