최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 |
작가의 개인적인 생각
자율주행 분야에서는 BEV 기반 하위 작업/엔드 투 엔드 솔루션 개발, 고품질 다중 뷰 학습 데이터 및 이에 따른 시뮬레이션 장면 구성이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다.
- 다양한 차원의 롱테일 시나리오: 장애물 데이터의 근거리 차량 및 차량 절단 중 정확한 방향 각도 등 , 곡률이 다른 곡선이나 경사로/병합/병합과 같은 차선 데이터에서 수집하기 어려운 시나리오도 포함됩니다. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다.
- 3D 참값 - 이미지의 높은 일관성: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류로 인해 영향을 받는 경우가 많습니다. 이로 인해 데이터의 각 [3D 참값-이미지-센서 매개변수] 세트가 정확하고 일관성이 있는지 확인하기가 어렵습니다.
- 위 조건을 만족하는 시계열 데이터: 현재 인식/예측/의사결정/엔드-투-엔드 및 기타 작업에 필수적인 연속 프레임과 해당 참값의 다중 뷰 이미지입니다.
시뮬레이션의 경우 위의 조건을 충족하는 영상 생성은 레이아웃을 통해 직접 생성할 수 있는데, 이는 의심할 여지없이 다중 에이전트 센서 입력을 구성하는 가장 직접적인 방법입니다. DrivingDiffusion은 위의 문제를 새로운 관점에서 해결합니다.
드라이빙디퓨전이란?
- DrivingDiffusion은 자율주행 장면 생성을 위한 확산 모델 프레임워크로, 레이아웃제어 다중 뷰 이미지/비디오 생성을 구현하고 SOTA를 각각 구현합니다.
- DrivingDiffusion-Future는 자율 주행 세계 모델로서 단일 프레임 이미지를 기반으로 미래 장면 비디오를 예측하고 언어 프롬프트를 기반으로 주 차량/다른 차량의 동작 계획에 영향을 줄 수 있는 능력을 갖추고 있습니다.
DrivingDiffusion의 생성효과는 무엇인가요?
필요한 학생은 먼저 프로젝트 홈페이지를 살펴보세요: https://drivingdiffusion.github.io(1) DrivingDiffusion
레이아웃 제어를 통한 다관점 이미지 생성
레이아웃 조정: 생성된 결과를 정밀하게 제어
레이아웃 제어 멀티뷰 비디오 생성
(2) DrivingDiffusion-Future
입력 프레임 + 텍스트 설명을 기반으로 후속 프레임 생성
입력 프레임을 기반으로 후속 프레임을 직접 생성
DrivingDiffusion은 위의 문제를 어떻게 해결하나요?
DrivingDiffusion은 먼저 장면의 모든 3D 실제 값(장애물/도로 구조)을 인위적으로 구성한 후 실제 값을 레이아웃 이미지에 투영한 후 다중 카메라에서 실제 이미지/비디오를 얻기 위한 모델 입력으로 사용됩니다. 관점. 3D 참값(BEV 뷰 또는 인코딩된 인스턴스)을 모델 입력으로 직접 사용하지 않고 사후 투영 입력에 매개변수를 사용하는 이유는 체계적인 3D-2D 일관성 오류를 제거하기 위한 것입니다. (이러한 데이터 집합에서 3D 참값과 차량 매개변수는 실제 필요에 따라 인위적으로 구성됩니다. 전자는 희귀한 장면 데이터를 마음대로 구성할 수 있는 기능을 가져오고 후자는 전통적인 데이터 생성 오류를 제거합니다. 기하학적 일관성 )
이제 아직 한 가지 질문이 남아 있습니다. 생성된 이미지/비디오의 품질이 사용 요구 사항을 충족할 수 있습니까? 시나리오를 구성할 때 누구나 시뮬레이션 엔진을 사용하는 것을 떠올리곤 합니다. 그러나 그것이 생성하는 데이터와 실제 데이터 사이에는 큰 영역 차이가 있습니다. GAN 기반 방법으로 생성된 결과는 실제 실제 데이터의 분포와 편향되는 경우가 많습니다. 확산 모델은 노이즈를 학습하여 데이터를 생성하는 마르코프 체인의 특성을 기반으로 생성된 결과의 충실도가 높아 실제 데이터를 대체하는 데 더 적합합니다. DrivingDiffusion은인위적으로 구성된 장면 및 차량 매개변수를 기반으로 순차적 다중 뷰 뷰를 직접 생성합니다. 이는 다운스트림 자율 주행 작업을 위한 훈련 데이터로 사용될 수 있을 뿐만 아니라 자율 주행에 대한 피드백을 위한 시뮬레이션 시스템을 구축할 수도 있습니다. 운전 알고리즘.
여기서 "인공적으로 구성된 장면"에는 장애물과 도로 구조 정보만 포함되어 있지만 DrivingDiffusion의 프레임워크는 간판, 신호등, 공사 구역과 같은 레이아웃 정보는 물론, 낮은 수준의 점유 그리드/깊이 지도와 같은 제어 모드까지 쉽게 도입할 수 있습니다.DrivingDiffusion 방법 개요
다시점 비디오를 생성할 때 몇 가지 어려움이 있습니다.
- 일반적인 이미지 생성과 비교하여 다시점 비디오 생성은
- 관점과 timing이라는 두 가지 새로운 차원을 추가합니다. 긴 동영상을 생성할 수 있는 프레임워크를 디자인하는 방법은 무엇입니까? 교차 뷰 일관성과 교차 프레임 일관성을 유지하는 방법은 무엇입니까? 자율 주행 작업의 관점에서 생성된 인스턴스의 품질을 보장하는 방법은 무엇입니까?
키프레임 제어 및 fine- 연산을 통해 단기 및 장기 시퀀스의 전체 일관성을 보장했습니다. 튜닝. 또한 DrivingDiffusion은 크로스 뷰/크로스 프레임 일관성 및 인스턴스 품질 문제를 각각 해결하는 Consistency Module과 Local Prompt를 제안했습니다.
DrivingDiffusion은 긴 비디오 프로세스를 생성합니다- 단일 프레임 다중 뷰 모델: 다중 뷰 키 프레임을 생성하고,
- 키 프레임을 추가 제어로 사용합니다. 다중 뷰 공유 단일 뷰 타이밍 모델: 각 뷰를 병렬로 확장,
- 생성된 결과를 추가 제어로 사용하는 단일 프레임 다중 뷰 모델: 시간적 병렬로 후속 프레임을 미세 조정하고,
- 새 키프레임을 결정하고 슬라이딩 창을 통해 비디오를 확장합니다.
- 다중 뷰 모델과 타이밍 모델의 경우 3D-Unet의 확장된 차원은 각각 원근감과 시간입니다. 둘 다 동일한 레이아웃 컨트롤러를 가지고 있습니다. 저자는 후속 프레임이 다중 뷰 키 프레임에서 장면의 정보를 얻고 다양한 대상의 관련 정보를 암시적으로 학습할 수 있다고 믿습니다. 둘 다 서로 다른 일관성 주의 모듈과 동일한 로컬 프롬프트 모듈을 각각 사용합니다.
- 레이아웃 인코딩: 장애물 카테고리/인스턴스 정보, 도로 구조 분할 레이아웃을 서로 다른 고정 인코딩 값을 사용하여 RGB 이미지로 인코딩하고, 인코딩 후 레이아웃 토큰을 출력합니다.
- 키 프레임 제어: 모든 시계열 확장 프로세스는 특정 키 프레임의 다중 뷰 이미지를 사용합니다. 이는 짧은 시계열의 후속 프레임이 키 프레임에서 정보를 얻을 수 있다는 가정에 기반합니다. 모든 미세 조정 프로세스에서는 키 프레임과 이에 의해 생성된 후속 프레임의 다중 뷰 이미지를 추가 제어로 사용하고, 프레임의 교차 뷰 일관성을 최적화한 후 다중 뷰 이미지를 출력합니다.
- 특정 관점에 따른 사전 광학 흐름: 시간 모델의 경우 훈련 중에 특정 관점의 데이터만 샘플링됩니다. 또한 원근 영상 아래의 각 픽셀 위치의 광학 흐름 사전 값을 미리 사용하여 카메라 ID 토큰으로 인코딩하여 확산 과정에서 시간 임베딩과 유사하게 숨겨진 레이어에 대한 대화형 제어를 수행합니다.
일관성 모듈 및 로컬 프롬프트
일관성 모듈은 일관성 주의 메커니즘과 일관성 연관 손실의 두 부분으로 나뉩니다.
일관성 주의 메커니즘은 인접 뷰와 시간적으로 관련된 프레임 간의 상호 작용에 중점을 둡니다. 특히 프레임 간 일관성의 경우 시간 모델의 경우 중첩되는 왼쪽 및 오른쪽 인접 뷰 간의 정보 상호 작용에만 중점을 둡니다. 키 프레임과 이전 프레임에 초점을 맞춥니다. 이를 통해 전역 상호 작용으로 인한 막대한 계산 부하를 피할 수 있습니다.
일관적인 상관 손실은 픽셀별 상관 관계와 포즈 회귀를 통해 기하학적 제약 조건을 추가합니다. 포즈의 기울기는 사전 훈련된 포즈 회귀기에 의해 제공됩니다. 회귀자는 LoFTR을 기반으로 포즈 회귀 헤드를 추가하고 해당 데이터 세트의 실제 데이터에 대한 실제 포즈 값을 사용하여 학습합니다. 다중 뷰 모델 및 시계열 모델의 경우 이 모듈은 카메라 상대 포즈와 주요 차량 모션 포즈를 각각 감독합니다.
Local Prompt 및 Global Prompt는 함께 작동하여 CLIP 및 stable-diffusion-v1-4의 매개변수 의미를 재사용하여 특정 카테고리 인스턴스 영역에서 로컬 향상을 수행합니다. 그림에서 볼 수 있듯이 이미지 토큰과 전역 텍스트 설명 프롬프트의 교차 주의 메커니즘을 기반으로 작성자는 특정 카테고리에 대한 로컬 프롬프트를 디자인하고 해당 카테고리의 마스크 영역에 있는 이미지 토큰을 사용하여 로컬 프롬프트를 쿼리합니다. 즉각적인. 이 프로세스는 원래 모델 매개변수의 오픈 도메인에서 텍스트 기반 이미지 생성 개념을 최대한 활용합니다.
DrivingDiffusion-Future 방법 개요
미래 장면 구성 작업을 위해 DrivingDiffusion-Future는 두 가지 방법을 사용합니다. 하나는 첫 번째 프레임 이미지에서 직접 후속 프레임 이미지(시각적 분기)를 예측하는 것이고, 프레임 광학 흐름을 보조 손실로 간주합니다. 이 방법은 비교적 간단하지만 텍스트 설명을 기반으로 후속 프레임을 생성하는 효과는 평균적입니다. 또 다른 방법은 전자를 기반으로 새로운 개념의 브랜치를 추가하는 것인데, 이는 첫 번째 프레임의 BEV 뷰를 통해 후속 프레임의 BEV 뷰를 예측하는 것입니다. 이는 BEV 뷰 예측이 모델이 주행의 핵심 정보를 포착하는 데 도움이 되기 때문입니다. 장면을 만들고 개념을 확립합니다. 이때, 텍스트 설명은 두 가지 Branch에 동시에 작용하며, BEV2PV의 원근 변환 모듈을 통해 개념 가지의 특성이 시각적 가지에 작용합니다. 노이즈 입력을 대체하기 위한 참값 이미지(및 후속 훈련 중 동결). 주 차량 제어 텍스트 설명 컨트롤러와 다른 차량 제어/환경 텍스트 설명 컨트롤러가 분리되어 있다는 점에 주목할 필요가 있습니다.
실험 분석
모델의 성능을 평가하기 위해 DrivingDiffusion은 프레임 수준 FID(Fréchet Inception Distance)를 사용하여 생성된 이미지의 품질을 평가하고, 이에 따라 FVD를 사용하여 생성된 비디오의 품질을 평가합니다. 모든 지표는 nuScenes 검증 세트에서 계산됩니다. 표 1에서 볼 수 있듯이 자율 주행 시나리오의 이미지 생성 작업 BEVGen 및 비디오 생성 작업 DriveDreamer와 비교하여 DrivingDiffusion은 다양한 설정에서 성능 지표에서 더 큰 이점을 갖습니다.
FID와 같은 방법은 이미지 합성 품질을 측정하는 데 자주 사용되지만 작업의 설계 목표를 완전히 피드백하지도 않고 다양한 의미 범주에 대한 합성 품질을 반영하지도 않습니다. 작업이 3D 레이아웃과 일치하는 다중 뷰 이미지를 생성하는 데 전념하기 때문에 DrivingDiffuison은 BEV 지각 모델 측정법을 사용하여 일관성 측면에서 성능을 측정할 것을 제안합니다. CVT 및 BEVFusion의 공식 모델을 평가자로 사용하고 동일한 실제 3D를 사용합니다. nuScenes 검증 세트로 모델 레이아웃에 따라 조건부로 이미지를 생성하고 생성된 각 이미지 세트에 대해 CVT 및 BevFusion 추론을 수행한 다음 예측 결과를 운전 가능 영역의 mIoU(평균 교차점) 점수를 포함하여 실제 결과와 비교합니다. 모든 객체 클래스의 NDS는 표 2에 나와 있습니다. 실험 결과, 합성 데이터 평가 세트의 인식 지표는 실제 평가 세트의 인식 지표와 매우 유사하며, 이는 생성된 결과와 3D 참값의 높은 일관성과 이미지 품질의 높은 충실도를 반영합니다.
위의 실험 외에도 DrivingDiffusion은 해결된 주요 문제인 자율 주행 후속 작업의 성능을 향상시키기 위해 합성 데이터 훈련을 추가하는 실험을 수행했습니다. 표 3은 BEV 인식 작업에서 합성 데이터 증강을 통해 달성된 성능 향상을 보여줍니다. 원본 훈련 데이터에는 특히 작은 목표, 근거리 차량 및 차량 방향 각도의 경우 롱테일 분포에 문제가 있습니다. DrivingDiffusion은 이 문제를 해결하기 위해 제한된 샘플을 사용하여 이러한 클래스에 대한 추가 데이터를 생성하는 데 중점을 둡니다. 장애물 방향 각도 분포 개선에 초점을 맞춘 2000 프레임의 데이터를 추가한 후 NDS는 약간 개선된 반면 mAOE는 0.5613에서 0.5295로 크게 감소했습니다. 훈련을 지원하기 위해 보다 포괄적이고 희귀한 장면에 초점을 맞춘 6000 프레임의 합성 데이터를 사용한 후 nuScenes 검증 세트에서 상당한 향상을 볼 수 있습니다. NDS는 0.412에서 0.434로 증가하고 mAOE는 0.5613에서 0.5130으로 감소했습니다. 이는 합성 데이터의 데이터 증강이 인식 작업에 가져올 수 있는 상당한 개선을 보여줍니다. 사용자는 실제 필요에 따라 데이터의 다양한 차원의 분포에 대한 통계를 작성한 다음 이를 대상 합성 데이터로 보완할 수 있습니다.
DrivingDiffusion의 의의와 향후 작업
DrivingDiffusion은 자율주행 장면의 다시점 영상 생성과 미래 예측 기능을 동시에 구현하는 기능으로 자율주행 작업에 큰 의미가 있습니다. 그 중 layout과 parameters는 모두 인위적으로 구성되었으며, 3D-2D 간의 변환은 학습 가능한 모델 매개변수에 의존하는 것이 아니라 투영을 통해 이루어지므로 이전 데이터 획득 과정에서 기하학적 오류를 제거하고 실용성이 뛰어납니다. 동시에 DrivingDiffuison은 확장성이 뛰어나고 새로운 장면 콘텐츠 레이아웃과 추가 컨트롤러를 지원하며 초해상도 및 비디오 프레임 삽입 기술을 통해 생성 품질을 손실 없이 향상시킬 수 있습니다.
자율주행 시뮬레이션에 있어서 네르프의 시도는 점점 늘어나고 있습니다. 그러나 스트리트 뷰 생성 작업에서 동적 콘텐츠와 정적 콘텐츠의 분리, 대규모 블록 재구성, 날씨 및 기타 차원의 외관 제어 분리 등으로 인해 Nerf는 종종 엄청난 양의 작업을 수행해야 합니다. 훈련 후에만 후속 시뮬레이션에서 새로운 관점 합성 작업을 지원할 수 있습니다. DrivingDiffusion은 시각적-텍스트 연결, 시각적 콘텐츠의 개념적 이해 등을 포함하여 사전에 어느 정도의 일반 지식을 자연스럽게 포함하고 있습니다. 레이아웃 구성만으로 필요에 따라 장면을 신속하게 생성할 수 있습니다. 그러나 위에서 언급한 것처럼 전체 프로세스가 상대적으로 복잡하고, 긴 동영상을 생성하려면 후처리 모델의 미세 조정 및 확장이 필요합니다. DrivingDiffusion은 계속해서 관점 차원과 시간 차원의 압축을 탐구할 뿐만 아니라 새로운 관점 생성 및 변환을 위해 Nerf를 결합하고 생성 품질과 확장성을 지속적으로 개선할 것입니다.
위 내용은 최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아
