시각 자율주행을 위한 최신 기술 경로에 대한 간략한 분석
Background
자율주행은 예측단계에서 산업화 단계로의 점진적인 전환을 의미하며, 구체적인 성능은 4가지로 나눌 수 있습니다. 우선, 빅데이터의 맥락에서 데이터 세트의 규모가 급격히 확장되고 있기 때문에, 이전에 소규모 데이터 세트로 개발된 프로토타입의 세부 사항은 크게 걸러지고, 대규모에서 효과적일 수 있는 작업만 이루어지게 됩니다. -스케일 데이터가 남습니다. 두 번째는 단안 장면에서 다중 뷰 장면으로 초점이 전환되어 복잡성이 증가하는 것입니다. 그런 다음 출력 공간을 이미지 공간에서 BEV 공간으로 이동하는 등 애플리케이션 친화적인 설계를 지향하는 경향이 있습니다.
드디어 우리는 순수하게 정확성을 추구하는 것에서 추론 속도를 동시에 고려하는 방향으로 나아갔습니다. 동시에 자율주행 시나리오에서는 신속한 대응이 필요하므로 성능 요구 사항에서는 속도도 고려해야 합니다. 또한 엣지 장치에 배포하는 방법에 대해서도 더 많은 고려가 이루어집니다.
또 다른 배경은 지난 10년 동안 딥 러닝을 중심으로 시각적 인식이 급속도로 발전해 왔으며 분류, 탐지, 세분화와 같은 주류 방향에서 상당히 성숙한 패러다임이 있었습니다. . 자율 주행 시나리오의 시각적 인식 개발 과정에서 기능 인코딩의 대상 정의, 인식 패러다임 및 감독과 같은 측면은 이러한 주류 방향에서 많은 것을 차용했습니다. 따라서 자율 주행 인식을 시작하기 전에 이러한 주류 방향을 탐색해야 합니다. 조금만 해보세요.
이러한 배경에서 그림 1과 같이 작년에 대규모 데이터 세트에 대한 3D 타겟 탐지 작업이 많이 등장했습니다(빨간색으로 표시된 것이 첫 번째 알고리즘입니다).检 그림 1 작년의 3차원 표적 탐지
Lifting
🎜🎜🎜🎜🎜🎜🎜 주류 시각 인식의 차이 차이점은 주어진 대상 정의 공간에 있으며, 주류 시각 인식의 대상은 이미지 공간에서 정의됩니다. 자율주행 장면은 3차원 공간에서 정의된다. 입력이 모두 이미지인 경우 3차원 공간에서 결과를 얻으려면 Lift 과정이 필요합니다. 이는 자율주행을 위한 시각적 인식의 핵심 문제입니다. 🎜🎜🎜🎜Lift 객체 문제를 해결하는 방법은 입력, 중간 특성 및 출력으로 나눌 수 있습니다. 입력 수준의 예로는 이미지를 사용하여 깊이 정보를 추론한 다음 사용하는 것입니다. 깊이 정보를 사용하여 이미지의 RGB 값을 3차원 공간에 투영하여 컬러 포인트 클라우드를 얻은 다음 포인트 클라우드 감지 관련 작업을 수행합니다. 🎜🎜🎜🎜현재 더 유망한 것은 DETR3D와 같은 기능 수준 변환 또는 기능 수준 리프트입니다. 모두 기능 수준에서 공간 변경을 수행합니다. 기능 수준 변환의 장점은 반복 추출을 피할 수 있다는 것입니다. 이미지 수준 기능 및 계산을 통해 출력 수준 탐색 결과의 융합 문제를 피할 수도 있습니다. 물론 기능 수준 변환에는 일반적으로 이상한 OP가 사용되어 배포가 불편해지는 등 몇 가지 일반적인 문제가 있습니다. 🎜🎜🎜🎜현재 기능 수준에서 상대적으로 견고한 Lift 프로세스는 주로 깊이 및 주의 메커니즘 전략을 기반으로 하며 대표적인 것은 각각 BEVDet 및 DETR3D입니다. 깊이 기반 전략은 이미지의 각 지점의 깊이를 계산한 후 카메라의 이미징 모델에 따라 특징을 3차원 공간에 투영하여 리프트 프로세스를 완료하는 것입니다. 어텐션 메커니즘 기반 전략은 3차원 공간의 객체를 쿼리로 미리 정의하고, 내부 및 외부 매개변수를 통해 3차원 공간의 중간점에 해당하는 영상 특징을 키와 값으로 찾은 후, 주의를 통해 3차원 물체를 계산합니다. 🎜🎜🎜🎜현재의 모든 알고리즘은 깊이 기반이든 주의 기반이든 기본적으로 카메라 모델에 크게 의존하므로 보정에 대한 민감도가 높고 일반적으로 계산 프로세스가 복잡합니다. 카메라 모델을 포기한 알고리즘은 견고성이 부족한 경우가 많으므로 이러한 측면은 아직 완전히 성숙되지 않았습니다. 🎜🎜
시간적
시간적 정보는 표적 탐지 효과를 효과적으로 향상시킬 수 있습니다. 자율주행 시나리오의 경우 목표의 속도가 현재 시나리오의 주요 인식 목표 중 하나이기 때문에 타이밍은 더 깊은 의미를 갖습니다. 속도의 초점은 변화에 있으며, 단일 프레임 데이터에는 변화 정보가 충분하지 않으므로 시간 차원의 변화 정보를 제공하는 모델링이 필요합니다. 기존 포인트 클라우드 시계열 모델링 방법은 여러 프레임의 포인트 클라우드를 입력으로 혼합하여 상대적으로 조밀한 포인트 클라우드를 얻을 수 있어 탐지가 더 정확해졌습니다. 또한 다중 프레임 포인트 클라우드에는 연속 정보가 포함되어 있으며 나중에 네트워크 훈련 과정에서 BP를 사용하여 연속 정보가 필요한 속도 추정과 같은 작업을 해결하기 위해 이 연속 정보를 추출하는 방법을 학습합니다.
시각 인식의 타이밍 모델링 방법은 주로 BEVDet4D와 BEVFormer에서 나왔습니다. BEVDet4D는 단순히 두 프레임의 기능을 융합하여 후속 네트워크에 대한 지속적인 정보를 제공합니다. 다른 경로는 attention을 기반으로 하며, 단일 시간 프레임과 반시계 방향 특징을 모두 쿼리 대상으로 제공한 후 Attention을 통해 이 두 가지 특징을 동시에 쿼리하여 타이밍 정보를 추출합니다.
Depth
레이더 인식에 비해 자율주행 시각적 인식의 가장 큰 단점 중 하나는 깊이 추정의 정확성입니다. "확률적 및 기하학적 깊이: 관점에서 객체 감지" 논문에서는 GT 방법을 대체하여 다양한 요인이 성능 점수에 미치는 영향을 연구합니다. 분석의 주요 결론은 정확한 깊이 추정이 상당한 성능 향상을 가져올 수 있다는 것입니다.
그러나 깊이 추정은 현재 시각적 인식의 주요 병목 현상입니다. 현재 이를 개선하는 두 가지 주요 방법이 있습니다. 하나는 기하학적 제약 조건을 사용하여 PGD에서 예측된 깊이 맵을 개선하는 것입니다. 다른 하나는 보다 강력한 깊이 추정치를 얻기 위해 LiDAR를 감독으로 사용하는 것입니다.
현재 프로세스 측면에서 뛰어난 솔루션인 BEVDepth는 훈련 과정에서 LiDAR가 제공하는 깊이 정보를 활용하여 변경 과정에서 깊이 추정을 감독하는 동시에 인식의 주요 작업을 수행합니다.
Muti-modality/Multi-Task
Multi-task는 이러한 계산을 통해 자원 절약이나 가속화라는 목적을 달성할 수 있기를 바랍니다. 계산적 추론. 그러나 현재의 방법들은 기본적으로 통합된 특징을 얻은 후 서로 다른 수준에서 특징을 처리하는 것만으로 멀티태스킹을 달성하는 데 공통적인 문제가 있는데, 이는 태스크 병합 이후 성능이 저하된다는 점이다. Multi-modality는 직접 융합할 수 있는 형태를 찾고 간단한 융합
BEVDet 시리즈
BEVDet
BEVDet 네트워크를 구현하는 전체 판단에서 거의 보편적입니다. 그림 2. 특성 추출 과정은 주로 추출된 영상 공간의 특징을 BEV 공간의 특징으로 변환한 후 이 특징을 추가로 인코딩하여 예측에 사용할 수 있는 특징을 얻고 최종적으로 조밀한 예측을 사용하여 대상을 예측하는 과정입니다.
그림 2 BEVDet 네트워크 구조
관점 변경 모듈 프로세스는 두 단계로 나누어집니다. 먼저 변환할 형상의 크기를 VxCxHxW라고 가정하고 깊이를 예측합니다. 분류 방식으로 이미지 공간을 분석하여 각 픽셀에 대한 D차원 깊이 분포를 얻은 다음 이 두 가지 기능을 사용하여 다양한 깊이 기능을 렌더링하여 시각적 특징을 얻은 다음 카메라 모델을 사용하여 이를 투영할 수 있습니다. 3차원 공간. 복셀화를 수행한 다음 스플랫 프로세스를 수행하여 BEV 특징을 얻습니다.
관점 변경 모듈의 매우 중요한 기능은 데이터 속도 저하에서 상호 격리 역할을 한다는 것입니다. 구체적으로, 카메라의 내부 매개변수를 통해 좌표를 유지하기 위해 영상 공간의 한 점에 데이터 증대를 적용하면 이를 3차원 공간에 투영하여 카메라 좌표계의 한 점을 얻을 수 있습니다. 즉, 카메라 좌표계의 좌표가 확대 전후에 변경되지 않아 상호 격리 효과가 있는 것입니다. 상호 격리의 단점은 이미지 공간의 확대가 BEV 공간 학습을 정규화하지 않는다는 것입니다. 장점은 BEV 공간 학습의 견고성을 향상시킬 수 있습니다
실험에서 결론적으로 몇 가지 중요한 점을 얻을 수 있습니다. 첫째, BEV 공간 인코더를 사용한 후에는 알고리즘이 과적합에 빠질 가능성이 더 높습니다. 또 다른 결론은 BEV 공간의 확장이 이미지 공간의 확장보다 성능에 더 큰 영향을 미칠 것이라는 점이다.
BEV 공간의 타겟 크기와 카테고리 높이 사이에도 상관 관계가 있습니다. 동시에 타겟 간의 작은 중첩 길이로 인해 일부 문제가 발생하는 것으로 관찰되었습니다. 이미지 공간이 최적이 아닙니다. 동시 가속 전략의 핵심은 병렬 컴퓨팅 방법을 사용하여 서로 다른 소규모 컴퓨팅 작업에 독립적인 스레드를 할당하여 병렬 컴퓨팅 가속의 목적을 달성하는 것입니다. 장점은 추가 그래픽 메모리 오버헤드가 없다는 것입니다.
BEVDet4D
BEVDet4D 네트워크 구조는 그림 3에 나와 있습니다. 이 네트워크의 주요 초점은 역시간 프레임의 특징을 현재 프레임에 적용하는 방법입니다. 입력 특징을 보유 객체로 선택하지만 대상 변수가 BEV 공간에 정의되어 있으므로 이 이미지 특징을 선택하지 않습니다. , 및 이미지의 특성은 직접적인 타이밍 모델링에 적합하지 않습니다. 동시에, BEV 인코더 뒤에 있는 특징은 BEV 인코더에서 연속적인 특징을 추출해야 하기 때문에 연속 융합 특징으로 선택되지 않습니다.
관점 변경 모듈에서 출력되는 특징이 상대적으로 희박하다는 점을 고려하여 관점 변경 후 추가 BEV 인코더를 연결하여 예비 BEV 특징을 추출한 후 시계열 모델링을 수행합니다. 타이밍 융합 중에는 타이밍 융합을 완료하기 위해 시계 반대 방향 프레임의 기능을 현재 바늘과 연결하기만 하면 됩니다. 실제로 여기서는 타이밍 기능을 추출하는 작업을 BEV에 맡깁니다.
그림 3 BEVDet4D 네트워크 구조
네트워크 구조에 맞는 타겟 변수를 어떻게 설계하나요? 그 전에 먼저 네트워크의 몇 가지 주요 특성을 이해해야 합니다. 첫 번째는 기능의 수용 필드입니다. 네트워크는 BP를 통해 학습하므로 기능의 수용 필드는 출력 공간에 의해 결정됩니다.
자율주행 인식 알고리즘의 출력 공간은 일반적으로 자율주행차 주변의 특정 범위 내의 공간으로 정의됩니다. 특징 맵은 연속 공간의 균일하게 분포되고 모서리 정렬된 이산 샘플로 간주할 수 있습니다. . 특징 맵의 수용 필드는 자가 차량 주변의 특정 범위 내에서 정의되므로 자가 차량의 움직임에 따라 변경됩니다. 따라서 서로 다른 두 시간 노드에서 특징 맵의 수용 필드는 특정 값을 갖습니다. 세계 좌표계의 값. 특정 오프셋.
두 특징을 직접 접합하면 두 특징 맵에서 정적 대상의 위치가 다르며 두 특징 맵에서 동적 대상의 오프셋은 자체 오프셋의 오프셋과 같습니다. test plus 세계 좌표계에서 위쪽 동적 대상의 오프셋입니다. 패턴 일관성의 원리에 따르면, 스플라이싱된 특징에서 타겟의 오프셋은 차량과 관련되므로 네트워크의 학습 목표를 설정할 때 이들에서 타겟의 위치 변화가 되어야 합니다. 두 개의 기능 맵.
다음 수식에 따르면 학습 목표는 셀프 테스트 이동과 관련이 없고, 세계 좌표계에서 목표의 이동에만 관련이 있음을 추론할 수 있습니다.
위에서 도출한 학습 목표와 현재 주류 방식의 학습 목표의 차이점은 시간 구성 요소가 제거되고 속도가 변위/시간과 동일하다는 점입니다. 그러나 이 두 기능은 시간 관련 기능을 제공하지 않습니다. 단서가 있으므로 이것을 배우면 속도 목표를 위해서는 네트워크가 시간 구성 요소를 정확하게 추정해야 하므로 학습 난이도가 높아집니다. 실제로 훈련 과정에서 두 프레임 사이의 시간을 상수 값으로 설정할 수 있습니다. BP를 학습하면 일정한 시간 간격 네트워크를 학습할 수 있습니다.
시간 영역 확대에서는 훈련 과정에서 서로 다른 시간 간격을 무작위로 사용합니다. 서로 다른 시간 간격에서 두 그림의 목표 오프셋도 다르며 학습의 목표 오프셋도 다릅니다. , 다양한 오프셋에서 모델의 루팡 효과를 달성하기 위해. 동시에 모델은 대상의 오프셋에 대해 특정 민감도를 갖습니다. 즉, 간격이 너무 작으면 두 프레임 사이의 변화가 너무 작으면 감지하기 어렵습니다. 따라서 테스트 중에 적절한 시간 간격을 선택하면 모델의 일반화 성능을 효과적으로 향상시킬 수 있습니다.
BEVDepth
이 기사에서는 그림 4와 같이 레이더를 사용하여 강력한 깊이 추정치를 얻습니다. 변경 모듈에서 깊이 분포를 감독하기 위해 포인트 클라우드를 사용합니다. 이 감독은 대상이 제공하는 깊이 감독에 비해 밀도가 높지만 모든 픽셀에 도달하지는 않습니다. 그러나 이 깊이 추정의 일반화 성능을 향상시키기 위해 더 많은 샘플을 제공할 수 있습니다.
그림 4 BEVDepth 네트워크 구조
이 작업의 또 다른 측면은 추정을 위해 특징과 깊이를 두 개의 분기로 나누고 깊이 추정 분기에 추가 잔여 네트워크를 추가하는 것입니다. 깊이 추정 분기의 수용 필드입니다. 연구자들은 카메라의 내부 및 외부 매개변수의 정확성으로 인해 상황과 깊이가 잘못 정렬될 것이라고 믿습니다. 깊이 추정 네트워크가 충분히 강력하지 않으면 정확도가 어느 정도 손실될 수 있습니다.
마지막으로 이 카메라의 내부 매개변수는 깊이 추정 분기 입력으로 사용되며 NSE와 유사한 방법을 사용하여 채널 수준에서 입력 기능의 채널을 조정하므로 다른 카메라에 대한 네트워크의 응답을 효과적으로 향상시킬 수 있습니다. 견고성의 내부 매개변수.
제한사항 및 관련 논의
우선 자율주행에 대한 시각적 인식은 궁극적으로 배포에 도움이 되며, 배포 중에는 데이터 문제와 모델 문제가 수반됩니다. 데이터 문제에는 다양성 문제와 데이터 주석이 포함됩니다. 수동 주석은 매우 비용이 많이 들기 때문에 향후 자동 주석이 달성될 수 있는지 알아볼 것입니다.
현재 동적 대상의 라벨링은 전례가 없습니다. 정적 대상의 경우 3D 재구성을 통해 부분 또는 반자동 라벨링을 얻을 수 있습니다. 모델 측면에서 현재 모델 설계는 보정에 견고하지 않거나 보정에 민감합니다. 따라서 모델을 보정에 견고하게 만들거나 보정에 독립적으로 만드는 방법도 생각해 볼 가치가 있는 문제입니다.
다른 하나는 네트워크 구조 가속화 문제입니다. 일반 OP를 사용하여 관점 변화를 달성할 수 있습니까? 이 문제는 네트워크 가속화 프로세스에 영향을 미칩니다.
위 내용은 시각 자율주행을 위한 최신 기술 경로에 대한 간략한 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

첫 번째 파일럿 및 주요 기사에서는 주로 자율 주행 기술에서 일반적으로 사용되는 여러 좌표계를 소개하고 이들 간의 상관 관계 및 변환을 완료하고 최종적으로 통합 환경 모델을 구축하는 방법을 소개합니다. 여기서 초점은 차량에서 카메라 강체로의 변환(외부 매개변수), 카메라에서 이미지로의 변환(내부 매개변수), 이미지에서 픽셀 단위로의 변환을 이해하는 것입니다. 3D에서 2D로의 변환에는 해당 왜곡, 변환 등이 포함됩니다. 요점: 차량 좌표계와 카메라 본체 좌표계를 다시 작성해야 합니다. 평면 좌표계와 픽셀 좌표계 난이도: 이미지 평면에서 왜곡 제거와 왜곡 추가를 모두 고려해야 합니다. 2. 소개 좌표계에는 픽셀 평면 좌표계(u, v), 이미지 좌표계(x, y), 카메라 좌표계(), 월드 좌표계() 등 총 4가지 비전 시스템이 있습니다. 각 좌표계 사이에는 관계가 있으며,

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아
