이 알고리즘을 사용하면 온라인 고정밀 지도 구축이 가능합니다. 우리의 방법인 MapTracker는 1) 조감도(BEV) 공간의 래스터 잠재성과 2) 도로 요소(예: 횡단보도, 차선 및 도로 경계)의 벡터 잠재성이라는 두 가지 디스플레이의 메모리 버퍼에 센서 스트림을 축적합니다. 이 방법은 이전 프레임의 추적된 도로 요소를 현재 프레임과 명시적으로 연결하는 동시에 더 나은 결과를 얻기 위해 메모리 잠재 집합을 거리 보폭과 융합하는 객체 추적의 쿼리 전파 패러다임을 활용합니다. 오픈 소스 링크: https:/ /map-tracker.github.io/
요약하면 이 기사의 주요 기여는 다음과 같습니다.
HD 매핑을 추적 작업으로 공식화하는 새로운 벡터 HD 매핑 알고리즘, 그리고 시간적 일관성을 달성하기 위한 두 가지 표현
시간 일관성 있는 GT 및 일관성 인식 mAP 메트릭을 갖춘 향상된 벡터 HD 매핑 벤치마크
자율주행의 메모리 디자인. 단일 프레임 자율 주행 시스템은 폐색, 센서 오류 또는 복잡한 환경을 처리하는 데 어려움을 겪습니다. 메모리를 사용한 시간 모델링은 유망한 추가 기능을 제공합니다. 대부분의 자율 주행 작업의 기초를 형성하는 격자 BEV 기능을 위한 많은 메모리 설계가 존재합니다. BEVDet4D 및 BEVFormerv2는 여러 과거 프레임의 기능을 메모리에 중첩하지만 계산은 기록 길이에 따라 선형적으로 확장되므로 장기적인 정보를 캡처하기가 어렵습니다. VideoBEV는 BEV 래스터 쿼리를 프레임 전체에 전파하여 루프에 정보를 축적합니다. 벡터 도메인에서 Sparse4Dv2는 대상 쿼리에 유사한 RNN 스타일 메모리를 사용하는 반면 Sparse4Dv3은 강력한 시간 학습을 위해 시간 노이즈 제거를 추가로 사용합니다. 이러한 아이디어는 벡터 HD 매핑 방법에 부분적으로 통합되었습니다. 본 논문에서는 격자형 BEV 지연시간과 도로요소의 벡터 지연시간을 위한 새로운 메모리 설계를 제안한다.
벡터 HD 매핑. 전통적으로 고정밀 지도는 SLAM 기반 방법을 사용하여 오프라인으로 재구성한 후 수동으로 관리하므로 유지 관리 비용이 많이 듭니다. 정확성과 효율성이 향상됨에 따라 온라인 벡터 고정밀 지도 알고리즘은 오프라인 지도 알고리즘보다 더 많은 관심을 끌었으며, 이는 생산 프로세스를 단순화하고 지도 변경을 처리합니다. HDMapNet은 후처리를 통해 래스터 이미지 분할을 벡터 이미지 인스턴스로 변환하고 최초의 벡터 HD 매핑 벤치마크를 확립했습니다. VectorMapNet과 MapTR은 모두 엔드투엔드 예측을 위해 DETR 기반 변환기를 활용합니다. 전자는 감지된 각 곡선의 꼭지점을 자동회귀적으로 예측하는 반면, 후자는 계층적 쿼리와 매칭 손실을 사용하여 모든 꼭지점을 동시에 예측합니다. MapTRv2는 보조 작업 및 네트워크 수정을 통해 MapTR을 더욱 보완합니다. 곡선 표현, 네트워크 설계 및 교육 패러다임은 다른 작업의 초점입니다. StreamMapNet은 BEV 인식의 흐름 아이디어를 활용하여 일관된 매핑을 향한 한 걸음을 내디뎠습니다. 아이디어는 과거 정보를 메모리 잠재성에 축적하고 이를 조건(즉, 조건 감지 프레임워크)으로 전달하는 것입니다. SQD MapNet은 DN-DETR을 모방하고 시간 학습을 촉진하기 위해 시간 곡선 노이즈 제거를 제안합니다.
MapTracker
두 가지 간단한 아이디어와 메모리 메커니즘으로 일관된 매핑을 달성합니다. 첫 번째 아이디어는 현재 프레임에 단일 메모리 대신 기록 메모리 버퍼를 사용하는 것입니다. 단일 메모리는 전체 이력에 대한 정보를 보유해야 하지만, 특히 도로 구조물을 막고 있는 다수의 차량이 있는 복잡한 환경에서는 메모리를 잃기 쉽습니다. 특히 효율성과 적용 범위를 위해 차량 움직임을 기반으로 각 프레임에서 융합을 위한 과거 잠재 기억의 하위 집합을 선택합니다. 두 번째 아이디어는 온라인 HD 지도를 추적 작업으로 공식화하는 것입니다. VEC 메모리 메커니즘은 각 도로 요소에 대한 메모리 잠재 시퀀스를 유지하고 추적 문헌에서 쿼리 전파 패러다임을 빌려 이 공식을 간단하게 만듭니다. 이 섹션의 나머지 부분에서는 BEV 및 VEC 메모리 버퍼와 해당 네트워크 모듈을 포함한 신경 아키텍처(그림 2 및 3 참조)를 설명하고 훈련 세부 사항을 소개합니다.
BEV 메모리는 BEV 좌표계의 2D 잠재성으로, 차량을 중심으로 하고 t번째 프레임을 향합니다. 공간 차원(예: 50×100)은 왼쪽/오른쪽 15m, 앞/뒤 30m의 직사각형 영역을 포함합니다. 각 메모리 대기 시간은 전체 과거 정보를 축적하고 버퍼는 마지막 20프레임에서 이러한 메모리 잠재성을 유지하므로 메모리 메커니즘이 중복되지만 강력해집니다.
VECmemory는 벡터 지연 시간의 집합이며, 각 벡터 지연 시간은 프레임 t까지 활성 도로 요소의 정보를 축적합니다. 활성 요소의 수는 프레임마다 변경됩니다. 버퍼는 지난 20개 프레임의 잠재 벡터와 프레임 간의 대응 관계(즉, 동일한 도로 요소에 해당하는 벡터의 잠재 시퀀스)를 보유합니다.
입력은 1) 공중 서라운드 이미지의 CNN 기능과 이미지 백본에 의해 처리되는 카메라 매개변수, 2) BEV 메모리 버퍼, 3) 차량 모션입니다. 다음은 BEV 모듈 아키텍처의 네 가지 구성 요소와 해당 출력에 대해 설명합니다.
출력은 1) 버퍼에 저장되어 VEC 모듈에 전달된 최종 메모리 MBEV(t)와 2) 분할 헤드에서 추론하여 손실 계산에 사용되는 래스터화된 도로 요소 형상 S(t)입니다. 분할 헤드는 메모리의 각 픽셀을 2×2 분할 마스크에 투영하여 100×200 마스크를 생성하는 선형 투영 모듈입니다.
입력은 BEV 메모리 MBEV(t) 및 벡터 메모리 버퍼 및 차량 동작입니다.
출력은 1) MVEC(t)의 단일 완전 연결 레이어 분류를 통해 테스트된 "양성" 도로 요소의 최종 메모리 및 2) MVEC(t) 벡터 도로 형상의 3계층 MLP에 의해 회귀된 것입니다. 긍정적인 도로 요소가 포함되어 있습니다.
BEV 손실:
VEC 손실. 다중 객체 추적을 위한 엔드투엔드 변환기인 MOTR에서 영감을 받아 일치 기반 손실을 확장하여 GT 추적을 명시적으로 고려합니다. 새 요소에 대한 최적의 인스턴스 수준 레이블 할당은 다음과 같이 정의됩니다.
그런 다음 모든 출력과 GT 사이의 레이블 할당 Ω(t)는 귀납적으로 정의됩니다.
벡터 출력에 대한 추적 스타일 손실은 다음과 같습니다.
전환 손실. 우리는 벡터 기하학과 클래스 유형을 보존하기 위해 잠재 공간에서 쿼리 변환을 강제하는 PropMLP를 훈련하기 위해 StreamMapNet에서 변환 손실 Ltrans를 빌려왔습니다. 최종 훈련 손실은 다음과 같습니다.
MapTR은 많은 후속 연구에서 채택된 nuScenes 및 Agroverse2 데이터 세트에서 벡터 HD 매핑 벤치마크를 만들었습니다. 그러나 횡단보도는 순진하게 병합되어 프레임 전체에 걸쳐 일관성이 없습니다. 분할선은 그래프 추적 프로세스의 실패(Argoverse2의 경우)와도 일치하지 않습니다.
StreamMapNet은 VectorMapNet의 코드를 상속하고 워크숍 챌린지에 사용된 더 나은 사실성을 갖춘 벤치마크를 생성합니다. 그러나 몇 가지 문제가 남아 있습니다. Argoverse2의 경우 구분선이 더 짧은 세그먼트로 분할되는 경우가 있습니다. NuScene의 경우 큰 횡단보도는 때때로 작은 루프를 분할하여 불일치가 각 프레임에 무작위로 나타나 일시적으로 일관되지 않은 표현이 발생합니다. 부록에서는 기존 벤치마크 문제의 시각화를 제공합니다.
기존 기준선의 처리 코드를 개선하여 (1) 각 프레임의 GT 형상을 강화한 다음 (2) 프레임 간의 대응성을 계산하여 GT "궤적"을 형성했습니다.
(1) 모든 프레임 형상을 향상시킵니다. 우리는 커뮤니티에서 널리 사용되는 MapTR 코드베이스를 계승하고 개선했으며 두 가지 변경 사항을 적용했습니다. 보행 영역 처리를 StreamMapNet의 처리로 대체하고 더 많은 기하학적 제약으로 품질을 개선했으며 원래 주석의 노이즈를 처리하여 시간적 일관성을 향상시키는 그래프 추적 알고리즘을 향상했습니다. 구분선 처리(Argoverse2에만 해당).
(2) 트랙을 형성합니다. 각 프레임의 도로 요소의 기하학적 구조를 고려하여 각 인접 프레임 쌍 간의 최적 이분 매칭 문제를 해결하여 도로 요소 간의 대응 관계를 설정합니다. 대응 쌍이 연결되어 도로 요소의 궤적을 형성합니다. 한 쌍의 도로 요소 간의 매칭 점수는 다음과 같이 정의됩니다. 도로 요소 형상은 다각형 곡선 또는 루프입니다. 차량 움직임을 기반으로 기존 프레임의 요소 형상을 새 프레임으로 변환한 다음 특정 두께의 두 곡선/루프를 인스턴스 마스크로 래스터화합니다. 조합의 교차점은 일치하는 점수입니다.
mAP 측정항목은 일시적으로 일관되지 않은 재구성에 불이익을 주지 않습니다. 표준 mAP 절차에서와 같이 재구성된 도로 요소와 각 프레임의 지상 실제값을 모따기 거리와 독립적으로 일치시킨 후 다음 검사를 통해 일시적으로 일치하지 않는 일치 항목을 제거합니다. 첫째, 추적 정보를 예측하지 않는 기본 방법의 경우 GT 시간 대응을 얻는 데 사용된 것과 동일한 알고리즘을 사용하여 재구성된 도로 요소의 궤적을 형성합니다(또한 속도를 희생하여 누락된 요소를 재식별하도록 알고리즘을 확장합니다. 자세한 내용은 부록). 다음으로, "조상"을 이전 프레임에서 동일한 궤적에 속하는 도로 요소로 둡니다. 시퀀스의 시작 부분부터 모든 프레임 일치(재구성된 요소 및 실제 요소)는 해당 조상 중 하나라도 일치하지 않는 경우 일시적으로 일관성이 없는 것으로 간주하여 제거합니다. 그런 다음 시간적으로 일관된 나머지 일치 항목을 사용하여 표준 mAP를 계산합니다.
우리는 8개의 NVIDIA RTX A5000 GPU를 사용하여 72 에포크의 nuScene과 35 에포크의 Argoverse2에서 모델을 훈련하는 동시에 StreamMapNet 코드베이스를 기반으로 시스템을 구축했습니다. 세 가지 훈련 단계의 배치 크기는 각각 16, 48, 16입니다. 훈련에는 약 3일이 소요되며 추론 속도는 약 10FPS입니다. 데이터세트, 측정항목, 기준 방법을 설명한 후 실험 결과를 제공합니다.
우리의 기여 중 하나는 MapTR과 StreamMapNet이라는 두 가지 기존 대응 항목에서 일시적으로 일관된 GT(Ground Truth)를 달성하는 것입니다. 표 1과 2는 세 GT(첫 번째 열에 표시) 중 하나에서 시스템을 훈련하고 테스트한 결과를 보여줍니다. 우리의 코드베이스는 StreamMapNet을 기반으로 하기 때문에 StreamMapNet GT와 임시 일관성 GT에서 시스템을 평가합니다.
nuScenes 결과. 표 1은 MapTRv2와 StreamMapNet 모두 GT를 사용하여 더 나은 mAP를 달성한다는 것을 보여줍니다. 이는 원래 GT의 불일치를 수정할 때 기대할 수 있는 것입니다. StreamMapNet의 개선은 시간적 모델링이 있고(MapTR은 그렇지 않음) 데이터의 시간적 일관성을 활용하기 때문에 약간 더 높습니다. MapTracker는 특히 일관된 GT가 원시 및 일관성 인식 mAP 점수에서 각각 8% 및 22% 이상 향상되므로 경쟁 방법보다 훨씬 뛰어납니다. MapTracker는 일관성 영역 mAP에 필요한 명시적인 추적 정보(즉, 프레임 간 요소의 대응 재구성)를 생성하는 유일한 시스템입니다. 간단한 매칭 알고리즘은 기준 방법에 대한 궤적을 생성합니다.
Argoverse2 결과. 표 2는 MapTRv2와 StreamMapNet 모두 일관된 GT를 사용하여 더 나은 mAP 점수를 달성한다는 것을 보여줍니다. 이는 일시적인 일관성 외에도 더 높은 품질의 GT(횡단보도 및 구분선용)를 갖고 있어 모든 방법에 도움이 됩니다. MapTracker는 모든 설정에서 다른 모든 기준보다 상당한 차이(예: 각각 11% 또는 8%)를 능가합니다. C-mAP(Consistency Awareness Score)는 StreamMapNet에 비해 18% 이상 향상된 우수한 일관성을 보여줍니다.
nuScenes 및 Agroverse2 데이터 세트의 공식 기차/테스트 분할에는 지리적 중복(예: 기차/테스트에 동일한 도로가 나타남)이 있어 과적합이 가능합니다. 표 3은 지리적으로 겹치지 않는 분할을 기반으로 StreamMapNet과 MapTracker가 제안한 최상의 기준 방법을 비교합니다. MapTracker는 상당한 차이로 일관되게 좋은 성능을 발휘하며 강력한 시나리오 간 일반화 기능을 보여줍니다. 두 가지 방법 모두 nuScenes 데이터세트의 성능이 저하됩니다. 세심하게 검사한 결과 도로 요소 감지에 성공했지만 회귀 좌표 오류가 커서 성능이 저하되었습니다. 부록에서는 추가 분석을 제공합니다.
표 4의 절제 연구는 MapTracker의 주요 설계 요소의 기여를 보여줍니다. 첫 번째 "기준" 항목은 StreamMapNet으로, 시간적 추론 기능이 없습니다(즉, BEV 및 벡터 흐름 메모리 및 모듈 없음). 두 번째 항목은 StreamMapNet입니다. 두 방법 모두 완전히 수렴될 때까지 110세대 동안 훈련되었습니다. 마지막 세 항목은 핵심 디자인 요소가 있거나 없는 MapTracker의 변형입니다. 첫 번째 변형은 BEV/VEC 모듈의 메모리 융합 구성 요소를 삭제합니다. 이 변형은 추적 공식을 활용하지만 단일 BEV/VEC 메모리에 의존하여 과거 정보를 유지합니다. 두 번째 변형은 메모리 버퍼와 메모리 융합 구성 요소를 추가하지만 스트라이드는 없습니다. 즉, 융합을 위해 최신 4프레임을 사용합니다. 이 변형은 성능을 향상시키고 메모리 메커니즘의 효율성을 보여줍니다. 마지막 변형은 메모리 스트라이드를 추가하여 메모리 메커니즘을 보다 효율적으로 사용하고 성능을 향상시킵니다.
그림 4는 nuScenes 및 Argoverse2 데이터 세트에 대한 MapTracker와 기준 방법의 정성적 비교를 보여줍니다. 더 나은 시각화를 위해 간단한 알고리즘을 사용하여 각 프레임 벡터 HD 맵을 글로벌 벡터 HD 맵으로 병합합니다. 병합 알고리즘과 각 프레임 재구성의 시각화에 대한 자세한 내용은 부록을 참조하세요. MapTracker는 보다 정확하고 깔끔한 결과를 생성하여 우수한 전반적인 품질과 시간적 일관성을 보여줍니다. 차량이 회전하거나 약간 앞으로 움직이지 않는 시나리오의 경우(그림 1의 두 가지 예 포함) StreamMapNet 및 MapTRv2는 불안정한 결과를 생성하여 깨지고 잡음이 많은 병합 결과를 초래할 수 있습니다. 이는 주로 감지 기반 공식이 복잡한 차량 움직임에서 시간적으로 일관된 재구성을 유지하는 데 어려움을 겪기 때문입니다.
이 문서에서는 온라인 HD 매핑을 추적 작업으로 공식화하고 래스터 및 벡터 잠재 내역을 활용하여 시간적 일관성을 유지하는 MapTracker를 소개합니다. 우리는 쿼리 전파 메커니즘을 사용하여 추적된 도로 요소를 프레임 전체에 연결하고 선택된 메모리 항목 하위 집합을 거리 보폭과 융합하여 일관성을 향상시켰습니다. 또한 추적 라벨을 사용하여 일관된 GT를 생성하고 타이밍 일관성 검사를 통해 원시 mAP 측정항목을 향상함으로써 기존 기준을 개선합니다. MapTracker는 기존 측정항목을 사용하여 평가할 때 nuScenes 및 Agroverse2 데이터세트에 대한 기존 방법보다 훨씬 뛰어난 성능을 발휘하며 일관성 인식 측정항목을 사용하여 평가할 때 뛰어난 시간적 일관성을 보여줍니다.
Limitations: MapTracker의 두 가지 제한 사항을 확인했습니다. 첫째, 현재 추적 공식은 도로 요소의 병합 및 분할을 처리하지 않습니다(예: U자형 경계가 향후 프레임에서 두 개의 직선으로 분할되고 그 반대도 마찬가지임). 또한 기본적인 사실도 이를 적절하게 나타내지 않습니다. 둘째, 우리 시스템은 여전히 10FPS이고 실시간 성능은 특히 중요한 충돌 이벤트 중에 약간 부족합니다. 효율성을 최적화하고 보다 복잡한 실제 도로 구조를 처리하는 것이 우리의 미래 작업입니다.
위 내용은 온라인 지도가 여전히 이런 상태일 수 있나요? MapTracker: 추적을 사용하여 온라인 지도의 새로운 SOTA를 실현하세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!