새 제목: Sparse4D v3: 첨단 엔드 투 엔드 3D 감지 및 추적 기술
문서 링크: https://arxiv.org/pdf/2311.11722.pdf
다시 작성해야 하는 내용은 다음과 같습니다. 코드 링크: https://github.com/linxuewu/Sparse4D
재작성된 내용: 저자 소속은 Horizon Corporation
자율주행 인식 시스템에서 3D 감지와 추적은 두 가지 기본 작업입니다. 이 기사에서는 Sparse4D 프레임워크를 기반으로 이 영역을 더 자세히 살펴봅니다. 본 논문에서는 두 가지 보조 훈련 작업(Temporal Instance Denoising 및 Quality Estimation)을 소개하고 구조를 개선하기 위한 분리된 주의를 제안하여 탐지 성능을 크게 향상시킵니다. 또한, 본 논문에서는 추론 중에 인스턴스 ID를 할당하는 간단한 방법을 사용하여 탐지기를 추적기로 확장하여 쿼리 기반 알고리즘의 장점을 더욱 강조합니다. nuScenes 벤치마크에 대한 광범위한 실험을 통해 제안된 개선 사항의 효율성이 검증되었습니다. ResNet50을 백본으로 사용하면 mAP, NDS 및 AMOTA가 각각 3.0%, 2.2%, 7.6% 증가하여 각각 46.9%, 56.1%, 49.0%에 도달했습니다. 이 기사의 최고의 모델은 nuScenes 테스트 세트에서 NDS 71.9% 및 AMOTA 67.7%를 달성했습니다
Sparse4D-v3는 세 가지 효과적인 전략을 제안하는 강력한 3D 인식 프레임워크입니다. 시계열 인스턴스 노이즈 제거, 품질 추정 및 분리 주의
이 문서는 Sparse4D를 엔드투엔드 추적 모델로 확장합니다.
이 문서에서는 감지 및 추적 작업에서 최첨단 성능을 달성하여 NuScenes 개선의 효율성을 보여줍니다.
첫째, 희소 알고리즘은 밀집 알고리즘에 비해 수렴에서 더 큰 문제에 직면하여 최종 성능에 영향을 미치는 것으로 관찰되었습니다. 이 문제는 2D 검출 분야에서 잘 연구되어 왔습니다[17, 48, 53]. 주로 희소 알고리즘이 일대일 양성 샘플 매칭을 사용하기 때문입니다. 이 매칭 방법은 학습 초기 단계에서는 불안정하며, 일대다 매칭에 비해 양성 샘플 수가 제한되어 디코더 학습의 효율성이 떨어집니다. 또한 Sparse4D는 전역 교차 주의 대신 희소 특징 샘플링을 사용하므로 양성 샘플이 부족하여 인코더의 수렴을 더욱 방해합니다. Sparse4Dv2에서는 이미지 인코더가 직면한 이러한 수렴 문제를 부분적으로 완화하기 위해 고밀도 심층 감독이 도입되었습니다. 본 논문의 주요 목표는 디코더 훈련의 안정성에 초점을 맞춰 모델 성능을 향상시키는 것입니다. 본 논문에서는 잡음 제거 작업을 보조 감독으로 사용하고 잡음 제거 기술을 2D 단일 프레임 감지에서 3D 시간 감지로 확장합니다. 이는 안정적인 양성 샘플 매칭을 보장할 뿐만 아니라 양성 샘플의 수도 크게 증가시킵니다. 또한 본 논문에서는 보조 감독으로서 품질 평가 작업도 소개합니다. 이는 출력 신뢰도 점수를 보다 합리적으로 만들고 탐지 결과 순위의 정확도를 향상시켜 더 높은 평가 지표를 얻습니다. 또한 이 기사에서는 Sparse4D의 인스턴스 self-attention 및 Temporal Cross-Attention 모듈의 구조를 개선하고 Attention 가중치 계산 프로세스에서 기능 간섭을 줄이는 것을 목표로 하는 분리된 Attention 메커니즘을 소개합니다. 앵커 임베딩과 인스턴스 기능을 어텐션 계산의 입력으로 사용하면 어텐션 가중치에 이상치가 있는 인스턴스를 줄일 수 있습니다. 이는 대상 특징 간의 상관관계를 보다 정확하게 반영하여 올바른 특징 집계를 달성할 수 있습니다. 이 문서에서는 주의 메커니즘 대신 연결을 사용하여 이 오류를 크게 줄입니다. 이 증강 방법은 조건부 DETR과 유사하지만 주요 차이점은 이 논문에서는 쿼리 간의 Attention을 강조하는 반면, 조건부 DETR은 쿼리와 이미지 기능 간의 교차 주의에 중점을 둔다는 것입니다. 또한 이 기사에는 독특한 인코딩 방법도 포함되어 있습니다
인식 시스템의 엔드투엔드 기능을 향상시키기 위해 이 기사에서는 3D 다중 대상 추적 작업을 Sparse4D 프레임워크에 통합하여 직접 출력하는 방법을 연구합니다. 표적의 운동 궤적. 탐지 기반 추적 방법과 달리 이 문서에서는 데이터 연결 및 필터링이 필요하지 않아 모든 추적 기능을 탐지기에 통합합니다. 또한 기존의 관절 감지 및 추적 방법과 달리 우리의 추적기는 훈련 중에 손실 함수를 수정하거나 조정할 필요가 없습니다. 정답 ID를 제공할 필요는 없지만 사전 정의된 인스턴스-추적 회귀를 구현합니다. 이 기사의 추적 구현은 감지기의 훈련 프로세스를 수정하지 않고 추가 미세 조정 없이 감지기와 추적기를 완전히 통합합니다.
이것은 Sparse4D 프레임워크의 개요에 대한 그림 1입니다. 멀티뷰 비디오 및 출력은 모두 프레임의 지각 결과
그림 2: 추론 효율성(FPS) - 다양한 알고리즘의 nuScenes 검증 데이터 세트에 대한 지각 성능(mAP).
그림 3: 인스턴스 self-attention의 주의 가중치 시각화: 1) 첫 번째 행은 일반적인 self-attention의 주의 가중치를 보여줍니다. 여기서 빨간색 원 안의 보행자는 대상 차량(녹색 상자)과의 사고를 나타냅니다. 상관 관계. 2) 두 번째 행은 분리된 Attention의 Attention 가중치를 보여주며, 이는 이 문제를 효과적으로 해결합니다.
네 번째 그림은 시계열 인스턴스 노이즈 제거의 예를 보여줍니다. 훈련 단계에서 인스턴스는 학습 가능 부분과 시끄러운 부분의 두 부분으로 구성됩니다. 노이즈 인스턴스는 시간적 요소와 비시간적 요소로 구성됩니다. 본 논문에서는 양성 및 음성 샘플을 할당하기 위해 사전 매칭 방법을 채택합니다. 즉, 앵커를 Ground Truth와 일치시키는 반면 학습 가능한 인스턴스는 예측 및 Ground Truth와 일치시킵니다. 테스트 단계에서는 녹색 블록만 남습니다. 그룹 간에 기능이 확산되는 것을 방지하기 위해 주의 마스크가 사용됩니다. 회색은 쿼리와 키 사이에 주의가 없음을 의미하고, 녹색은 그 반대를 의미합니다. 그림 5: 앵커 인코더 및 주의 아키텍처를 참조하세요. 본 논문에서는 앵커의 여러 구성 요소에 대한 고차원 특징을 독립적으로 인코딩한 다음 이를 연결합니다. 이 접근 방식은 원래 Sparse4D에 비해 계산 및 매개변수 오버헤드를 줄입니다. E와 F는 각각 앵커 임베딩과 인스턴스 기능을 나타냅니다.
실험 결과:요약: 이 논문에서는 먼저 Sparse4D의 감지 성능 . 이 개선 사항에는 주로 일시적 인스턴스 노이즈 제거, 품질 추정 및 분리된 주의라는 세 가지 측면이 포함됩니다. 이어서 기사에서는 Sparse4D를 엔드투엔드 추적 모델로 확장하는 프로세스를 설명합니다. NuScenes에 대한 이 기사의 실험에서는 이러한 개선 사항이 성능을 크게 향상시켜 Sparse4Dv3를 해당 분야의 최전선에 두는 것을 보여줍니다.
ArXiv. /abs/2311.11722
위 내용은 Sparse4D v3가 출시되었습니다! 엔드투엔드 3D 감지 및 추적 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!