거리에 구애받지 않는 공식을 달성하기 위해 지면 높이로 회귀하여 카메라 인식 전용 방법에 대한 최적화 프로세스를 단순화합니다. 도로변 카메라의 3D 감지 벤치마크에서 이 방법은 이전의 모든 비전 중심 방법을 크게 능가합니다. BEVDepth에 비해 NDS +1.9% 및 mAP +1.1%의 상당한 개선이 이루어졌습니다. nuScenes 테스트 세트에서 이 방법은 NDS와 mAP가 각각 +2.8%와 +1.7% 증가하는 등 상당한 진전을 이루었습니다.
제목: BEVHeight++: 강력한 시각 중심 3D 객체 감지를 향하여
논문 링크: https://arxiv.org/pdf/2309.16179.pdf
저자 소속: Tsinghua University, Sun Yat-sen University, Cainiao Network, Beijing University
중국 최초의 자율주행 커뮤니티에서: 마침내 20개 이상의 기술 방향 학습 경로 구축 완료(BEV 인식/3D 감지/다중 센서 융합/SLAM 및 계획 등)
최근 자율주행 운전 시스템은 차량 센서를 위한 감지 방법 개발에 중점을 두고 있지만 종종 간과되는 대안은 감지 기능을 가시 범위 이상으로 확장하기 위해 스마트 길가 카메라를 사용하는 것입니다. 저자는 최첨단 비전 중심 BEV 감지 방법이 길가 카메라에서 제대로 작동하지 않는다는 것을 발견했습니다. 왜냐하면 이들 방법은 주로 자동차와 지면의 깊이 차이가 거리에 따라 급격히 줄어드는 카메라 중심 부근의 깊이를 회복하는 데 중점을 두기 때문입니다. 이 기사에서 저자는 이 문제를 해결하기 위해 BEVHeight++라는 간단하면서도 효과적인 방법을 제안합니다. 기본적으로 저자는 거리에 구애받지 않는 공식을 달성하기 위해 지면의 높이로 회귀하여 카메라 인식 전용 방법의 최적화 프로세스를 단순화합니다. 높이와 깊이 인코딩 기술을 결합함으로써 2D에서 BEV 공간으로의 보다 정확하고 강력한 투영이 달성됩니다. 이 방법은 도로변 카메라에 대한 인기 있는 3D 감지 벤치마크에서 이전의 모든 비전 중심 방법보다 훨씬 뛰어납니다. 자가 차량 장면의 경우 BEVHeight++는 깊이 전용 방법보다 성능이 뛰어납니다
특히 nuScenes 검증 세트에서 평가할 때 BEVDepth에 비해 NDS +1.9% 및 mAP +1.1%의 상당한 개선이 이루어졌습니다. 또한, nuScenes 테스트 세트에서 이 방법은 NDS와 mAP가 각각 +2.8%와 +1.7% 증가하는 등 상당한 진전을 이루었습니다.
그림 1: (a) 단안 이미지에서 3D 경계 상자를 생성하기 위해 최첨단 방법은 먼저 명시적 또는 암시적으로 픽셀당 깊이를 예측하여 전경 객체와 객체의 3D 위치를 결정합니다. 배경. 그러나 이미지의 픽셀당 깊이를 플롯했을 때 자동차가 카메라에서 멀어짐에 따라 지붕 위의 점과 주변 지면 사이의 차이가 빠르게 줄어들어 특히 원거리 객체의 경우 최적화가 최적이 아닌 것으로 나타났습니다. . (b) 대신, 픽셀당 높이를 지면에 플롯하고 이 차이가 거리에 관계없이 불가지론적이며 네트워크가 객체를 감지하는 데 시각적으로 더 적합하다는 것을 관찰합니다. 그러나 높이 예측만으로는 3D 위치를 직접 회귀할 수 없습니다. (c) 이를 위해 우리는 이 문제를 해결하기 위한 새로운 프레임워크 BEVHeight++를 제안합니다. 경험적 결과에 따르면 우리의 방법은 깨끗한 설정에서 5.49%, 잡음이 많은 설정에서 28.2%만큼 최상의 방법보다 성능이 뛰어난 것으로 나타났습니다.
예측 높이와 깊이 비교. (a) 이전 깊이 기반 방법과 제안된 높이 기반 파이프라인에 대한 개요입니다. 본 논문은 새로운 2D to 3D 프로젝션 모듈을 제안한다는 점에 유의하시기 바랍니다. (b) 픽셀당 깊이(상단)와 지면 높이(하단)의 히스토그램을 플로팅하면 깊이 범위가 200m를 넘는 반면 높이는 5m 이내이므로 높이를 배우기 더 쉬운 것을 명확하게 관찰할 수 있습니다.
이미지에는 대상의 행 좌표와 깊이 및 높이 사이에 상관관계가 있습니다. 이미지에서 대상의 위치는 (u, v)로 정의할 수 있습니다. 여기서 v는 이미지의 행 좌표를 나타냅니다. (a)에서는 정규 분포에 롤 및 피치 방향의 회전 오프셋을 추가하여 노이즈를 도입하는 시각적 예를 보여줍니다. (b)에서는 깊이 분포의 산점도를 보여줍니다. (c)에서는지면 위의 높이를 보여줍니다. 높이에 대한 노이즈 설정이 깊이에 비해 원래 분포와 더 많이 겹치는 것을 볼 수 있으며 이는 높이 추정이 더 강력하다는 것을 나타냅니다
BEVHeight++의 전체 프레임워크에는 깊이 기반 분기(청록색), 높이 기반 분기(녹색) 및 기능 융합 프로세스(회색)라는 세 가지 하위 네트워크가 포함되어 있습니다. 깊이 기반 파이프라인은 추정된 픽셀당 깊이를 사용하여 이미지 보기 기능을 깊이 기반 BEV 기능(D 기반 BEV)으로 변환합니다. 높이 기반 파이프라인은 이미지 뷰의 리프트 기능에 대한 지상 높이 예측을 사용하여 높이 기반 BEV 기능(H 기반 BEV)을 생성합니다. 특징 융합에는 이미지 융합과 조감도 융합이 포함됩니다. 이미지-뷰 융합은 후속 업그레이드 작업에 사용되는 계단식 높이 분포와 이미지 특징을 통해 융합 특징을 얻습니다. 조감도 융합은 Deformable Cross Attention을 통해 높이 기반 BEV 특징과 깊이 기반 BEV 특징으로부터 융합된 BEV 특징을 얻은 후 이를 감지 헤드의 입력으로 사용합니다
다시 작성해야 하는 내용은 다음과 같습니다. 원본 링크: https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w
위 내용은 저 멀리! BEVHeight++: 길가의 시각적 3D 타겟 감지를 위한 새로운 솔루션!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!