UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

PHPz
풀어 주다: 2024-01-23 12:36:15
앞으로
1133명이 탐색했습니다.

앞서 쓰기 & 개인적 이해

최근 자율주행 기술에서 비전 중심의 3D 인식이 급속도로 발전하고 있습니다. 3D 인식 모델은 구조적, 개념적으로 유사하지만 기능 표현, 데이터 형식 및 목표에는 여전히 차이가 있어 통합되고 효율적인 3D 인식 프레임워크를 설계하는 데 어려움이 있습니다. 따라서 연구자들은 보다 정확하고 안정적인 자율주행 시스템을 달성하기 위해 이러한 격차를 해소하기 위해 열심히 노력해야 합니다. 협력과 혁신을 통해 자율주행의 안전성과 성능을 더욱 향상시키길 바랍니다.

특히 BEV 하에서의 탐지 임무와 점유 임무의 경우 합동 훈련을 실시하여 좋은 결과를 얻기가 매우 어렵습니다. 이는 제어하기 어려운 불안정성과 효과로 인해 많은 응용 프로그램에 큰 문제를 가져옵니다. 그러나 UniVision은 비전 중심 3D 인식의 두 가지 주요 작업, 즉 점유 예측과 객체 감지를 통합하는 간단하고 효율적인 프레임워크입니다. 프레임워크의 핵심은 보완적인 2D-3D 기능 변환을 위한 명시적-암시적 뷰 변환 모듈입니다. 또한 UniVision은 효율적이고 적응 가능한 복셀 및 BEV 특징 추출, 향상 및 상호 작용을 위한 로컬 전역 특징 추출 및 융합 모듈도 제안합니다. UniVision은 이러한 방법을 채택함으로써 BEV 하의 감지 작업 및 점유 작업에서 만족스러운 결과를 얻을 수 있습니다.

UniVision은 다중 작업 프레임워크 훈련의 효율성과 안정성을 향상시키기 위해 공동 점유 감지 데이터 향상 전략과 점진적인 손실 가중치 조정 전략을 제안합니다. Scene-Free LiDAR 분할, Scene-Free 감지, OpenOccupancy 및 Occ3D를 포함한 4가지 공개 벤치마크에 대해 광범위한 실험이 수행되었습니다. 실험 결과 UniVision은 각 벤치마크에서 각각 +1.5mIoU, +1.8 NDS, +1.5mIoU 및 +1.8mIoU의 이득을 달성하여 SOTA 수준에 도달한 것으로 나타났습니다. 따라서 UniVision 프레임워크는 통합 비전 중심 3D 인식 작업을 위한 고성능 기준선 역할을 할 수 있습니다.

3D 인식 분야의 현황

3D 인식은 자율주행 시스템의 주요 임무입니다. 일련의 센서(라이다, 레이더, 카메라 등)에서 얻은 데이터를 활용하여 종합적으로 이해하는 것입니다. 후속 사용 계획 및 의사 결정을 위한 운전 장면. 과거에는 포인트 클라우드 데이터에서 파생된 정확한 3D 정보로 인해 3D 인식 분야가 LiDAR 기반 모델이 지배했습니다. 그러나 LiDAR 기반 시스템은 비용이 많이 들고 악천후에 취약하며 배포가 불편합니다. 반면 비전 기반 시스템은 저렴한 비용, 쉬운 배포, 우수한 확장성 등 많은 장점을 가지고 있습니다. 따라서 시각 중심의 3차원 인식은 연구자들로부터 폭넓은 주목을 받고 있다.

최근 비전 기반 3D 감지는 향상된 특징 표현 변환, 시간 융합 및 감독 신호 설계를 통해 상당한 발전을 이루었으며 LiDAR 기반 모델과의 격차는 계속해서 좁아지고 있습니다. 또한 최근 몇 년 동안 비전 기반 점유 작업도 빠르게 발전했습니다. 점유는 객체를 표현하기 위해 3D 상자를 사용하는 것과 달리 운전 장면의 기하학적, 의미적 특성을 보다 포괄적으로 설명할 수 있으며 객체의 모양 및 범주에 제한을 받지 않습니다.

탐지 방법과 점유 방법은 구조적, 개념적 유사성을 공유하지만, 이 두 가지 작업을 동시에 처리하고 상호 관계를 탐색하는 연구는 부족합니다. 점유 모델과 탐지 모델은 종종 서로 다른 특징 표현을 추출합니다. 점유 예측 작업에는 철저한 의미론적 및 기하학적 판단이 필요하므로 복셀 표현은 세밀한 3D 정보를 보존하는 데 널리 사용됩니다. 그러나 탐지 작업에서는 대부분의 물체가 더 적은 중첩으로 동일한 수평면에 있기 때문에 BEV 표현이 더 바람직합니다.

BEV 표현에 비해 복셀 표현은 정밀도는 높지만 효율성은 떨어집니다. 또한 많은 고급 연산자는 주로 2D 기능에 맞게 설계 및 최적화되어 있어 3D 복셀 표현과의 통합이 그리 간단하지 않습니다. BEV 표현은 시간 효율성과 메모리 효율성 측면에서 더 유리하지만, 높이 차원에서 구조적 정보가 손실되므로 조밀한 공간 예측에는 차선책입니다. 특징 표현 외에도 다양한 인식 작업은 데이터 형식과 목표도 다릅니다. 따라서 다중 작업 3D 인식 프레임워크 교육의 균일성과 효율성을 보장하는 것은 큰 과제입니다.

UniVision 네트워크 구조

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

UniVision 프레임워크의 전체 아키텍처는 그림 1에 나와 있습니다. 프레임워크는 주변 N개의 카메라로부터 다시점 이미지를 입력으로 받고, 이미지 특징 추출 네트워크를 통해 이미지 특징을 추출합니다. 다음으로 Ex-Im 뷰 변환 모듈을 사용하여 2D 이미지 특징을 3D 복셀 특징으로 변환합니다. 이 모듈은 깊이 기반 명시적 기능 강화와 쿼리 기반 암시적 기능 샘플링을 결합합니다. 뷰 변환 후 복셀 특징은 로컬 전역 특징 추출 및 융합 블록에 공급되어 로컬 상황 인식 복셀 특징과 전역 상황 인식 BEV 특징을 각각 추출합니다. 다음으로 교차 표현 기능 상호 작용 모듈을 통해 다양한 다운스트림 인식 작업을 위한 복셀 기능 및 BEV 기능에 대한 정보가 교환됩니다. 훈련 과정에서 UniVision 프레임워크는 효과적인 훈련을 위해 결합된 Occ-Det 데이터 향상과 점진적 손실 가중치 조정 전략을 사용합니다. 이러한 전략은 훈련 효과와 프레임워크의 일반화 능력을 향상시킬 수 있습니다. 즉, UniVision 프레임워크는 다시점 이미지 및 3D 복셀 특징 처리와 기능 상호 작용 모듈 적용을 통해 주변 환경을 감지하는 작업을 실현합니다. 동시에 데이터 강화 및 감량 가중치 조정 전략 적용을 통해 프레임워크의 훈련 효과가 효과적으로 향상됩니다.

1) Ex-Im View Transform

심도 기반 명시적 기능 향상. LSS 접근 방식은 다음과 같습니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

2) 쿼리 기반 암시적 기능 샘플링. 그러나 3차원 정보를 표현하는 데에는 몇 가지 단점이 있습니다. 의 정확도는 추정 깊이 분포의 정확도와 높은 상관관계가 있습니다. 게다가 LSS에 의해 생성된 포인트는 고르게 분포되지 않습니다. 포인트는 카메라 근처에 조밀하게 채워져 있고 멀리 있으면 희박합니다. 따라서 위의 단점을 보완하기 위해 쿼리 기반 기능 샘플링을 추가로 사용합니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

LSS에서 생성된 포인트와 비교하면 복셀 쿼리는 3D 공간에 균일하게 분포되어 있으며 LSS에서 사용되는 깊이 사전 정보와는 무관한 모든 훈련 샘플의 통계적 속성에서 학습됩니다. 따라서 서로 보완하며 뷰 변환 모듈의 출력 기능으로 연결됩니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

2) 로컬 전역 기능 추출 및 융합

입력 복셀 기능이 주어지면 먼저 Z에 기능을 중첩합니다. -axis , 컨벌루션 레이어를 사용하여 채널을 줄여 BEV 기능을 얻습니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

그런 다음 모델은 기능 추출 및 향상을 위해 두 개의 병렬 분기로 나뉩니다. 로컬 특징 추출 + 전역 특징 추출, 그리고 최종 교차 표현 특징 상호 작용! 그림 1(b)와 같습니다.

3) 손실 기능 및 감지 헤드

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

점진적인 손실 가중치 조정 전략. 실제로 위의 손실을 직접 통합하면 훈련 프로세스가 실패하고 네트워크가 수렴하지 못하는 경우가 종종 있는 것으로 나타났습니다. 훈련의 초기 단계에서 복셀 특징 Fvoxel은 무작위로 분포되며 점유 헤드와 감지 헤드의 감독은 수렴의 다른 손실보다 덜 기여합니다. 동시에 탐지 작업의 분류 손실 Lcls와 같은 손실 항목이 매우 크고 훈련 과정을 지배하므로 모델 최적화가 어렵습니다. 이러한 문제를 극복하기 위해 손실 가중치를 동적으로 조정하는 점진적인 손실 가중치 조정 전략이 제안된다. 구체적으로, 비이미지 레벨 손실(즉, 점유 손실 및 감지 손실)에 제어 매개변수 δ를 추가하여 다양한 훈련 에포크에서 손실 가중치를 조정합니다. 제어 가중치 δ는 처음에는 작은 값 Vmin으로 설정되고 N 훈련 에포크에 걸쳐 Vmax로 점차 증가합니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

4) 결합된 Occ-Det 공간 데이터 향상

3D 감지 작업에서는 일반적인 이미지 수준 데이터 향상 외에도 공간 수준 데이터 향상도 모델 성능 향상에 효과적입니다. 그러나 점유 작업에 공간 수준 향상을 적용하는 것은 간단하지 않습니다. 개별 점유 레이블에 데이터 확대(예: 무작위 크기 조정 및 회전)를 적용하면 결과 복셀 의미를 결정하기가 어렵습니다. 따라서 기존 방법은 점유 작업에서 무작위 뒤집기와 같은 단순한 공간 증대만을 적용합니다.

이 문제를 해결하기 위해 UniVision은 프레임워크에서 3D 감지 작업과 점유 작업을 동시에 향상시킬 수 있는 공동 Occ-Det 공간 데이터 증강을 제안합니다. 3D 박스 라벨은 연속적인 값이고 강화된 3D 박스는 훈련을 위해 직접 계산될 수 있으므로 탐지를 위해 BEVDet의 강화 방법을 따릅니다. 점유 레이블은 개별적이고 조작하기 어렵지만 복셀 특징은 연속적으로 처리될 수 있으며 샘플링 및 보간과 같은 작업을 통해 처리될 수 있습니다. 따라서 데이터 증대를 위해 점유 레이블에 직접 작업하는 대신 복셀 기능을 변환하는 것이 좋습니다.

구체적으로는 공간 데이터 증대가 먼저 샘플링되고 해당 3D 변환 행렬이 계산됩니다. 점유 라벨과 복셀 지수 의 경우 3차원 좌표를 계산합니다. 그런 다음 강화된 복셀 기능에서 복셀 인덱스를 얻기 위해 적용하고 정규화됩니다.:

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

실험 결과 비교

검증을 위해 여러 데이터 세트 사용, NuScenes LiDAR Segmentation, NuScenes 3D 객체 감지, OpenOccupancy 및 Occ3D.

NuScenes LiDAR 분할: 최근 OccFormer 및 TPVFormer에 따르면 카메라 이미지는 LiDAR 분할 작업의 입력으로 사용되며 LiDAR 데이터는 출력 기능을 쿼리하기 위한 3D 위치를 제공하는 데만 사용됩니다. mIoU를 평가 지표로 사용합니다.

NuScenes 3D 객체 감지: 감지 작업의 경우 nuScenes의 공식 측정항목인 nuScene 감지 점수(NDS)를 사용합니다. 이는 평균 mAP와 ATE(평균 변환 오류), 평균 척도 오류( ASE) ), 평균 방향 오류(AOE), 평균 속도 오류(AVE) 및 평균 속성 오류(AAE).

OpenOccupancy: OpenOccupancy 벤치마크는 nuScenes 데이터세트를 기반으로 하며 512×512×40 해상도의 의미론적 점유 라벨을 제공합니다. 레이블이 지정된 클래스는 mIoU를 평가 지표로 사용하는 LiDAR 분할 작업의 클래스와 동일합니다!

Occ3D: Occ3D 벤치마크는 nuScenes 데이터세트를 기반으로 하며 200×200×16 해상도에서 의미론적 점유 라벨을 제공합니다. Occ3D는 교육 및 평가를 위한 가시적 마스크도 제공합니다. 레이블이 지정된 클래스는 mIoU를 평가 지표로 사용하는 LiDAR 분할 작업의 클래스와 동일합니다!

1) NuScenes LiDAR Segmentation

표 1은 nuScenes LiDAR Segmentation 벤치마크 결과를 나타냅니다. UniVision은 최첨단 비전 기반 방법인 OccFormer보다 1.5% mIoU 더 뛰어난 성능을 발휘하며 리더보드에서 비전 기반 모델에 대한 새로운 기록을 세웠습니다. 특히 UniVision은 PolarNe 및 DB-UNet과 같은 일부 LiDAR 기반 모델보다 성능이 뛰어납니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

2) NuScenes 3D 객체 감지 작업

표 2에서 볼 수 있듯이 UniVision은 공정한 비교를 위해 동일한 교육 설정을 사용할 때 다른 방법보다 우수한 성능을 보이는 것으로 나타났습니다. 512×1408 이미지 해상도의 BEVDepth와 비교했을 때 UniVision은 mAP와 NDS에서 각각 2.4%와 1.1%의 이득을 얻었습니다. 모델이 확장되고 UniVision이 시간 입력과 결합되면 SOTA 기반 시간 감지기보다 훨씬 더 뛰어난 성능을 발휘합니다. UniVision은 더 작은 입력 해상도로 이를 달성하며 CBGS를 사용하지 않습니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

3) OpenOccupancy 결과 비교

OpenOccupancy 벤치마크 테스트 결과는 표 3과 같습니다. UniVision은 mIoU 측면에서 MonoScene, TPVFormer, C-CONet을 포함한 최신 비전 기반 점유 방법을 각각 7.3%, 6.5%, 1.5% 능가합니다. 또한 UniVision은 LMSCNet 및 JS3C-Net과 같은 일부 LiDAR 기반 방법보다 성능이 뛰어납니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

4) Occ3D 실험 결과

표 4에는 Occ3D 벤치마크 결과가 나와 있습니다. UniVision은 다양한 입력 이미지 해상도에서 mIoU 측면에서 최근 비전 기반 방법을 각각 2.7% 및 1.8% 이상 크게 능가합니다. BEVFormer와 BEVDet-stereo는 미리 훈련된 가중치를 로드하고 추론에 시간적 입력을 사용하는 반면 UniVision은 이를 사용하지 않지만 여전히 더 나은 성능을 달성한다는 점은 주목할 가치가 있습니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

5) 탐지 작업에서 구성 요소의 효율성

탐지 작업에 대한 절제 연구는 표 5에 나와 있습니다. BEV 기반 전역 특징 추출 분기를 기준 모델에 삽입하면 성능이 mAP 1.7%, NDS 3.0% 향상됩니다. 복셀 기반 점유 작업이 감지기에 보조 작업으로 추가되면 모델의 mAP 게인이 1.6% 증가합니다. 복셀 기능에서 교차 표현 상호 작용이 명시적으로 도입되면 모델은 기준선에 비해 mAP 및 NDS를 각각 3.5% 및 4.2% 개선하여 최고의 성능을 달성합니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

6) 작업 내 구성 요소 점유 효과

의 점유 작업에 대한 절제 연구에 대한 표 6에 나와 있습니다. 복셀 기반 로컬 특징 추출 네트워크는 기준 모델에 1.96% mIoU 이득을 제공합니다. 감지 작업이 보조 감시 신호로 도입되면 모델 성능이 0.4%mIoU 향상됩니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

7) 기타

표 5와 표 6은 UniVision 프레임워크에서 감지 작업과 점유 작업이 서로 보완적임을 보여줍니다. 감지 작업의 경우 점유 감독은 mAP 및 mATE 측정항목을 개선할 수 있으며, 이는 복셀 의미 학습이 감지기의 객체 형상(예: 중심성 및 규모)에 대한 인식을 효과적으로 향상한다는 것을 나타냅니다. 점유 작업의 경우 감지 감독은 전경 카테고리(즉, 감지 카테고리)의 성능을 크게 향상시켜 전반적인 개선을 가져옵니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

Occ-Det 공간 향상, Ex-Im 뷰 변환 모듈 및 점진적 손실 가중치 조정 전략의 결합 효과는 표 7에 나와 있습니다. 제안된 공간 확장 및 제안된 뷰 변환 모듈을 통해 mIoU, mAP 및 NDS 메트릭에 대한 감지 작업 및 점유 작업이 크게 향상되었습니다. 손실 가중치 조정 전략은 다중 작업 프레임워크를 효과적으로 훈련할 수 있습니다. 이것이 없으면 통합 프레임워크의 훈련이 수렴될 수 없으며 성능도 매우 낮습니다.

UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!

원본 링크: https://mp.weixin.qq.com/s/8jpS_I-wn1-svR3UlCF7KQ


위 내용은 UniVision은 차세대 통합 프레임워크를 도입합니다. BEV 감지 및 점유 이중 작업이 가장 발전된 수준에 도달했습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿