실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!-일체 포함-php.cn

위 작성 및 저자의 개인적인 이해

자율주행 시스템에서 인지 작업은 전체 자율주행 시스템의 중요한 구성 요소입니다. 인지 작업의 주요 목표는 자율주행차가 도로를 주행하는 차량, 길가의 보행자, 주행 중 직면하는 장애물, 도로 위의 교통 표지판 등 주변 환경 요소를 이해하고 인지하여 하류에 도움을 주는 것입니다. 모듈 정확하고 합리적인 결정과 행동을 취하십시오. 자율주행 기능을 갖춘 차량에는 일반적으로 자율주행차가 주변 환경을 정확하게 인식하고 이해할 수 있도록 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등과 같은 다양한 유형의 정보 수집 센서가 장착됩니다. 요소를 통해 자율주행 차량이 자율주행 중에 올바른 결정을 내릴 수 있습니다.

현재 순수 이미지 기반 시각적 인식 방법은 LiDAR 기반 인식 알고리즘에 비해 하드웨어 비용과 배포 비용이 저렴해 업계와 학계에서 폭넓은 관심을 받고 있습니다. BEV 장면에서 3D 객체 인식 작업과 의미론적 분할 작업을 달성하기 위해 뛰어난 시각적 인식 알고리즘이 많이 등장했습니다. 기존 3D 타겟 인식 알고리즘은 탐지 성능에서 상당한 발전을 이루었지만 실제 적용에서는 여전히 점차 드러나는 몇 가지 문제가 있습니다.

원래 3D 타겟 인식 알고리즘은 데이터 세트에 존재하는 문제를 잘 해결할 수 없습니다. 롱테일 문제 , 현실 세계에 존재하지만 현재 훈련 데이터 세트에 표시되지 않을 수 있는 객체(예: 도로 위의 큰 암석, 전복된 차량 등)
원래 3D 객체 인식 알고리즘은 일반적으로 직접 출력합니다. 대략적인 3D 입체 경계 상자는 임의 모양의 대상 객체를 정확하게 묘사할 수 없으며 객체의 모양과 기하학적 구조의 표현이 충분히 세밀하지 않습니다. 이 출력 결과 상자는 연결된 버스나 긴 후크가 있는 건설 차량 등 대부분의 객체 장면을 만족시킬 수 있지만 현재의 3D 인식 알고리즘은 정확하고 명확한 설명을 제공할 수 없습니다

위를 기반으로 언급된 관련 문제에 대해 그리드 점유 네트워크(Occupancy Network) 감지 알고리즘을 제안하였다. 본질적으로 Occupancy Network 인식 알고리즘은 3D 공간 장면을 기반으로 한 의미론적 분할 작업입니다. 순수 비전 기반 Occupancy Network 인식 알고리즘은 현재의 3D 공간을 3D 복셀 그리드로 분할하고, 수집된 주변 이미지를 자율주행차에 장착된 주변 카메라 센서를 통해 네트워크 모델로 전송한 후 알고리즘 모델을 처리 및 예측, 출력합니다. 현재 공간의 각 3D 복셀 그리드의 점유 상태와 가능한 대상 의미 범주를 파악하여 현재 3D 공간 장면에 대한 포괄적인 인식을 달성합니다.

최근 몇 년 동안 Occupancy Network를 기반으로 한 인식 알고리즘은 더 나은 인식 이점으로 인해 연구자들로부터 광범위한 주목을 받았습니다. 현재 이러한 유형의 알고리즘의 탐지 성능을 향상시키기 위한 많은 우수한 연구가 등장했습니다. 보다 강력한 특징 추출 방법 제안, 2D 특징에서 3D 특징으로의 조정 변환 방법, 보다 복잡한 네트워크 구조 설계, 모델 학습을 돕기 위해 Occupancy Ground Truth 주석을 보다 정확하게 생성하는 방법 등을 제안합니다. 그러나 기존의 많은 Occupancy Network 인식 방법은 모델 예측 및 추론 과정에서 심각한 계산 오버헤드를 가지고 있어 이러한 알고리즘이 자율 주행을 위한 실시간 인식 요구 사항을 충족하기 어렵고 차량에 배포하기가 어렵습니다.

저희는 혁신적인 Occupancy Network 예측 방법을 제안합니다. 현재 선도적인 인식 알고리즘과 비교하여 FastOcc 알고리즘은 실시간 추론 속도와 뛰어난 감지 성능을 갖추고 있습니다. 다음 그림은 제안한 알고리즘과 다른 알고리즘 간의 성능 및 추론 속도의 차이를 시각적으로 비교할 수 있습니다.

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다! FastOcc 알고리즘과 다른 SOTA 알고리즘의 정확도 및 추론 속도 비교

논문 링크: https://arxiv.org/pdf/2403.02710.pdf

네트워크 모델의 전체 아키텍처 및 세부 사항

순서 Network Perception 알고리즘의 추론 속도를 위해 입력 영상의 해상도, 특징 추출 백본 네트워크, 관점 변환 방법, 그리드 예측 헤드의 구조 등 4가지 부분에 대한 실험을 진행했습니다. 실험 결과, 우리는 그리드 예측 헤드 컨볼루션(Convolution) 또는 디컨볼루션(Deconvolution)의 3차원 구조가 시간이 많이 걸리는 최적화를 위한 여지가 많다는 것을 발견했습니다. 이를 바탕으로 아래 그림과 같이 FastOcc 알고리즘의 네트워크 구조를 설계했습니다.

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다! FastOcc 알고리즘 네트워크 구조 다이어그램

전체적으로 제안된 FastOcc 알고리즘은 3개의 하위 모듈을 포함합니다. 즉, 다중 규모 특징 추출을 위한 이미지 특징 추출, 원근 변환을 위한 뷰 변환, 점유 예측 헤드에 사용됩니다. 지각적 출력을 달성하려면 이 세 부분의 세부 사항을 별도로 소개하겠습니다.

이미지 특징 추출

제안된 FastOcc 알고리즘의 경우 네트워크 입력은 여전히 수집된 서라운드 이미지입니다. 여기서는 ResNet 네트워크 구조를 사용하여 서라운드 이미지의 특징 추출 프로세스를 완료합니다. 동시에 우리는 FPN 특징 피라미드 구조를 사용하여 백본 네트워크에서 출력되는 다중 스케일 이미지 특징을 집계합니다. 후속 표현의 편의를 위해 입력 이미지를 로, 특징 추출 후의 특징을 로 표현합니다.

뷰 변환

뷰 변환 모듈의 주요 기능은 2D 이미지 특징을 3D 공간 특징으로 변환하는 과정을 완료하는 동시에 알고리즘 모델의 비용을 줄이기 위해 특징을 변환하는 것입니다. 3D 공간으로의 변환은 일반적으로 대략적인 표현이지만, 여기서는 표현의 편의를 위해 3D 공간으로 변환된 특징을 다음과 같이 표시합니다. 여기서는 삽입된 특징 벡터의 차원을 나타내고 지각 공간의 길이, 너비 및 높이를 나타냅니다. 현재 인식 알고리즘 중 주류인 원근 변환 과정에는 두 가지 범주가 있습니다.

첫 번째 범주는 BEVFormer로 대표되는 역방향 좌표 변환 방식입니다. 이러한 유형의 방법은 일반적으로 먼저 3D 공간에서 복셀 쿼리를 생성한 다음 Cross-view Attention을 사용하여 3D 공간 및 2D 이미지 기능의 복셀 쿼리와 상호 작용하여 최종 3D 복셀 기능의 구성을 완료합니다.
한 가지 유형은 LSS로 표현되는 순방향 좌표 변환 방식입니다. 이러한 유형의 방법은 네트워크의 깊이 추정 네트워크를 사용하여 각 특징 픽셀 위치의 의미론적 특징 정보와 이산 깊이 확률을 동시에 추정하고, 외부 곱 연산을 통해 의미론적 절두체 특징을 구성하고, 마지막으로 VoxelPooling 레이어를 사용하여 최종 3D 복셀 구성.

LSS 알고리즘이 추론 속도와 효율성이 더 우수하다는 점을 고려하여 이 기사에서는 LSS 알고리즘을 원근 변환 모듈로 채택합니다. 동시에 각 픽셀 위치의 불연속 깊이가 추정된다는 점을 고려하면 불확실성으로 인해 모델의 최종 지각 성능이 어느 정도 제한됩니다. 따라서 우리의 특정 구현에서는 더 나은 인식 결과를 얻기 위해 깊이 방향의 감독을 위해 포인트 클라우드 정보를 활용합니다.

Raster Prediction Head(Occupancy Prediction Head)

위에 표시된 네트워크 구조 다이어그램에서 래스터 예측 헤드에는 BEV 특징 추출, 이미지 특징 보간 샘플링, Feature 통합이라는 세 가지 하위 부분도 포함되어 있습니다. . 다음으로 3단계 방식의 세부 내용을 하나씩 소개하겠습니다.

BEV 특징 추출

현재 대부분의 Occupancy Network 알고리즘은 원근 변환 모듈에서 얻은 3D 복셀 특징을 처리합니다. 처리 형태는 일반적으로 3차원 완전 컨벌루션 네트워크입니다. 구체적으로, 3차원 완전 컨벌루션 네트워크의 모든 레이어에 대해 입력 3차원 복셀 특징을 컨벌루션하는 데 필요한 계산량은 다음과 같습니다. 각각 기능 맵 공간 크기를 나타냅니다. 복셀 특징을 3D 공간에서 직접 처리하는 것과 비교하여 경량의 2D BEV 특징 컨볼루션 모듈을 채택합니다. 구체적으로, 원근 변환 모듈의 출력 복셀 특징에 대해 먼저 높이 정보와 의미론적 특징을 융합하여 2D BEV 특징을 얻은 다음 2D 완전 컨볼루션 네트워크를 사용하여 특징 추출을 수행하여 이 2D BEV 특징을 추출합니다. process 프로세스의 계산량은 다음과 같은 형태로 표현할 수 있습니다

3D와 2D 처리 프로세스의 계산량을 비교해보면, 기존의 3D 복셀 특징 추출을 경량의 2D BEV 특징 컨볼루션 모듈을 사용하여 대체한 것을 알 수 있습니다. , 모델의 계산량을 크게 줄일 수 있습니다. 동시에 두 가지 유형의 처리에 대한 시각적 흐름도는 아래 그림에 나와 있습니다. 래스터 예측 헤드 모듈의 계산량을 계산하기 위해 원근 변환 모듈에서 출력된 3차원 복셀 특징의 높이를 압축하고 특징 추출을 위해 2차원 BEV 컨볼루션 모듈을 사용합니다. 그러나 누락된 Z축 높이 특징 정보를 늘리고 모델 계산량을 줄이는 아이디어를 고수하기 위해 이미지 특징 보간 샘플링 방법을 제안했습니다.

구체적으로는 먼저 감지해야 하는 범위에 따라 해당 3차원 복셀 공간을 설정하고 이를 로 표시하는 자아 좌표계에 할당합니다. 둘째, 카메라의 외부 및 내부 좌표 변환 행렬을 사용하여 자아 좌표계의 좌표점을 이미지 좌표계에 투영하고 해당 위치의 이미지 특징을 추출하는 데 사용됩니다.

그 중 카메라의 내부 좌표 변환 행렬과 외부 좌표 변환 행렬을 각각 표현하며, 이미지 좌표계에 투영된 자아 좌표계의 공간점 위치를 나타냅니다. 해당 이미지 좌표를 얻은 후 이미지 범위를 초과하거나 음수 깊이를 갖는 좌표점을 필터링합니다. 그런 다음 쌍선형 보간 연산을 사용하여 투영된 좌표 위치에 따라 해당 이미지 의미 특징을 얻고, 모든 카메라 이미지에서 수집된 특징을 평균하여 최종 보간 샘플링 결과를 얻습니다. 실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

Feature 통합

획득된 평면 BEV 특징과 보간 샘플링으로 얻은 3D 복셀 특징을 통합하기 위해 먼저 업샘플링 작업을 사용하여 BEV 특징의 공간 차원과 3D 복셀 특징의 공간 차원을 정렬합니다. , Z축 방향으로 반복 작업을 수행하고, 작업 후 얻은 특징을 로 기록합니다. 그런 다음 이미지 특징을 보간 샘플링하여 얻은 특징을 연결하고 컨볼루셔널 레이어를 통해 통합하여 최종 복셀 특징을 얻습니다.

위에서 언급한 이미지 특징 보간 샘플링 및 특징 통합 프로세스는 전체적으로 다음 그림으로 나타낼 수 있습니다.

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

이미지 특징 보간 샘플링 및 특징 통합 프로세스

또한, BEV 특징 추출 모듈 출력 BEV 특징에는 후속 인식 프로세스를 완료하기에 충분한 특징 정보가 포함되어 있습니다. 즉, 의미론적 분할 작업을 먼저 수행하기 위해 의미론적 분할 헤드를 사용하고 Occupancy의 실제 값을 사용하여 추가 감독 방법을 채택합니다. 의미론적 분할을 구성하면 전체 감독 프로세스가 완료됩니다.

실험 결과 및 평가 지표

정량 분석 부분

먼저 Occ3D-nuScenes 데이터 세트에서 제안한 FastOcc 알고리즘과 다른 SOTA 알고리즘 간의 비교를 보여줍니다. 아래 표는

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

Occ3D-nuScenes 데이터셋의 각 알고리즘 인덱스를 비교한 것입니다

표의 결과를 보면 다른 알고리즘과 비교하여 우리가 제안한 FastOcc 알고리즘이 더 나은 성능을 보인다는 것을 알 수 있습니다. 대부분의 범주는 다른 알고리즘보다 더 많은 장점을 갖고 있으며 전체 mIoU 지표도 SOTA 효과를 달성합니다.

또한 다양한 원근 변환 방법과 래스터 예측 헤드에 사용되는 디코딩 기능 모듈이 지각 성능 및 추론 시간에 미치는 영향을 비교했습니다(실험 데이터는 백본인 입력 이미지 해상도 640×1600을 기준으로 함). 네트워크는 ResNet-101 네트워크를 사용함) 관련 실험 결과는 아래 표와 같이 비교됩니다

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

다양한 관점 변환 및 래스터 예측 헤드의 정확도 및 추론 시간 소모 비교

SurroundOcc 알고리즘은 여러 개의 스케일 교차를 사용합니다. -view Attention Perspective 변환 방법과 3D Convolution을 사용하여 추론 시간이 가장 높은 3D 복셀 특징을 추출합니다. 기존 Cross-view Attention 원근 변환 방식을 LSS 변환 방식으로 교체한 후 mIoU 정확도가 향상되고 시간 소모가 감소했습니다. 이를 기반으로 원래의 3D 컨볼루션을 3D FCN 구조로 대체함으로써 정확도를 더욱 높일 수 있지만 추론 시간도 크게 늘어납니다. 마지막으로 탐지 성능과 추론 시간 소비 간의 균형을 이루기 위해 LSS와 2D FCN 구조를 샘플링하는 좌표 변환 방법을 선택했습니다.

또한 BEV 특징과 이미지 특징 보간 샘플링을 기반으로 제안된 의미론적 분할 감독 작업의 효율성도 검증했습니다. 구체적인 절제 실험 결과는 아래 표에 나와 있습니다.

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

다양한 절제 실험 비교 모듈 상황

또한 모델에 대한 규모 실험을 수행하고 백본 네트워크의 크기와 해상도를 제어하여 Occupancy Network 인식 알고리즘 모델 세트(FastOcc, FastOcc-Small, FastOcc-Tiny)를 구축했습니다. 입력 이미지의 구체적인 구성은 아래 표에 나와 있습니다.

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

다양한 백본 네트워크 및 해상도 구성에 따른 모델 성능 비교

정성 분석 부분

다음 그림은 우리의 시각적 결과를 비교한 것입니다. 제안된 FastOcc 알고리즘 모델과 SurroundOcc 알고리즘 모델 상황을 통해 제안된 FastOcc 알고리즘 모델이 주변 환경 요소를 보다 합리적인 방식으로 채워 주행 차량과 나무에 대한 보다 정확한 인식을 달성한다는 것을 명확하게 알 수 있습니다.

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!

FastOcc 알고리즘과 SurroundOcc 알고리즘의 시각적 결과 비교

결론

본 글에서는 기존 Occupancy Network 알고리즘 모델이 감지하는 데 오랜 시간이 걸리고 차량에 배포하기 어려운 문제를 해결하기 위해 FastOcc 알고리즘 모델을 제안했습니다. 3D 복셀을 처리하는 기존 3D 컨볼루션 모듈을 2D 컨볼루션으로 대체함으로써 추론 시간을 대폭 단축하고, 다른 알고리즘에 비해 SOTA 인식 결과를 달성합니다.

위 내용은 실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!