LiDAR 포인트 클라우드 자체 감독 사전 학습 SOTA에 사용됩니다!-일체 포함-php.cn

LiDAR 포인트 클라우드 자체 감독 사전 학습 SOTA에 사용됩니다!

王林

풀어 주다： 2023-09-15 09:53:07

앞으로

1490명이 탐색했습니다.

LiDAR 포인트 클라우드 자체 감독 사전 학습 SOTA에 사용됩니다!

제목 아이디어:

마스크 자동 인코딩은 텍스트, 이미지 및 가장 최근의 포인트 클라우드로 구성된 Transformer 모델에 대한 성공적인 사전 학습 패러다임이 되었습니다. 원시 자동차 데이터 세트는 일반적으로 3D 객체 감지(OD)와 같은 작업에 대한 주석보다 수집 비용이 저렴하기 때문에 자가 감독 사전 학습에 적합합니다. 그러나 포인트 클라우드용 마스킹된 자동 인코더 개발은 합성 및 실내 데이터에만 중점을 두었습니다. 따라서 기존 방법에서는 표현과 모델을 균일한 점 밀도를 갖는 작고 조밀한 점 구름으로 맞춤화했습니다. 이 작업에서는 밀도가 희박하고 동일한 장면의 서로 다른 객체 간에 크게 달라질 수 있는 자동차 환경에서 포인트 클라우드의 마스크 자동 인코딩을 조사합니다. 이를 위해 본 논문에서는 복셀 표현을 위해 설계된 간단한 Masked Autoencoding 사전 훈련 방식인 Voxel-MAE를 제안합니다. 이 논문에서는 마스킹된 복셀을 재구성하고 비어 있지 않은 복셀과 빈 복셀을 구별하기 위해 Transformer 기반 3D 물체 감지기 백본을 사전 훈련합니다. 우리의 방법은 까다로운 nuScenes 데이터세트에서 1.75mAP 및 1.05NDS의 3D OD 성능을 향상시킵니다. 또한 사전 훈련에 Voxel-MAE를 사용하면 무작위 초기화를 통해 동등한 데이터보다 뛰어난 성능을 발휘하기 위해 주석이 달린 데이터가 40%만 필요하다는 것을 보여줍니다.

주요 기여:

본 논문에서는 Voxel-MAE(복셀화된 포인트 클라우드에 MAE 스타일의 자기 지도 사전 학습을 배포하는 방법)를 제안하고 이를 대규모 자동차 포인트 클라우드 데이터 세트인 nuScenes에서 수행하는 것으로 평가했습니다. . 이 기사의 방법은 자동차 포인트 클라우드 Transformer 백본을 사용한 최초의 자체 감독 사전 학습 방식입니다.

우리는 복셀 표현 방법을 맞춤화하고 고유한 재구성 작업 세트를 사용하여 복셀화된 포인트 클라우드의 특성을 포착합니다.

이 논문은 우리의 방법이 데이터 효율적이고 주석이 달린 데이터의 필요성을 줄인다는 것을 증명합니다. 사전 훈련을 통해 이 문서는 주석이 달린 데이터의 40%만 사용할 때 완전 지도 데이터보다 성능이 뛰어납니다.

또한 본 논문에서는 Voxel-MAE가 Transformer 기반 검출기의 성능을 mAP에서 1.75% 포인트, NDS에서 1.05% 포인트 향상시켜 기존 self-supervised 방법에 비해 성능을 2배 향상시키는 것으로 나타났습니다.

네트워크 디자인:

이 작업의 목적은 MAE 스타일 사전 훈련을 복셀화된 포인트 클라우드로 확장하는 것입니다. 핵심 아이디어는 그림 2와 같이 인코더를 사용하여 입력의 부분 관찰에서 풍부한 잠재 표현을 생성한 다음 디코더를 사용하여 원래 입력을 재구성하는 것입니다. 사전 훈련 후 인코더는 3D 물체 감지기의 백본으로 사용됩니다. 그러나 이미지와 포인트 클라우드의 근본적인 차이로 인해 Voxel-MAE의 효율적인 교육을 위해서는 일부 수정이 필요합니다.

LiDAR 포인트 클라우드 자체 감독 사전 학습 SOTA에 사용됩니다!

그림 2: 이 기사의 Voxel-MAE 방법. 먼저, 포인트 클라우드는 고정된 복셀 크기로 복셀화됩니다. 그림의 복셀 크기는 시각화 목적으로 과장되었습니다. 훈련 전에 비어 있지 않은 복셀의 상당 부분(70%)이 무작위로 마스크됩니다. 그런 다음 인코더는 눈에 보이는 복셀에만 적용되며 동적 복셀 기능 임베딩을 사용하여 이러한 복셀을 임베딩합니다[46]. 마스크된 비어 있지 않은 복셀과 무작위로 선택된 빈 복셀은 동일한 학습 가능한 마스크 토큰을 사용하여 삽입됩니다. 그런 다음 디코더는 마스크 토큰 시퀀스와 인코딩된 가시 복셀 시퀀스를 처리하여 마스크된 포인트 클라우드를 재구성하고 비어 있지 않은 복셀과 빈 복셀을 구별합니다. 사전 훈련 후에 디코더는 폐기되고 인코더는 마스크되지 않은 포인트 클라우드에 적용됩니다.

LiDAR 포인트 클라우드 자체 감독 사전 학습 SOTA에 사용됩니다!

그림 1: MAE(왼쪽)는 이미지를 고정된 크기의 겹치지 않는 패치로 나눕니다. 기존 마스크 포인트 모델링 방법(가운데)은 가장 먼 포인트 샘플링과 k-최근접 이웃을 사용하여 고정된 개수의 포인트 클라우드 패치를 생성합니다. 우리의 방법(오른쪽)은 겹치지 않는 복셀과 동적 포인트 수를 사용합니다.