원제: Radocc: 렌더링 보조 증류를 통한 교차 양식 점유 지식 학습
논문 링크: https://arxiv.org/pdf/2312.11829.pdf
저자 소속: FNii, CUHK-Shenzhen SSE, CUHK-Shenzhen Huawei Noah's Ark Laboratory
컨퍼런스: AAAI 2024
3D 점유 예측은 다중 뷰 이미지를 사용하여 3D 장면의 점유 상태와 의미를 추정하는 것을 목표로 하는 새로운 작업입니다. 그러나 이미지 기반 장면 인식은 기하학적 사전 지식이 부족하여 정확한 예측을 달성하는 데 심각한 문제에 직면합니다. 본 논문에서는 이 작업에서 교차 모달 지식 증류를 탐색하여 이 문제를 해결합니다. 즉, 훈련 프로세스 중에 시각적 모델을 안내하기 위해 보다 강력한 다중 모달 모델을 활용합니다. 실제로 본 논문에서는 조감도(BEV) 인식에서 제안되고 널리 사용되는 특징 또는 로짓 정렬을 직접 적용해도 만족스러운 결과를 얻지 못한다는 점을 관찰했습니다. 이 문제를 극복하기 위해 본 논문에서는 3차원 점유 예측을 위한 렌더링 기반 증류 패러다임인 RadOcc를 소개합니다. 차별화 가능한 볼륨 렌더링을 사용하여 관점에 따른 깊이 및 의미 맵을 생성하고 교사 모델과 학생 모델의 렌더링된 출력 간의 두 가지 새로운 일관성 기준을 제안합니다. 구체적으로, 깊이 일관성 손실은 렌더링 광선의 종료 분포를 정렬하는 반면, 의미론적 일관성 손실은 VLM(비주얼 기본 모델)에 의해 안내되는 세그먼트 내 유사성을 모방합니다. nuScenes 데이터세트에 대한 실험 결과는 다양한 3D 점유 예측 방법을 개선하는 데 있어 이 기사에서 제안한 방법의 효율성을 보여줍니다. 예를 들어, 이 기사에서 제안한 방법은 mIoU 측정 기준에서 이 기사의 기준선을 2.2% 향상시키고 2.2%에 도달합니다. Occ3D 벤치마크에서는 50%입니다.
이 논문에서는 3D 점유율 예측을 위한 RadOcc라는 렌더링 기반 증류 패러다임을 소개합니다. 이는 3D-OP의 교차 모드 지식 증류를 탐구하는 최초의 논문으로, 이 작업에서 기존 BEV 증류 기술을 적용하는 방법에 대한 귀중한 통찰력을 제공합니다.
저자는 두 가지 새로운 증류 제약 조건, 즉 렌더링 깊이와 의미 일관성(RDC 및 RSC)을 제안합니다. 이러한 제약 조건은 비전 기반 모델에 따라 안내되는 광 분포 및 상관 행렬을 정렬하여 지식 전달 프로세스를 효과적으로 향상시킵니다. 이 접근 방식의 핵심은 깊이와 의미 정보를 활용하여 렌더링 프로세스를 안내함으로써 렌더링 결과의 품질과 정확성을 향상시키는 것입니다. 이 두 가지 제약 조건을 결합함으로써 연구원들은 상당한 개선을 달성하여 비전 작업의 지식 전달을 위한 새로운 솔루션을 제공했습니다.
제안된 방법을 적용한 RadOcc는 Occ3D 및 nuScenes 벤치마크에서 최첨단 밀도 및 희소 점유 예측 성능을 보여줍니다. 또한 본 논문에서 제안한 증류 방법이 여러 기본 모델의 성능을 효과적으로 향상시킬 수 있다는 것이 실험을 통해 입증되었습니다.
이 논문은 3D 점유 예측 작업을 위한 교차 모드 지식 증류를 연구한 최초의 논문입니다. BEV 감지 분야에서 BEV 또는 로짓 일관성을 사용한 지식 전달 방법을 기반으로, 본 논문에서는 이러한 증류 기술을 그림 1(a)와 같이 복셀 특징과 복셀 로짓 정렬을 목표로 하는 3D 점유 예측 작업으로 확장합니다. 그러나 예비 실험에서는 이러한 정렬 기술이 3D-OP 작업, 특히 네거티브 전달을 도입하는 이전 방법에서 심각한 문제에 직면하고 있음을 보여줍니다. 이러한 문제는 3D 객체 감지와 점유 예측 간의 근본적인 차이에서 비롯될 수 있습니다. 이는 보다 세밀한 인식 작업으로서 배경 객체뿐만 아니라 기하학적 세부 사항도 캡처해야 합니다.
위 과제를 해결하기 위해 이 논문에서는 미분 볼륨 렌더링을 사용하는 교차 모달 지식 증류를 위한 새로운 방법인 RadOcc를 제안합니다. RadOcc의 핵심 아이디어는 그림 1(b)와 같이 교사 모델과 학생 모델에서 생성된 렌더링 결과를 정렬하는 것입니다. 특히 이 기사에서는 카메라의 고유 및 외부 매개변수를 사용하여 복셀 특징의 볼륨 렌더링을 수행합니다(Mildenhall et al. 2021). 이를 통해 이 기사는 다양한 관점에서 해당 깊이 맵과 의미 맵을 얻을 수 있습니다. 렌더링된 출력 간의 더 나은 정렬을 달성하기 위해 이 문서에서는 새로운 RDC(렌더링 깊이 일관성) 및 RSC(렌더링 의미 일관성) 손실을 소개합니다. 한편, RDC 손실은 광선 분포의 일관성을 강화하여 학생 모델이 데이터의 기본 구조를 캡처할 수 있도록 합니다. 반면 RSC 손실은 시각적 기본 모델(Kirillov et al. 2023)을 활용하고 친화력 증류를 위해 사전 추출된 세그먼트를 활용합니다. 이 표준을 통해 모델은 다양한 이미지 영역의 의미론적 표현을 학습하고 비교할 수 있으므로 세밀한 세부 정보를 캡처하는 능력이 향상됩니다. 위의 제약 조건을 결합함으로써 본 논문에서 제안된 방법은 교차 모달 지식 증류를 효과적으로 활용하여 성능을 향상시키고 학생 모델을 더 잘 최적화합니다. 이 논문은 조밀하고 희박한 점유 예측에 대한 우리 접근 방식의 효율성을 보여 주며 두 작업 모두에서 최첨단 결과를 달성합니다.
그림 1: 렌더링 보조 증류. (a) 기존 방법은 특징이나 로짓을 정렬합니다. (b) 본 논문에서 제안하는 RadOcc 방법은 렌더링된 깊이 맵과 의미를 동시에 제한한다. 그림 2: RadOcc의 전체 프레임워크. 교사 네트워크는 다중 모드 모델이고 학생 네트워크는 카메라 입력만 허용하는 교사-학생 아키텍처를 채택합니다. 두 네트워크의 예측은 차별화 가능한 볼륨 렌더링을 통해 렌더링 깊이와 의미를 생성하는 데 사용됩니다. 새로 제안된 렌더링 깊이와 의미적 일관성 손실은 렌더링 결과 간에 채택됩니다.
그림 3: 렌더링 깊이 분석. 교사(T)와 학생(S)은 렌더링 깊이가 비슷하지만 특히 전경 객체의 경우 조명 종료 분포에 큰 차이가 있습니다.
그림 4: 친화도 행렬 생성. 이 기사에서는 먼저 VFM(Vision Foundation Model), 즉 SAM을 사용하여 세그먼트를 원본 이미지로 추출합니다. 이후, 이 글에서는 각 세그먼트에 렌더링된 의미적 특징에 대해 세그먼트 집계를 수행하여 선호도 매트릭스를 얻습니다.
위 내용은 교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!