> 기술 주변기기 > 일체 포함 > CVPR 2024 | 사실적인 장면 생성을 위한 LiDAR 확산 모델

CVPR 2024 | 사실적인 장면 생성을 위한 LiDAR 확산 모델

PHPz
풀어 주다: 2024-04-24 16:28:01
앞으로
848명이 탐색했습니다.

원제: Towards Realistic Scene Generation with LiDAR Diffusion Models

논문 링크: https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

코드 링크: https://lidar-diffusion.github. io

저자 소속: CMU Toyota Research Institute University of Southern California

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

논문 아이디어:

확산 모델(DM)은 사실적인 이미지 합성에 탁월하지만 LiDAR 장면 생성에 적응합니다. 존재는 큰 도전에 직면해 있습니다. 이는 주로 포인트 공간에서 작동하는 DM이 표현 기능의 대부분을 소비하는 LiDAR 장면의 곡선 패턴과 3차원 특성을 유지하는 데 어려움이 있기 때문입니다. 본 논문에서는 기하학적 압축을 학습 프로세스에 통합하여 실제 LiDAR 시나리오를 시뮬레이션하는 LiDAR 확산 모델(LiDM)을 제안합니다. 이 문서에서는 실제 LiDAR 패턴을 시뮬레이션하기 위한 곡선 압축과 완전한 3D 개체 컨텍스트를 얻기 위한 패치별 인코딩을 소개합니다. 이 세 가지 핵심 설계를 통해 본 논문에서는 포인트 기반 DM에 비해 높은 효율성(최대 107배 빠름)을 유지하면서 무조건 LiDAR 생성 시나리오에서 새로운 SOTA를 설정합니다. 또한 LiDAR 장면을 잠재 공간으로 압축함으로써 이 논문을 통해 DM은 의미 지도, 카메라 뷰, 텍스트 큐와 같은 다양한 조건에서 제어할 수 있습니다.

주요 기여:

이 논문에서는 임의의 입력 조건을 기반으로 사실적인 라이더 장면을 생성할 수 있는 생성 모델인 새로운 레이저 다트 확산 모델(LiDM)을 제안합니다. 우리가 아는 한, 이는 다중 모드 조건에서 LiDAR 장면을 생성할 수 있는 첫 번째 방법입니다.

이 문서에서는 사실적인 레이저 패턴을 유지하기 위한 곡선 수준 압축, 장면 수준 기하학 모델을 표준화하기 위한 점 수준 좌표 감독, 3D 객체의 컨텍스트를 완벽하게 캡처하기 위한 블록 수준 인코딩을 도입합니다.

이 논문에서는 범위 이미지, 희소 볼륨, 포인트 클라우드를 비롯한 다양한 표현을 비교하여 지각 공간에서 생성된 레이저 장면의 품질을 종합적이고 정량적으로 평가하기 위한 세 가지 지표를 소개합니다.

이 기사의 방법은 64라인 LiDAR 장면을 사용하여 무조건 장면 합성에서 최신 수준을 달성하고 포인트 기반 확산 모델에 비해 최대 107배의 속도 증가를 달성합니다.

웹 디자인:

최근 몇 년 동안 시각적으로 매력적이고 매우 사실적인 이미지를 생성할 수 있는 조건부 생성 모델이 급속히 발전했습니다. 이러한 모델 중에서 확산 모델(DM)은 완벽한 성능으로 인해 가장 널리 사용되는 방법 중 하나가 되었습니다. 임의의 조건에서 생성을 달성하기 위해 LDM(Latent Diffusion Model) [51]은 교차 주의 메커니즘과 컨벌루션 자동 인코더를 결합하여 고해상도 이미지를 생성합니다. 후속 확장(예: Stable Diffusion [2], Midjourney [1], ControlNet [72])은 조건부 이미지 합성의 잠재력을 더욱 향상시켰습니다.

이러한 성공은 이 기사의 생각을 촉발시켰습니다: 제어 가능한 확산 모델(DM)을 자율 주행 및 로봇 공학의 LiDAR 장면 생성에 적용할 수 있습니까? 예를 들어 경계 상자 세트가 주어지면 이러한 모델이 해당 LiDAR 장면을 합성하여 이러한 경계 상자를 고품질의 값비싼 주석 데이터로 변환할 수 있습니까? 아니면 이미지 세트만으로 3D 장면을 생성할 수 있나요? 더욱 야심차게 제어된 시뮬레이션을 위한 언어 기반 LiDAR 생성기를 설계할 수 있을까요? 이러한 서로 얽힌 질문에 답하기 위해 본 논문의 목표는 여러 조건(예: 레이아웃, 카메라 보기, 텍스트)을 결합하여 현실적인 LiDAR 장면을 생성할 수 있는 확산 모델을 설계하는 것입니다.

이를 위해 이 기사에서는 자율 주행 분야의 확산 모델(DM)에 대한 최근 연구에서 몇 가지 통찰력을 얻었습니다. [75]에서는 무조건 LiDAR 장면 생성을 위해 점 기반 확산 모델(예: LiDARGen)이 도입되었습니다. 그러나 이 모델은 종종 시끄러운 배경(예: 도로, 벽)과 흐릿한 물체(예: 자동차)를 생성하여 현실과 동떨어진 LiDAR 장면을 생성합니다(그림 1 참조). 또한 압축 없이 점을 분산시키면 추론 프로세스의 계산 속도가 느려집니다. 더욱이 패치 기반 확산 모델(즉, 잠재 확산 [51])을 LiDAR 장면 생성에 직접 적용하면 질적으로나 양적으로 만족스러운 성능을 달성하지 못합니다(그림 1 참조).

조건부 현실적인 LiDAR 장면 생성을 달성하기 위해 본 논문에서는 위의 질문에 답하고 최근 연구의 단점을 해결하기 위해 LiDM(LiDAR 확산 모델)이라는 곡선 기반 생성기를 제안합니다. LiDM은 경계 상자, 카메라 이미지, 의미 지도와 같은 임의의 조건을 처리할 수 있습니다. LiDM은 탐지[34, 43], 의미론적 분할[44, 66] 및 생성[75]과 같은 다양한 다운스트림 작업에서 매우 일반적으로 사용되는 LiDAR 장면 표현으로 범위 이미지를 활용합니다. 이러한 선택은 범위 이미지와 포인트 클라우드 사이의 가역적이고 무손실 변환과 고도로 최적화된 2D 컨볼루션 작업에서 얻은 상당한 이점을 기반으로 합니다. 확산 과정에서 LiDAR 장면의 의미론적, 개념적 본질을 파악하기 위해 우리의 방법은 확산 과정 전에 LiDAR 장면의 인코딩 지점을 지각적으로 동등한 잠재 공간으로 변환합니다.

실제 LiDAR 데이터의 현실적인 시뮬레이션을 더욱 향상시키기 위해 이 기사에서는 패턴 신뢰성, 기하학적 신뢰성, 객체 신뢰성이라는 세 가지 주요 구성 요소에 중점을 둡니다. 첫째, 본 논문에서는 [59]에서 영감을 받아 자동 인코딩 중에 점의 곡선 패턴을 유지하기 위해 곡선 압축을 활용합니다. 둘째, 기하학적 신뢰성을 달성하기 위해 이 논문에서는 오토인코더가 장면 수준의 기하학적 구조를 이해하도록 가르치는 점 수준 좌표 감독을 소개합니다. 마지막으로 시각적으로 더 큰 개체의 전체 컨텍스트를 캡처하기 위해 추가 블록 수준 다운샘플링 전략을 추가하여 수용 필드를 확장합니다. 이러한 제안된 모듈에 의해 강화된 지각 공간은 확산 모델이 고품질 LiDAR 장면(그림 1 참조)을 효율적으로 합성하는 동시에 포인트 기반 확산 모델(NVIDIA에서 평가됨)에 비해 속도 측면에서 우수한 성능을 발휘할 수 있게 해줍니다. RTX 3090)이며 모든 유형의 이미지 기반 및 토큰 기반 조건을 지원합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 1. 우리의 방법(LiDM)은 무조건적인 LiDAR 현실적인 장면 생성에서 새로운 SOTA를 설정하고 다양한 입력 양식에서 조건부 LiDAR 장면을 생성하는 방향에 이정표를 표시합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 2. LiDAR 압축(섹션 3.3 및 3.5 참조), 다중 모드 조건화(섹션 3.4 참조) 및 LiDAR 확산(섹션 3.5 참조)의 세 부분을 포함하는 64라인 데이터의 LiDM 개요.

실험 결과:

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 3. LiDARGen [75], Latent Diffusion [51] 및 이 문서의 64라인 시나리오에서 나온 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 4. 32줄 시나리오에서 이 기사에 나온 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 5. SemanticKITTI [5] 데이터세트에서 의미론적 맵-투-Lidar 생성을 위한 이 기사의 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 6. KITTI-360 [37] 데이터세트에서 조건부 카메라-라이다 생성을 위한 LiDM의 예. 주황색 상자는 입력 이미지가 포함하는 영역을 나타냅니다. KITTI-360은 각 장면에 대해 장면의 일부만을 포괄하는 관점을 제공합니다. 따라서 LiDM은 카메라가 커버하는 영역에 대해 조건부 생성을 수행하고 관찰되지 않은 나머지 영역에 대해 무조건 생성을 수행합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 7. 64라인 시나리오에서 제로샷 텍스트-라이다 생성을 위한 LiDM의 예. 주황색 점선으로 둘러싸인 영역은 조건의 영향을 받는 영역을 나타내고 녹색 상자는 단서와 연관될 수 있는 개체를 강조 표시합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 8. 전체 배율( ) 대 샘플링 품질(FRID 및 FSVD). 본 논문에서는 KITTI-360에서 곡선 수준 코딩(Curve), 블록 수준 코딩(Patch) 및 블록 수준 코딩의 1단계(C+1P) 또는 2단계(C+2P)를 서로 다른 스케일로 비교합니다. 37] 데이터 세트 수준 인코딩.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 9. 섹션 3.3에서 제안된 대로 포인트 수준 감독이 있거나 없는 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

요약:

본 논문에서는 LiDAR 장면 생성을 위한 일반적인 조건부 프레임워크인 LiDAR 확산 모델(LiDM)을 제안합니다. 이 기사의 디자인은 곡선 패턴과 장면 레벨 및 객체 레벨의 기하학적 구조를 유지하는 데 중점을 두고 확산 모델을 위한 효율적인 잠재 공간을 설계하여 현실적인 LiDAR 생성을 달성합니다. 이 설계를 통해 본 논문의 LiDM은 64라인 시나리오의 무조건 생성에서 경쟁력 있는 성능을 달성하고 조건 생성에서 최첨단 수준에 도달할 수 있으며 의미 맵을 포함한 다양한 조건을 사용하여 LiDM을 제어할 수 있습니다. , 카메라 보기 및 텍스트 프롬프트. 우리가 아는 한, 우리의 방법은 LiDAR 생성에 조건을 성공적으로 도입한 최초의 방법입니다.

인용:

@inproceedings{ran2024towards,
title={LiDAR 확산 모델을 사용한 현실적인 장면 생성을 향하여},
author={Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스},
year={2024}
}

위 내용은 CVPR 2024 | 사실적인 장면 생성을 위한 LiDAR 확산 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿