목차
논문 아이디어:
주요 기여:
웹 디자인:
실험 결과:
요약:
인용:
기술 주변기기 일체 포함 CVPR 2024 | 사실적인 장면 생성을 위한 LiDAR 확산 모델

CVPR 2024 | 사실적인 장면 생성을 위한 LiDAR 확산 모델

Apr 24, 2024 pm 04:28 PM
git 모델 레이더 로봇 공학

원제: Towards Realistic Scene Generation with LiDAR Diffusion Models

논문 링크: https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

코드 링크: https://lidar-diffusion.github. io

저자 소속: CMU Toyota Research Institute University of Southern California

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

논문 아이디어:

확산 모델(DM)은 사실적인 이미지 합성에 탁월하지만 LiDAR 장면 생성에 적응합니다. 존재는 큰 도전에 직면해 있습니다. 이는 주로 포인트 공간에서 작동하는 DM이 표현 기능의 대부분을 소비하는 LiDAR 장면의 곡선 패턴과 3차원 특성을 유지하는 데 어려움이 있기 때문입니다. 본 논문에서는 기하학적 압축을 학습 프로세스에 통합하여 실제 LiDAR 시나리오를 시뮬레이션하는 LiDAR 확산 모델(LiDM)을 제안합니다. 이 문서에서는 실제 LiDAR 패턴을 시뮬레이션하기 위한 곡선 압축과 완전한 3D 개체 컨텍스트를 얻기 위한 패치별 인코딩을 소개합니다. 이 세 가지 핵심 설계를 통해 본 논문에서는 포인트 기반 DM에 비해 높은 효율성(최대 107배 빠름)을 유지하면서 무조건 LiDAR 생성 시나리오에서 새로운 SOTA를 설정합니다. 또한 LiDAR 장면을 잠재 공간으로 압축함으로써 이 논문을 통해 DM은 의미 지도, 카메라 뷰, 텍스트 큐와 같은 다양한 조건에서 제어할 수 있습니다.

주요 기여:

이 논문에서는 임의의 입력 조건을 기반으로 사실적인 라이더 장면을 생성할 수 있는 생성 모델인 새로운 레이저 다트 확산 모델(LiDM)을 제안합니다. 우리가 아는 한, 이는 다중 모드 조건에서 LiDAR 장면을 생성할 수 있는 첫 번째 방법입니다.

이 문서에서는 사실적인 레이저 패턴을 유지하기 위한 곡선 수준 압축, 장면 수준 기하학 모델을 표준화하기 위한 점 수준 좌표 감독, 3D 객체의 컨텍스트를 완벽하게 캡처하기 위한 블록 수준 인코딩을 도입합니다.

이 논문에서는 범위 이미지, 희소 볼륨, 포인트 클라우드를 비롯한 다양한 표현을 비교하여 지각 공간에서 생성된 레이저 장면의 품질을 종합적이고 정량적으로 평가하기 위한 세 가지 지표를 소개합니다.

이 기사의 방법은 64라인 LiDAR 장면을 사용하여 무조건 장면 합성에서 최신 수준을 달성하고 포인트 기반 확산 모델에 비해 최대 107배의 속도 증가를 달성합니다.

웹 디자인:

최근 몇 년 동안 시각적으로 매력적이고 매우 사실적인 이미지를 생성할 수 있는 조건부 생성 모델이 급속히 발전했습니다. 이러한 모델 중에서 확산 모델(DM)은 완벽한 성능으로 인해 가장 널리 사용되는 방법 중 하나가 되었습니다. 임의의 조건에서 생성을 달성하기 위해 LDM(Latent Diffusion Model) [51]은 교차 주의 메커니즘과 컨벌루션 자동 인코더를 결합하여 고해상도 이미지를 생성합니다. 후속 확장(예: Stable Diffusion [2], Midjourney [1], ControlNet [72])은 조건부 이미지 합성의 잠재력을 더욱 향상시켰습니다.

이러한 성공은 이 기사의 생각을 촉발시켰습니다: 제어 가능한 확산 모델(DM)을 자율 주행 및 로봇 공학의 LiDAR 장면 생성에 적용할 수 있습니까? 예를 들어 경계 상자 세트가 주어지면 이러한 모델이 해당 LiDAR 장면을 합성하여 이러한 경계 상자를 고품질의 값비싼 주석 데이터로 변환할 수 있습니까? 아니면 이미지 세트만으로 3D 장면을 생성할 수 있나요? 더욱 야심차게 제어된 시뮬레이션을 위한 언어 기반 LiDAR 생성기를 설계할 수 있을까요? 이러한 서로 얽힌 질문에 답하기 위해 본 논문의 목표는 여러 조건(예: 레이아웃, 카메라 보기, 텍스트)을 결합하여 현실적인 LiDAR 장면을 생성할 수 있는 확산 모델을 설계하는 것입니다.

이를 위해 이 기사에서는 자율 주행 분야의 확산 모델(DM)에 대한 최근 연구에서 몇 가지 통찰력을 얻었습니다. [75]에서는 무조건 LiDAR 장면 생성을 위해 점 기반 확산 모델(예: LiDARGen)이 도입되었습니다. 그러나 이 모델은 종종 시끄러운 배경(예: 도로, 벽)과 흐릿한 물체(예: 자동차)를 생성하여 현실과 동떨어진 LiDAR 장면을 생성합니다(그림 1 참조). 또한 압축 없이 점을 분산시키면 추론 프로세스의 계산 속도가 느려집니다. 더욱이 패치 기반 확산 모델(즉, 잠재 확산 [51])을 LiDAR 장면 생성에 직접 적용하면 질적으로나 양적으로 만족스러운 성능을 달성하지 못합니다(그림 1 참조).

조건부 현실적인 LiDAR 장면 생성을 달성하기 위해 본 논문에서는 위의 질문에 답하고 최근 연구의 단점을 해결하기 위해 LiDM(LiDAR 확산 모델)이라는 곡선 기반 생성기를 제안합니다. LiDM은 경계 상자, 카메라 이미지, 의미 지도와 같은 임의의 조건을 처리할 수 있습니다. LiDM은 탐지[34, 43], 의미론적 분할[44, 66] 및 생성[75]과 같은 다양한 다운스트림 작업에서 매우 일반적으로 사용되는 LiDAR 장면 표현으로 범위 이미지를 활용합니다. 이러한 선택은 범위 이미지와 포인트 클라우드 사이의 가역적이고 무손실 변환과 고도로 최적화된 2D 컨볼루션 작업에서 얻은 상당한 이점을 기반으로 합니다. 확산 과정에서 LiDAR 장면의 의미론적, 개념적 본질을 파악하기 위해 우리의 방법은 확산 과정 전에 LiDAR 장면의 인코딩 지점을 지각적으로 동등한 잠재 공간으로 변환합니다.

실제 LiDAR 데이터의 현실적인 시뮬레이션을 더욱 향상시키기 위해 이 기사에서는 패턴 신뢰성, 기하학적 신뢰성, 객체 신뢰성이라는 세 가지 주요 구성 요소에 중점을 둡니다. 첫째, 본 논문에서는 [59]에서 영감을 받아 자동 인코딩 중에 점의 곡선 패턴을 유지하기 위해 곡선 압축을 활용합니다. 둘째, 기하학적 신뢰성을 달성하기 위해 이 논문에서는 오토인코더가 장면 수준의 기하학적 구조를 이해하도록 가르치는 점 수준 좌표 감독을 소개합니다. 마지막으로 시각적으로 더 큰 개체의 전체 컨텍스트를 캡처하기 위해 추가 블록 수준 다운샘플링 전략을 추가하여 수용 필드를 확장합니다. 이러한 제안된 모듈에 의해 강화된 지각 공간은 확산 모델이 고품질 LiDAR 장면(그림 1 참조)을 효율적으로 합성하는 동시에 포인트 기반 확산 모델(NVIDIA에서 평가됨)에 비해 속도 측면에서 우수한 성능을 발휘할 수 있게 해줍니다. RTX 3090)이며 모든 유형의 이미지 기반 및 토큰 기반 조건을 지원합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 1. 우리의 방법(LiDM)은 무조건적인 LiDAR 현실적인 장면 생성에서 새로운 SOTA를 설정하고 다양한 입력 양식에서 조건부 LiDAR 장면을 생성하는 방향에 이정표를 표시합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 2. LiDAR 압축(섹션 3.3 및 3.5 참조), 다중 모드 조건화(섹션 3.4 참조) 및 LiDAR 확산(섹션 3.5 참조)의 세 부분을 포함하는 64라인 데이터의 LiDM 개요.

실험 결과:

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 3. LiDARGen [75], Latent Diffusion [51] 및 이 문서의 64라인 시나리오에서 나온 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 4. 32줄 시나리오에서 이 기사에 나온 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 5. SemanticKITTI [5] 데이터세트에서 의미론적 맵-투-Lidar 생성을 위한 이 기사의 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 6. KITTI-360 [37] 데이터세트에서 조건부 카메라-라이다 생성을 위한 LiDM의 예. 주황색 상자는 입력 이미지가 포함하는 영역을 나타냅니다. KITTI-360은 각 장면에 대해 장면의 일부만을 포괄하는 관점을 제공합니다. 따라서 LiDM은 카메라가 커버하는 영역에 대해 조건부 생성을 수행하고 관찰되지 않은 나머지 영역에 대해 무조건 생성을 수행합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 7. 64라인 시나리오에서 제로샷 텍스트-라이다 생성을 위한 LiDM의 예. 주황색 점선으로 둘러싸인 영역은 조건의 영향을 받는 영역을 나타내고 녹색 상자는 단서와 연관될 수 있는 개체를 강조 표시합니다.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 8. 전체 배율( ) 대 샘플링 품질(FRID 및 FSVD). 본 논문에서는 KITTI-360에서 곡선 수준 코딩(Curve), 블록 수준 코딩(Patch) 및 블록 수준 코딩의 1단계(C+1P) 또는 2단계(C+2P)를 서로 다른 스케일로 비교합니다. 37] 데이터 세트 수준 인코딩.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

그림 9. 섹션 3.3에서 제안된 대로 포인트 수준 감독이 있거나 없는 LiDM의 예.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

요약:

본 논문에서는 LiDAR 장면 생성을 위한 일반적인 조건부 프레임워크인 LiDAR 확산 모델(LiDM)을 제안합니다. 이 기사의 디자인은 곡선 패턴과 장면 레벨 및 객체 레벨의 기하학적 구조를 유지하는 데 중점을 두고 확산 모델을 위한 효율적인 잠재 공간을 설계하여 현실적인 LiDAR 생성을 달성합니다. 이 설계를 통해 본 논문의 LiDM은 64라인 시나리오의 무조건 생성에서 경쟁력 있는 성능을 달성하고 조건 생성에서 최첨단 수준에 도달할 수 있으며 의미 맵을 포함한 다양한 조건을 사용하여 LiDM을 제어할 수 있습니다. , 카메라 보기 및 텍스트 프롬프트. 우리가 아는 한, 우리의 방법은 LiDAR 생성에 조건을 성공적으로 도입한 최초의 방법입니다.

인용:

@inproceedings{ran2024towards,
title={LiDAR 확산 모델을 사용한 현실적인 장면 생성을 향하여},
author={Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스},
year={2024}
}

위 내용은 CVPR 2024 | 사실적인 장면 생성을 위한 LiDAR 확산 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

H5 프로젝트를 실행하는 방법 H5 프로젝트를 실행하는 방법 Apr 06, 2025 pm 12:21 PM

H5 프로젝트를 실행하려면 다음 단계가 필요합니다. Web Server, Node.js, 개발 도구 등과 같은 필요한 도구 설치. 개발 환경 구축, 프로젝트 폴더 작성, 프로젝트 초기화 및 코드 작성. 개발 서버를 시작하고 명령 줄을 사용하여 명령을 실행하십시오. 브라우저에서 프로젝트를 미리보고 개발 서버 URL을 입력하십시오. 프로젝트 게시, 코드 최적화, 프로젝트 배포 및 웹 서버 구성을 설정하십시오.

Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Apr 04, 2025 pm 11:54 PM

GiteEpages 정적 웹 사이트 배포 실패 : 404 오류 문제 해결 및 해결시 Gitee ...

Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Apr 02, 2025 pm 03:54 PM

Beegoorm 프레임 워크에서 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? 많은 Beego 프로젝트에서는 여러 데이터베이스를 동시에 작동해야합니다. Beego를 사용할 때 ...

GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? Apr 02, 2025 pm 04:12 PM

GO의 어떤 라이브러리가 대기업이나 잘 알려진 오픈 소스 프로젝트에서 개발 했습니까? GO에 프로그래밍 할 때 개발자는 종종 몇 가지 일반적인 요구를 만납니다.

Redis Stream을 사용하여 GO Language에서 메시지 대기열을 구현할 때 User_ID 유형 변환 문제를 해결하는 방법은 무엇입니까? Redis Stream을 사용하여 GO Language에서 메시지 대기열을 구현할 때 User_ID 유형 변환 문제를 해결하는 방법은 무엇입니까? Apr 02, 2025 pm 04:54 PM

Go Language에서 메시지 대기열을 구현하기 위해 Redisstream을 사용하는 문제는 Go Language와 Redis를 사용하는 것입니다 ...

H5 페이지 생산에는 지속적인 유지 보수가 필요합니까? H5 페이지 생산에는 지속적인 유지 보수가 필요합니까? Apr 05, 2025 pm 11:27 PM

코드 취약점, 브라우저 호환성, 성능 최적화, 보안 업데이트 및 사용자 경험 개선과 같은 요소로 인해 H5 페이지를 지속적으로 유지해야합니다. 효과적인 유지 관리 방법에는 완전한 테스트 시스템 설정, 버전 제어 도구 사용, 페이지 성능을 정기적으로 모니터링하고 사용자 피드백 수집 및 유지 관리 계획을 수립하는 것이 포함됩니다.

sql.open을 사용할 때 DSN이 비어있을 때 오류가 발생하지 않습니까? sql.open을 사용할 때 DSN이 비어있을 때 오류가 발생하지 않습니까? Apr 02, 2025 pm 12:54 PM

sql.open을 사용할 때 DSN에 오류가 발생하지 않는 이유는 무엇입니까? Go Language, SQL.open ...

See all articles