단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

3D 재구성 및 새로운 시점 합성 기술은 가상 현실 및 증강 현실 분야에서 널리 사용됩니다. NeRF는 암시적으로 장면을 광선 장면으로 인코딩하여 뷰 합성 분야에서 놀라운 성공을 거두었습니다. 그러나 NeRF는 렌더링을 위해 밀도가 높은 컬렉션을 지점별로 쿼리하는 데 시간이 많이 소요된다는 사실로 인해 실용성이 크게 제한됩니다. 이 문제를 해결하기 위해 네트워크 피드포워드 방식으로 여러 뷰에서 장면을 재구성하는 것을 목표로 하는 일부 일반화 가능한 NeRF 방법이 등장했습니다. 그러나 NeRF 기반 방법은 렌더링을 위해 광선의 밀집된 점 모음을 쿼리해야 하기 때문에 속도가 제한됩니다. 최근 3D-GS(3D Gaussian Splatting)는 이방성 3D 가우스를 사용하여 장면을 표시하고 차동 래스터라이저를 통해 실시간 고품질 렌더링을 달성합니다.

그러나 3D-GS는 또한 장면당 수십 분이 소요되는 각 장면의 최적화에 의존합니다. 이 문제를 해결하기 위해, 보이지 않는 장면에 3D-GS를 일반화하려는 일부 일반화된 가우스 재구성 작업이 이후 등장했습니다. 그러나 이러한 방법의 훈련 및 렌더링 효율성은 여전히 개선되어야 하며 주로 객체나 인체의 재구성으로 제한됩니다.

이를 기반으로 Huazhong University of Science and Technology, Nanyang Technological University, Greater Bay Area University 및 Shanghai Artificial Intelligence Laboratory의 연구원들은 향후 사용을 위해 MVSGaussian이라는 효율적이고 일반화 가능한 가우스 재구성 모델을 공동으로 제안했습니다. 본 장면. 이 모델은 입력 이미지를 여러 뷰로 분할하고 가우시안 프로세스를 사용하여 깊이 및 텍스처 정보를 추정한 다음 다중 뷰 스테레오 매칭 알고리즘을 사용하여 뷰를 융합하고 고품질 재구성 결과를 생성하는 방식으로 작동합니다. 이 방법은 재구성 품질과 계산 효율성 간의 적절한 균형을 달성하여 미래의 시각적 합성 작업을 위한 새로운 솔루션을 제공합니다

단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.

논문 제목: Fast Generalised Gaussian Splatting Reconstruction from Multi-View Stereo
논문 주소: https //arxiv.org/abs/2405.12218
프로젝트 홈페이지: https://mvsgaussian.github.io/
코드 오픈 소스: https://github.com/ TQTQliu/MVSGaussian
데모 비디오: https://youtu.be/4TxMQ9RnHMA

이 모델은 희박한 다중 뷰 이미지에서 장면의 3D 가우스 표현을 학습할 수 있습니다. MVS(멀티뷰 스테레오) 디스플레이 형식의 기하학적 추론과 가우스 딥샷 실시간 렌더링의 장점을 결합함으로써 MVSGaussian은 일반화된 추론에서 탁월한 성능을 발휘하며 가장 빠른 속도로 최고의 뷰 렌더링 품질을 달성할 수 있습니다. 또한 MVSGaussian은 장면별 최적화 측면에서도 상당한 이점을 갖고 있어 단 45초(3D-GS의 약 1/10) 만에 고품질 실시간 렌더링을 완료합니다. 그림 1 추론에서 일반화하든 최적화에서든 MVSGAUSSIAN은 뷰 품질, 렌더링 속도 및 최적화 시간에서 확실한 이점을 보여줍니다.

단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.

^{그림 2 최적화 시간(반복 횟수)에 따른 렌더링 뷰 품질의 변화 비교. 일반화 가능한 모델은 우수한 초기화를 제공하므로 MVSGaussian은 더 짧은 최적화 시간(더 적은 반복)으로 고품질 뷰 합성을 달성할 수 있습니다.} 단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.

기본 원리효율적이고 일반화 가능한 가우스 스퍼터링 프레임워크를 설계하기 위해 우리는 다음과 같은 주요 과제에 직면합니다.

1) 암시적 표현을 사용하는 NeRF와 달리 3D-GS는 수백만 개의 3D 가우스를 사용하여 장면을 명시적으로 표현합니다. 구체. 보이지 않는 장면에 사전 훈련된 3D-GS를 적용하면 위치, 색상 등 3D 가우시안 구의 매개변수가 크게 달라집니다. 3D-GS에 맞게 일반 표현을 설계하는 것은 간단한 작업이 아닙니다.

2) 일반화 가능한 NeRF 방법은 볼륨 렌더링을 통해 인상적인 뷰 합성 효과를 달성합니다. 그러나 가우스 스퍼터링의 일반화 능력은 완전히 연구되지 않았습니다. 스퍼터링 과정에서 각 가우스 구는 이미지의 특정 영역에 있는 여러 픽셀에 기여하며 각 픽셀의 색상은 여러 가우스 구의 기여로부터 누적됩니다. 가우스 구와 픽셀 간의 색상 대응은 보다 복잡한 다대다 관계이므로 모델의 일반화 능력에 문제가 됩니다.

3) 일반화 가능한 NeRF 방법은 특정 시나리오에 대한 추가 미세 조정이 합성된 뷰의 품질을 크게 향상시킬 수 있음을 보여 주지만 이를 위해서는 많은 시간이 소요되는 최적화가 필요합니다. 3D-GS는 NeRF보다 빠르지만 여전히 시간이 더 걸립니다. 따라서 일반화 가능한 모델을 기반으로 장면별로 신속한 최적화를 위한 방법을 설계하는 것은 매우 유망한 연구 방향입니다.

위의 과제에 대응하여 우리는 솔루션을 제공했습니다.

1) 각 장면에 해당하는 가우시안 구의 위치 분포가 다르기 때문에 MVS(Multi-view Stereo)를 사용하여 장면의 기하학적 구조를 명시적으로 모델링하고 깊이를 추론합니다. 다음으로, 추정된 깊이에 해당하는 3D 점의 특징을 인코딩하여 픽셀 정렬된 가우스 표현을 구축합니다.

2) 인코딩된 특징을 기반으로 MLP를 통해 이를 가우스 매개변수로 디코딩하여 스퍼터링 기술을 사용하여 뷰를 렌더링할 수 있습니다. 그러나 우리는 이 접근 방식이 일반화 능력에 한계가 있다는 것을 발견했습니다. 우리의 통찰력은 스퍼터링 방식이 색상 기여 측면에서, 즉 가우시안 구와 픽셀 사이의 복잡한 다대다 관계를 도입하여 일반화에 어려움을 준다는 것입니다. 따라서 우리는 일반화 능력을 향상시키기 위한 간단하고 효과적인 깊이 인식 볼륨 렌더링 방법, 즉 단일 샘플링 포인트 볼륨 렌더링 방법을 제안합니다. 최종 렌더링된 뷰는 스퍼터링 기법과 볼륨 렌더링 기법으로 렌더링된 뷰를 평균하여 얻습니다.

3) 사전 훈련된 일반화 모델은 다양한 관점에서 다수의 3D 가우스를 생성할 수 있으며, 이러한 가우시안 포인트 클라우드는 후속 장면별 최적화를 위한 초기화로 사용될 수 있습니다. 그러나 MVS 방법의 본질적인 한계로 인해 일반화 가능한 모델에서 예측한 깊이가 완전히 정확하지 않을 수 있으며, 이로 인해 생성된 가우시안 포인트 클라우드에 노이즈가 발생할 수 있습니다. 이러한 가우스 포인트 클라우드를 직접 연결하면 많은 노이즈가 발생합니다. 또한 포인트 수가 많으면 후속 최적화 및 렌더링 속도가 느려집니다. 직관적인 솔루션은 스티치된 포인트 클라우드를 다운샘플링하는 것입니다. 그러나 노이즈를 줄이면서 유효 포인트 수도 줄어듭니다. 우리의 통찰력은 좋은 집계 전략이 노이즈 포인트를 줄이고 유효한 포인트를 최대한 유지하면서 총 포인트 수가 너무 크지 않도록 해야 한다는 것입니다. 이를 위해 다중 시점 기하학적 일관성을 기반으로 한 집계 전략을 도입합니다. 구체적으로, 우리는 서로 다른 시야각에서 동일한 3D 점의 예측 깊이가 일관되어야 한다는 원칙을 따르고, 서로 다른 시야각에서 가우시안 깊이의 재투영 오류를 계산하여 노이즈 지점을 필터링합니다.

단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.

^{그림 3 일반화 가능한 가우스 스퍼터링 프레임워크. FPN(Feature Pyramid Network)을 사용하여 먼저 입력 뷰에서 특징을 추출하고, 이러한 특징을 대상 관점으로 워핑하고 비용 볼륨을 구성한 다음 3D CNN 정규화를 통해 깊이를 생성합니다. 다음으로 깊이 대응 3D 포인트에 대해 다중 뷰 및 공간 정보 인코딩 기능을 집계하여 픽셀 정렬된 가우스 표현을 구축합니다. 그런 다음 이러한 특징은 가우시안 매개변수와 볼륨 렌더링 매개변수로 디코딩되어 두 개의 뷰를 렌더링하며 최종 결과는 두 뷰의 평균입니다.}

단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.

^{그림 4 일관된 집계. 깊이 맵과 가우시안 포인트 클라우드를 생성하기 위한 일반화 가능한 모델을 사용하여 먼저 깊이 맵에 대한 다중 뷰 기하학적 일관성 검사를 수행하여 신뢰할 수 없는 점을 필터링하기 위한 마스크를 얻습니다. 이후 필터링된 포인트 클라우드는 장면별 최적화를 위한 초기화로 하나의 포인트 클라우드로 접합됩니다.}

결과 비교

이 백서는 널리 사용되는 DTU, Real Forward-facing, NeRF Synthetic 및 Tanks and Temples 데이터세트에 대한 평가를 수행하고 PSNR, SSIM, LPIPS 및 FPS와 같은 측정항목을 보고합니다. 일반화 추론(표 1 및 2) 측면에서 MVSGaussian은 가장 빠른 속도와 최소한의 메모리 오버헤드로 더 나은 성능을 달성하는 뛰어난 성능을 보여줍니다. 장면별 최적화(표 3) 측면에서 MVSGaussian은 가장 짧은 최적화 시간(3D-GS의 약 1/10)에 최고의 뷰 합성 효과를 얻을 수 있으며 3D에 필적하는 실시간 렌더링 속도를 유지합니다. -GS. 정성적 뷰 및 비디오 비교는 또한 더 많은 장면 세부 사항과 더 적은 아티팩트를 사용하여 고품질 뷰를 합성하는 MVSGaussian의 능력을 보여줍니다. 더 많은 영상 결과를 보려면 프로젝트 홈페이지를 참조하세요.

단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.

ㅋㅋ 표 1 정량적 결과 DTU 테스트 세트의 일반화에 대해 설명합니다. 표 2 Real Forward-facing, NeRF Synthetic 및 Tanks and Temples 데이터 세트에 대한 정량적 일반화 결과. 풀 사이즈 테이블 그림 5 일반화 추론 결과 비교. ㅋㅋㅋ 그림 7 장면별 최적화 후 결과 비교. ㅋㅋㅋ > 비교 대상입니다.

결론

단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다. 본 논문에서는 다중 뷰에서 장면 재구성을 위한 새로운 일반화 가우시안 스퍼터링 방법인 MVSGaussian을 제안했습니다. 특히 MVS를 활용하여 기하학을 추론하고 픽셀 정렬된 가우스 표현을 구축합니다. 또한 효율적인 깊이 인식 볼륨 렌더링을 결합하여 일반화 기능을 향상시키는 하이브리드 가우시안 렌더링 방법을 제안합니다. 추론을 직접 일반화하는 것 외에도 우리 모델은 특정 시나리오에 맞게 신속하게 미세 조정할 수 있습니다. 빠른 최적화를 달성하기 위해 고품질 초기화를 제공하는 다중 뷰 기하학 일치 집계 전략을 도입합니다. 일반적으로 각 이미지를 렌더링하는 데 수십 분의 미세 조정과 몇 초가 필요한 일반화 가능한 NeRF에 비해 MVSGaussian은 더 높은 합성 품질로 실시간 렌더링을 가능하게 합니다.

또한 3D-GS에 비해 MVSGaussian은 학습 계산 비용을 줄이면서 더 나은 뷰 합성 효과를 달성합니다. 광범위한 실험을 통해 MVSGaussian이 일반화 성능, 실시간 렌더링 속도 및 빠른 장면별 최적화 측면에서 최첨단에 도달했음을 확인했습니다. 그러나 MVSGaussian은 깊이 추정을 위해 MVS(Multi-View Stereo)에 의존하기 때문에 텍스처가 약하거나 정반사가 있는 영역에서 깊이 정확도가 감소하여 뷰 품질이 저하되는 등 MVS의 한계를 상속합니다.

위 내용은 단 3개의 뷰만으로 빠르게 추론하고 45초 안에 최적화를 완료할 수 있는 효율적이고 일반화 가능한 가우스 재구성 프레임워크입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!