이미지 기반 3D 재구성은 입력 이미지 세트에서 물체나 장면의 3D 형태를 추론하는 어려운 작업입니다. 학습 기반 방법은 3차원 형상을 직접 추정할 수 있는 능력으로 주목을 받았습니다. 이 리뷰 논문은 새로운, 보이지 않는 뷰 생성을 포함한 최첨단 3D 재구성 기술에 중점을 두고 있습니다. 입력 유형, 모델 구조, 출력 표현 및 훈련 전략을 포함하여 가우스 스플래시 방법의 최근 개발에 대한 개요가 제공됩니다. 해결되지 않은 과제와 앞으로의 방향에 대해서도 논의한다. 해당 분야의 급속한 발전과 3D 재구성 방법을 향상할 수 있는 수많은 기회를 고려할 때 알고리즘을 철저히 조사하는 것이 중요해 보입니다. 따라서 이 연구는 가우스 산란의 최근 발전에 대한 포괄적인 개요를 제공합니다.
(엄지손가락으로 위로 스와이프하고 상단 카드를 클릭하여 저를 팔로우하세요. 전체 작업은 1.328초만 소요됩니다. 그런 다음 미래의 모든 무료 콘텐츠를 가져가게 됩니다. 혹시 맞는 내용이 있을까요 도움이 되셨나요~)
3D 재구성과 NVS는 컴퓨터 그래픽 분야에서 밀접하게 관련된 두 가지 분야로, 실제적인 3D 표현을 캡처하고 렌더링하는 것을 목표로 합니다. 물리적인 장면. 3D 재구성에는 일반적으로 다양한 시점에서 캡처한 일련의 2D 이미지에서 기하학적 정보와 모양 정보를 추출하는 작업이 포함됩니다. 3D 스캐닝에는 다양한 기술이 있지만 다양한 2D 이미지를 캡처하는 것은 3D 환경에 대한 정보를 수집하는 매우 간단하고 계산 비용이 저렴한 방법입니다. 그런 다음 이 정보를 사용하여 가상 현실(VR) 애플리케이션, 증강 현실(AR) 오버레이 또는 컴퓨터 지원 설계(CAD) 모델링과 같은 다양한 목적으로 사용할 수 있는 장면의 3D 모델을 생성할 수 있습니다.
반면 NVS는 이전에 획득한 3D 모델에서 장면의 새로운 2D 뷰를 생성하는 데 중점을 둡니다. 이를 통해 원본 이미지가 해당 각도에서 촬영되지 않은 경우에도 원하는 관점에서 장면의 사실적인 이미지를 생성할 수 있습니다. 최근 딥 러닝의 발전으로 3D 재구성 및 NVS가 크게 향상되었습니다. 딥러닝 모델을 사용하면 이미지에서 3D 기하학과 모양을 효율적으로 추출할 수 있으며, 이러한 모델을 사용하면 3D 모델에서 사실적이고 새로운 뷰를 생성할 수도 있습니다. 결과적으로 이러한 기술은 다양한 응용 분야에서 점점 더 대중화되고 있으며, 앞으로 더욱 중요한 역할을 할 것으로 예상됩니다.
이 섹션에서는 3D 데이터를 저장하거나 표현하는 방법을 소개한 다음 이 작업에 가장 일반적으로 사용되는 공개 데이터 세트를 소개하고 주로 Gaussian Splash를 중심으로 다양한 알고리즘을 확장합니다.
체적 치수를 포함한 3차원 데이터의 복잡한 공간 특성은 대상과 환경을 자세히 표현합니다. 이는 다양한 연구 분야에서 몰입형 시뮬레이션과 정확한 모델을 만드는 데 중요합니다. 3차원 데이터의 다차원 구조는 깊이, 너비, 높이의 조합을 허용하여 건축 설계 및 의료 영상 기술과 같은 분야에서 상당한 발전을 가져옵니다.
데이터 표현의 선택은 많은 3D 딥 러닝 시스템 설계에서 중요한 역할을 합니다. 포인트 클라우드에는 격자형 구조가 없으며 일반적으로 직접 컨볼루션될 수 없습니다. 반면, 격자형 구조를 특징으로 하는 복셀 표현은 높은 계산 메모리 요구 사항을 발생시키는 경우가 많습니다.
3D 표현의 발전은 3D 데이터 또는 모델이 저장되는 방식과 함께 이루어집니다. 가장 일반적으로 사용되는 3D 데이터 표현은 전통적인 방법과 새로운 방법으로 나눌 수 있습니다.
기존 접근 방식:
새로운 접근 방식:
이 분야의 현재 진행 상황을 평가하기 위해 관련 학술 작품을 식별하고 신중하게 검토하기 위한 문헌 연구가 수행되었습니다. 분석은 특히 3D 재구성과 NVS라는 두 가지 핵심 영역에 중점을 둡니다. 여러 카메라 이미지에서 3D 체적 재구성을 개발하는 데 수십 년이 걸렸으며 컴퓨터 그래픽, 로봇 공학 및 의료 영상 분야의 다양한 응용 분야가 있습니다. 다음 섹션에서는 이 기술의 현재 상태를 살펴봅니다.
사진 측량: 1980년대부터 고급 사진 측량 및 스테레오 비전 기술이 등장하여 스테레오 이미지 쌍에서 해당 지점을 자동으로 식별합니다. 사진 측량법은 사진과 컴퓨터 비전을 결합하여 물체나 장면의 3D 모델을 생성하는 방법입니다. 카메라 위치를 추정하고 포인트 클라우드를 생성하려면 Agisoft Metashape와 같은 소프트웨어를 활용하여 다양한 각도에서 이미지를 캡처해야 합니다. 그런 다음 이 포인트 클라우드는 질감이 있는 3D 메시로 변환되어 재구성된 개체나 장면의 상세하고 사실적인 시각화를 생성할 수 있습니다.
모션의 구조: 1990년대에는 SFM 기술이 두각을 나타내면서 2D 이미지 시퀀스에서 3D 구조와 카메라 모션을 재구성할 수 있었습니다. SFM은 2D 이미지 세트에서 장면의 3D 구조를 추정하는 프로세스입니다. SFM에는 이미지 간의 점 상관관계가 필요합니다. 여러 이미지의 특징이나 추적 지점을 일치시켜 해당 지점을 찾고 삼각측량을 통해 3D 위치를 찾습니다.
딥 러닝: 최근에는 딥 러닝 기술, 특히 CNN(Convolutional Neural Network)이 통합되었습니다. 딥러닝 기반 방법은 3D 재구성에 속도를 내고 있습니다. 가장 주목할만한 것은 3D 장면 이해 및 재구성을 위해 설계된 신경망 아키텍처인 3D Occupancy Network입니다. 이는 3D 공간을 작은 체적 단위 또는 복셀로 나누어 작동하며, 각 복셀은 대상이 포함되어 있는지 또는 빈 공간인지를 나타냅니다. 이러한 네트워크는 3D 컨벌루션 신경망과 같은 딥 러닝 기술을 사용하여 복셀 점유를 예측하므로 로봇 공학, 자율 주행 차량, 증강 현실 및 3D 장면 재구성과 같은 애플리케이션에 유용합니다. 이러한 네트워크는 컨볼루션과 변환기에 크게 의존합니다. 이는 충돌 방지, 경로 계획, 실제 세계와의 실시간 상호 작용과 같은 작업에 매우 중요합니다. 또한 3D 점유 네트워크는 불확실성을 추정할 수 있지만 동적이거나 복잡한 장면을 처리할 때 계산상의 한계가 있을 수 있습니다. 신경망 아키텍처의 발전으로 정확성과 효율성이 지속적으로 향상되고 있습니다.
신경방사선 분야: 2020년에 출시된 NeRF는 신경망과 고전적인 3차원 재구성 원리를 결합하여 컴퓨터 비전 및 그래픽 분야에서 큰 주목을 받았습니다. 볼륨 함수를 모델링하고 신경망을 통해 색상과 밀도를 예측하여 상세한 3D 장면을 재구성합니다. NeRF는 컴퓨터 그래픽과 가상 현실에 널리 사용됩니다. 최근 NeRF는 광범위한 연구를 통해 정확성과 효율성을 향상시켰습니다. 최근 연구에서는 수중 시나리오에서 NeRF의 적용 가능성도 조사했습니다. 3D 장면 형상의 강력한 표현을 제공하는 동시에 계산 요구 사항과 같은 과제가 여전히 존재합니다. 향후 NeRF 연구는 해석 가능성, 실시간 렌더링, 새로운 애플리케이션 및 확장성에 초점을 맞춰 가상 현실, 게임 및 로봇 공학의 길을 열어야 합니다.
Gaussian Scattering: 마침내 2023년, 새로운 실시간 3D 렌더링 기술로 3D Gaussian Scattering이 등장합니다. 다음 섹션에서는 이 접근 방식에 대해 자세히 설명합니다.
Gaussian Splash는 많은 3D 가우시안 또는 입자를 사용하여 3D 장면을 묘사하며 각 입자에는 위치, 방향, 크기, 불투명도 및 색상 정보가 포함되어 있습니다. 이러한 입자를 렌더링하려면 2D 공간으로 변환하고 최적의 렌더링을 위해 전략적으로 구성하십시오.
그림 4는 가우스 스플래시 알고리즘의 아키텍처를 보여줍니다. 원래 알고리즘에서는 다음 단계가 수행됩니다.
다음 두 섹션에서는 다음과 같습니다. 자율 주행, 아바타, 압축, 확산, 역학 및 변형, 편집, 텍스트 기반 생성, 메쉬 추출 및 물리학, 정규화 및 최적화, 렌더링, 희소 표현 및 다양한 분야에서의 사용을 탐구하면서 Gaussian Splash의 다양한 응용 및 발전을 탐구했습니다. SLAM(Simultaneous Localization and Mapping)과 같은 영역에서의 구현. 특정 문제를 해결하고 이러한 다양한 영역에서 중요한 진전을 달성하는 데 있어 가우스 스플래시 방법의 다양성에 대한 통찰력을 제공하기 위해 각 하위 범주를 검사합니다. 그림 5는 모든 방법의 전체 목록을 보여줍니다.
이 섹션에서는 가우스 스플래시 알고리즘이 처음 도입된 이후 기능적 기능의 진행 상황을 검토합니다.
3D 공분산 행렬의 모든 매개변수가 입력 이미지에만 의존하는 일반 가우스 스플래시와 비교하면, 이 경우 시간 경과에 따른 스플래시의 역학을 캡처하기 위해 일부 매개변수는 시간 또는 시간 단계에 따라. 예를 들어 위치는 시간 단계나 프레임에 따라 달라집니다. 이 위치는 시간 일관성 있는 방식으로 다음 프레임에서 업데이트될 수 있습니다. 아바타의 표정 변화, 강체가 아닌 몸체에 힘을 적용하는 등의 특정 효과를 달성하기 위해 렌더링하는 동안 각 시간 단계에서 가우스를 편집하거나 전파하는 데 사용할 수 있는 몇 가지 기본 인코딩을 학습하는 것도 가능합니다. 그림 6은 몇 가지 역학 및 변형 기반 방법을 보여줍니다.
동적 및 변형 모델은 원래 가우스 스플래시 표현을 약간 수정하여 쉽게 표현할 수 있습니다.
Motion and Tracking
동적 가우스 스플래시와 관련된 대부분의 작업은 3D 가우스로 확장되었습니다. 각 시간 단계마다 별도의 스플래시가 아닌 시간 단계 전체에 걸쳐 모션 추적을 수행합니다. Katsumata et al.은 위치의 푸리에 근사와 회전 쿼터니언의 선형 근사를 제안했습니다.
Luiten 외 연구진의 논문에서는 동적 장면에서 모든 3D 포인트의 전체 6자유도를 캡처하는 방법을 소개합니다. 로컬 강성 제약 조건을 통합함으로써 동적 3D 가우스는 일관된 공간 회전을 나타내므로 대응 또는 스트리밍 입력 없이도 조밀한 6-DOF 추적 및 재구성이 가능합니다. 이 방법은 2D 추적에서 PIP보다 성능이 뛰어나 중앙 궤도 오류가 10배 더 낮고 궤도 정확도가 높으며 생존율이 100%입니다. 이 다용도 표현은 4D 비디오 편집, 1인칭 시점 합성 및 동적 장면 생성과 같은 응용 프로그램을 용이하게 합니다.
Lin 등은 각 가우스 점의 속성 변형을 모델링하도록 명시적으로 설계된 새로운 이중 도메인 변형 모델(DDDM)을 소개합니다. 이 모델은 주파수 영역의 푸리에 급수 피팅과 시간 영역의 다항식 피팅을 사용하여 시간 종속 잔차를 캡처합니다. DDDM은 각 프레임에 대해 별도의 3D-GS(3D Gaussian Splash) 모델을 교육할 필요 없이 복잡한 비디오 장면의 변형을 처리하는 데 탁월합니다. 특히 이산 가우스 점 명시적 변형 모델링은 정적 3D 재구성을 위한 원래 3D-GS와 유사한 빠른 훈련 및 4D 장면 렌더링을 보장합니다. 이 접근 방식은 3D-GS 모델링에 비해 훈련 속도가 거의 5배 빨라 효율성이 크게 향상되었습니다. 그러나 최종 렌더링에서 충실도가 높은 얇은 구조를 유지하는 기능을 향상할 수 있는 기회가 있습니다.
아바타에서 표현 또는 감정 변형 및 편집 가능
Shao 외 연구진은 3차원 공간 및 시간에서 평면 기반 분해를 통해 구현된 4D 표현인 GaussianPlanes를 도입하여 4D 편집의 효율성을 향상시켰습니다. 또한 Control4D는 4D 생성기를 활용하여 일관성 없는 사진의 연속 생성 공간을 최적화하여 일관성과 품질을 향상시킵니다. 제안된 방법은 GaussianPlane을 사용하여 4D 초상화 장면의 암시적 표현을 훈련한 다음 Gaussian 렌더링을 사용하여 잠재 특징과 RGB 이미지로 렌더링합니다. GAN(Generative Adversarial Network) 기반 생성기와 2D 확산 기반 편집기는 데이터세트를 개선하고 차별화를 위해 실제 이미지와 가짜 이미지를 생성합니다. 판별 결과는 생성기와 판별기의 반복적인 업데이트에 기여합니다. 그러나 이 접근 방식은 흐름 표현이 포함된 표준 가우시안 포인트 클라우드에 의존하기 때문에 빠르고 광범위한 비강체 모션을 처리하는 데 어려움을 겪습니다. 이 방법은 ControlNet의 영향을 받아 편집이 대략적인 수준으로 제한되고 정확한 표현이나 동작 편집이 불가능합니다. 게다가 편집 프로세스에는 반복적인 최적화가 필요하므로 단일 단계 솔루션이 부족합니다.
강하지 않거나 변형 가능한 개체
암시적 신경 표현은 동적 장면 재구성 및 렌더링에 중요한 변화를 가져옵니다. 그러나 현대의 동적 신경 렌더링 방법은 복잡한 세부 사항을 캡처하고 동적 장면을 실시간으로 렌더링하는 데 어려움을 겪고 있습니다.
이러한 과제를 해결하기 위해 Yang 등은 충실도가 높은 단안 동적 장면 재구성을 위한 변형 가능한 3D 가우스를 제안했습니다. 새로운 변형 가능한 3D-GS 방법이 제안되었습니다. 이 방법은 단안의 동적 장면을 위해 특별히 설계된 변형 필드와 함께 표준 공간에서 학습된 3D 가우스를 활용합니다. 이 방법은 실제 단안 동적 장면에 맞춰진 AST(Annealing Smooth Training) 메커니즘을 도입하여 추가 훈련 오버헤드를 도입하지 않고도 시간 보간 작업에 대한 잘못된 포즈의 영향을 효과적으로 해결합니다. Deformable 3D Gaussian은 Differential Gaussian 래스터라이저를 사용하여 렌더링 품질을 향상시킬 뿐만 아니라 실시간 속도도 달성하여 두 가지 측면에서 기존 방식을 능가합니다. 이 방법은 NVS와 같은 작업에 매우 적합한 것으로 입증되었으며 포인트 기반 특성으로 인해 후반 작업에 대한 다양성을 제공합니다. 실험 결과는 이 방법의 뛰어난 렌더링 효과와 실시간 성능을 강조하여 동적 장면 모델링에서의 효율성을 확인했습니다.
DIFFUSION
확산 및 가우스 스플래시는 텍스트 설명/힌트에서 3D 개체를 생성하는 강력한 기술입니다. 이는 확산 모델과 가우스 산란이라는 두 가지 방법의 장점을 결합합니다. 확산 모델은 시끄러운 입력에서 이미지를 생성하는 방법을 학습하는 신경망입니다. 점점 더 깨끗한 일련의 이미지를 모델에 공급함으로써 모델은 이미지 손상 과정을 역전시키는 방법을 학습하여 결국 완전히 무작위 입력에서 깨끗한 이미지를 생성합니다. 모델은 단어를 해당 시각적 특징과 연관시키는 방법을 학습할 수 있으므로 텍스트 설명에서 이미지를 생성하는 데 사용할 수 있습니다. 확산 및 가우스 스플래시가 포함된 텍스트-3D 파이프라인은 먼저 확산 모델을 사용하여 텍스트 설명에서 초기 3D 포인트 클라우드를 생성하는 방식으로 작동합니다. 그런 다음 가우스 산란을 사용하여 포인트 클라우드를 가우스 구 세트로 변환합니다. 마지막으로 가우시안 구가 렌더링되어 대상의 3D 이미지를 생성합니다.
텍스트 기반 생성
Yi 등의 연구에서는 가우시안 분할을 통해 3D 및 2D 확산 모델을 원활하게 연결하여 3D 일관성과 복잡한 디테일 생성을 보장하는 텍스트-3D 방법인 Gaussian Dreamer를 소개합니다. 그림 7은 이미지 생성을 위해 제안된 모델을 보여줍니다. 콘텐츠를 더욱 풍부하게 하기 위해 초기화된 3D 가우시안을 보완하기 위해 노이즈 포인트 증가 및 색상 섭동이 도입되었습니다. 이 방식은 단일 GPU에서 15분 이내에 3D 인스턴스를 생성해 기존 방식에 비해 속도가 뛰어나 간편하고 효과적인 것이 특징이다. 생성된 3차원 인스턴스를 실시간으로 직접 렌더링할 수 있어 이 방법의 실용성이 강조됩니다. 전체 프레임워크에는 3D 확산 모델을 사용한 사전 초기화와 2D 확산 모델을 사용한 최적화가 포함됩니다. 두 확산 모델의 장점을 활용하면 텍스트 큐에서 고품질의 다양한 3D 자산을 생성할 수 있습니다.
Chen et al.은 3D 가우시안을 표현으로 활용하는 텍스트-3D 생성 방법인 GSGEN(가우스 산란 기반 텍스트-3D 생성)을 제안했습니다. 기하학적 사전확률을 활용하여 텍스트-3D 생성에서 가우스 산란의 고유한 이점을 강조합니다. 2단계 최적화 전략은 2D 및 3D 확산의 공동 지침을 결합하여 형상 최적화에서 일관되고 거친 구조를 형성한 다음 소형화 기반 외관 개선을 통해 치밀화됩니다.
노이즈 제거 및 최적화
Li 등의 GaussianDiffusion 프레임워크는 Gaussian 스플래시 및 Langevin 동적 확산 모델을 활용하여 렌더링을 가속화하고 비교할 수 없는 현실감을 달성하는 새로운 텍스트-3D 접근 방식을 나타냅니다. 구조화된 노이즈를 도입하면 다중 뷰 형상 문제가 해결되고, 변형 가우시안 산란 모델은 수렴 문제와 아티팩트를 완화합니다. 현재 결과는 향상된 사실성을 보여주지만, 진행 중인 연구는 추가 향상을 위해 변형 가우시안으로 인해 발생하는 흐릿함과 안개를 개선하는 것을 목표로 합니다.
Yang 등은 기존 확산 사전을 철저히 조사하고 노이즈 제거 점수를 최적화하여 이러한 사전을 개선하는 통합 프레임워크를 제안했습니다. 이 접근 방식의 다양성은 다양한 사용 사례로 확장되어 지속적으로 상당한 성능 향상을 제공합니다. 실험적 평가에서 우리의 접근 방식은 현대적인 방법을 능가하는 전례 없는 성능을 달성했습니다. 3D로 생성된 텍스처를 개선하는 데 성공했음에도 불구하고 생성된 3D 모델의 형상을 향상하는 데는 여전히 개선의 여지가 있습니다.
이 하위 섹션에서는 더 빠른 훈련 및/또는 추론 속도를 위해 연구원들이 개발한 기술에 대해 논의합니다. Chung et al.의 연구에서는 과적합 문제를 완화하면서 제한된 수의 이미지를 사용하여 3D 장면 표현을 위해 가우시안 산란을 최적화하는 방법이 도입되었습니다. 가우스 분산점을 사용하여 3D 장면을 표현하는 기존 방법은 특히 사용 가능한 이미지가 제한적인 경우 과적합으로 이어질 수 있습니다. 이 기술은 사전 훈련된 단안 깊이 추정 모델의 깊이 맵을 기하학적 가이드로 사용하고 이를 SFM 파이프라인의 희소 특징점과 정렬합니다. 이는 3D 가우스 산란을 최적화하고 떠다니는 아티팩트를 줄이며 기하학적 일관성을 보장하는 데 도움이 됩니다. 제안된 깊이 기반 최적화 전략은 LLFF 데이터세트에서 테스트되었으며, 이미지만 사용한 것에 비해 향상된 형상을 보여줍니다. 이 연구에는 성능 향상에 도움이 되는 조기 중지 전략과 깊이 맵에 대한 평활화 용어의 도입이 포함됩니다. 그러나 단안 깊이 추정 모델의 정확성에 의존하고 COLMAP 성능에 의존하는 등의 한계도 인정됩니다. 추정된 깊이의 상호의존성을 탐색하고 질감이 없는 평원이나 하늘과 같은 어려운 지역의 깊이 추정 문제를 해결하기 위한 향후 작업이 권장됩니다.
Fu 등은 시퀀스 이미지에서 카메라 자세 추정 및 NVS를 동시에 수행하기 위한 새로운 엔드투엔드 프레임워크인 COLMAP Free 3D Gaussian Splatting(CF-3DGS)을 도입하여 이전 방법의 카메라 움직임 문제를 해결했습니다. 장기간의 야마토 훈련으로 인해 NeRF의 암시적 표현과 달리 CF-3DGS는 명시적 포인트 클라우드를 활용하여 장면을 표현합니다. 이 방법은 입력 프레임을 순차적으로 처리하고 3D 가우시안을 점진적으로 확장하여 전체 장면을 재구성함으로써 360° 비디오와 같은 까다로운 장면에서 향상된 성능과 견고성을 보여줍니다. 이 방법은 카메라 포즈와 3D-GS를 순차적으로 공동 최적화하므로 비디오 스트리밍 또는 순서화된 이미지 획득에 특히 적합합니다. 가우스 스플래싱을 사용하면 빠른 훈련과 추론 속도가 가능하며, 이는 이전 방법에 비해 이 접근 방식의 장점을 입증합니다. 효율성을 입증하는 동안 순차적 최적화는 주로 정렬된 이미지 컬렉션으로 응용 프로그램을 제한하므로 향후 연구에서 정렬되지 않은 이미지 컬렉션에 대한 확장을 탐색할 여지가 남아 있다는 것이 인정됩니다.
Yu 등은 3D-GS에서 특히 샘플링 속도를 변경할 때 NVS에 아티팩트가 나타나는 것을 관찰했습니다. 도입된 솔루션은 3D 스무딩 필터를 통합하여 3D 가우스 프리미티브의 최대 주파수를 조정하여 분포 외 렌더링의 아티팩트를 해결하는 것으로 구성됩니다. 또한 2D 팽창 필터는 앨리어싱 및 팽창 문제를 해결하기 위해 2D 밉 필터로 대체되었습니다. 벤치마크 데이터 세트에 대한 평가는 특히 샘플링 속도를 수정할 때 Mip Splatter의 효율성을 보여줍니다. 제안된 수정 사항은 원칙적이고 간단하며 원본 3D-GS 코드에 대한 최소한의 변경만 필요합니다. 그러나 가우스 필터 근사로 인해 발생하는 오류 및 훈련 오버헤드가 약간 증가하는 등 인식된 제한 사항이 있습니다. 이 연구에서는 Mip Splatting을 경쟁 솔루션으로 제시하여 최첨단 방법과 뛰어난 일반화를 통해 성능 동등성을 입증하고 모든 규모에서 앨리어스 없는 렌더링을 달성할 수 있는 능력을 보여줍니다.
Gao et al.은 다시점 이미지에서 재료와 조명을 분해할 수 있는 새로운 3D 포인트 클라우드 렌더링 방법을 제안했습니다. 프레임워크를 사용하면 장면 편집, 광선 추적 및 실시간 재조명을 구별 가능한 방식으로 수행할 수 있습니다. 장면의 각 지점은 법선 방향, BRDF(양방향 반사 분포 함수)와 같은 재료 속성 및 다양한 방향에서 들어오는 빛에 대한 정보를 전달하는 "재조명 가능한" 3D 가우스로 표시됩니다. 정확한 조도 추정을 위해 입사광을 전역 성분과 국소 성분으로 구분하고, 시야각에 따른 가시성을 고려합니다. 장면 최적화는 3D 가우스 스플래싱을 활용하고 물리적 기반 미분 렌더링은 BRDF 및 조명 분해를 처리합니다. 혁신적인 포인트 기반 레이 트레이싱 접근 방식은 경계 볼륨 계층을 활용하여 실시간 렌더링 중에 효율적인 가시성 베이킹과 사실적인 그림자를 지원합니다. 실험에 따르면 BRDF 추정 및 뷰 렌더링이 기존 방법에 비해 더 나은 것으로 나타났습니다. 그러나 명확한 경계가 없고 최적화 중에 대상 마스크가 필요한 장면에 대한 문제는 여전히 존재합니다. 향후 작업에서는 MVS(다중 뷰 스테레오) 큐를 통합하여 3D 가우스 산란으로 생성된 포인트 클라우드의 기하학적 정확도를 향상시킬 수 있습니다. 이 "신뢰할 수 있는 3D 가우스" 파이프라인은 유망한 실시간 렌더링 기능을 보여주고 재조명, 편집 및 광선 추적을 허용하는 포인트 클라우드 기반 접근 방식을 통해 혁신적인 메시 기반 그래픽의 문을 열어줍니다.
Fan 외 연구진은 렌더링에 사용되는 3D 가우스 표현을 압축하는 새로운 기술을 소개합니다. 그들의 방법은 네트워크 가지치기와 유사하게 중요도에 따라 중복된 가우스를 식별하고 제거하여 시각적 품질에 미치는 영향을 최소화합니다. LightGaussian은 지식 추출 및 의사 뷰 향상을 활용하여 더 적은 구면 고조파로 복잡도가 낮은 표현으로 정보를 제공하여 중복성을 더욱 줄입니다. 또한 VecTree 양자화라는 하이브리드 방식은 속성 값을 양자화하여 표현을 최적화하므로 정확도가 크게 떨어지지 않고 더 작은 크기를 달성할 수 있습니다. 표준 방법과 비교하여 LightGaussian은 15배 이상의 평균 압축률을 달성하고 Mip NeRF 360 및 Tanks&Temples와 같은 데이터 세트에서 렌더링 속도를 139FPS에서 215FPS로 크게 향상시킵니다. 관련된 주요 단계는 글로벌 돌출성 계산, 가우스 가지치기, 의사 뷰로 지식 추출, VecTree를 사용하여 속성 정량화 등입니다. 전반적으로 LightGaussian은 대규모 포인트 기반 표현을 컴팩트한 형식으로 변환하여 데이터 중복성을 크게 줄이고 렌더링 효율성을 크게 향상시키는 획기적인 솔루션을 제공합니다.
이 섹션에서는 2023년 7월 출시 이후 Gaussian Splash 알고리즘 애플리케이션의 중요한 발전을 살펴봅니다. 이러한 발전은 아바타, SLAM, 메시 추출, 물리 시뮬레이션과 같은 다양한 분야에서 구체적으로 사용됩니다. 이러한 특수한 사용 사례에 적용하면 Gaussian Splatting은 다양한 애플리케이션 시나리오에서 다양성과 효율성을 보여줍니다.
AR/VR 애플리케이션 열풍이 불면서, Gaussian Splash의 많은 연구는 인간의 디지털 아바타 개발에 집중되고 있습니다. 더 적은 관점에서 피사체를 포착하고 3D 모델을 구축하는 것은 어려운 작업이며 Gaussian Splash는 연구원과 업계가 이러한 목표를 달성하도록 돕습니다.
관절 각도 또는 관절
이 가우스 산란 기술은 관절 각도를 기반으로 인체를 모델링하는 데 중점을 둡니다. 이 모델 유형의 일부 매개변수는 3차원 관절의 위치, 각도 및 기타 유사한 매개변수를 반영합니다. 입력 프레임을 디코딩하여 현재 프레임의 3D 관절 위치와 각도를 알아냅니다.
Zielonka et al.은 가우시안 산란을 이용한 인체 표현 모델을 제안하고 혁신적인 3D-GS 기술을 사용하여 실시간 렌더링을 구현했습니다. 기존의 사실적인 주행 가능 아바타와 달리 D3GA(Drivable 3D Gaussian Splash)는 훈련 중 정밀한 3D 등록이나 테스트 중 조밀한 입력 이미지에 의존하지 않습니다. 대신, 실시간 렌더링을 위해 조밀하게 보정된 멀티뷰 비디오를 활용하고 관절의 키포인트와 각도에 의해 구동되는 사면체 케이지 기반 변형을 도입하여 그림 9와 같이 통신과 관련된 애플리케이션에 효과적입니다.
애니메이션
이러한 방법은 일반적으로 포즈 의존형 가우스를 훈련하여 의류의 더 미세한 디테일을 포함하여 복잡하고 역동적인 모습을 캡처하여 고품질 아바타를 생성합니다. 이러한 방법 중 일부는 실시간 렌더링 기능도 지원합니다.
Jiang 등은 실제 인간을 효과적으로 렌더링할 수 있는 방법인 HiFi4G를 제안했습니다. HiFi4G는 3D 가우스 표현과 비강성 추적을 결합하고, 모션 사전이 포함된 이중 그래프 메커니즘과 적응형 시공간 정규화 기능을 갖춘 4D 가우스 최적화를 사용합니다. HiFi4G는 그림 10에서 볼 수 있듯이 약 25배의 압축률을 달성하고 프레임당 2MB 미만의 저장 공간을 필요로 하며 최적화 속도, 렌더링 품질 및 저장 오버헤드 측면에서 우수한 성능을 발휘합니다. 가우시안 스플래싱과 비강성 추적을 연결하는 컴팩트한 4D 가우스 표현을 제안합니다. 그러나 분할에 대한 의존성, 불량한 분할에 대한 민감성으로 인해 아티팩트가 발생하고 프레임당 재구성 및 그리드 추적의 필요성으로 인해 모든 포즈 제한이 발생합니다. 향후 연구는 최적화 프로세스를 가속화하고 웹 뷰어 및 모바일 장치에 대한 광범위한 배포를 위해 GPU 순서 의존성을 줄이는 데 중점을 둘 수 있습니다.
머리 기반
이전 머리 아바타 방법은 주로 고정된 명시적 기본 요소(그리드, 점) 또는 암시적 표면(SDF)에 의존했습니다. 가우시안 산란 기반 모델은 AR/VR 및 필터 기반 애플리케이션의 발전을 위한 길을 열어 사용자가 다양한 메이크업 룩, 톤, 헤어스타일 등을 시도할 수 있게 해줍니다.
Wang 등은 동적 장면을 표현하기 위해 표준 가우스 변환을 활용했습니다. 매개변수화된 머리 형상을 위한 효율적인 컨테이너로 명시적인 "동적" 삼면 평면을 사용하고 삼면의 기본 형상 및 요소와 잘 정렬되어 저자는 일반 가우시안에 대해 정렬된 정규화 인자를 얻었습니다. 작은 MLP를 사용하여 요소는 3D 가우스 프리미티브의 불투명도 및 구면 조화 계수로 디코딩됩니다. Quin 등은 제어 가능한 관점, 포즈 및 표현을 갖춘 매우 사실적인 머리 아바타를 만들었습니다. 아바타 재구성 과정에서 저자는 변형 모델 매개변수와 가우스 스플랫 매개변수를 동시에 최적화했습니다. 이 작품은 다양한 도전적인 시나리오에서 애니메이션을 적용할 수 있는 아바타의 능력을 보여줍니다. Dhamo 등은 학습 가능한 잠재 특성을 기반으로 3D-GS의 명시적 표현을 확장하는 하이브리드 모델인 HeadGaS를 제안했습니다. 그런 다음 이러한 특징을 파라메트릭 머리 모델의 저차원 매개변수와 선형적으로 혼합하여 최종 표현에 따른 색상 및 불투명도 값을 도출할 수 있습니다. 그림 11은 몇 가지 예시 이미지를 보여줍니다.
SLAM
SLAM은 자율주행차에서 지도를 작성하는 동시에 해당 지도 내에서 차량의 위치를 결정하는 데 사용되는 기술입니다. 이를 통해 차량은 알려지지 않은 환경을 탐색하고 매핑할 수 있습니다. 이름에서 알 수 있듯이 vSLAM(Visual SLAM)은 카메라와 다양한 이미지 센서의 이미지를 사용합니다. 이 방법은 단순 카메라, 복안 카메라, RGB-D 카메라 등 다양한 카메라 유형에서 작동하므로 비용 효율적인 솔루션입니다. 카메라를 통해 랜드마크 감지를 그래프 기반 최적화와 결합하여 SLAM 구현의 유연성을 향상시킬 수 있습니다. 단안 SLAM은 단일 카메라를 사용하고 깊이 인식 문제에 직면하는 vSLAM의 하위 집합으로, 관성 측정 장치(IMU)의 주행 거리 측정 및 인코더와 같은 추가 센서를 통합하여 해결할 수 있습니다. vSLAM과 관련된 주요 기술에는 SFM, 시각적 주행 거리 측정 및 빔 조정이 포함됩니다. Visual SLAM 알고리즘은 특징점 일치(예: 병렬 추적 및 매핑, ORB-SLAM)를 사용하는 희소 방법과 전체 이미지 밝기를 활용하는 밀집 방법(예: DTAM, LSD-SLAM, DSO)의 두 가지 주요 범주로 나뉩니다. , SVO).
가우스 산란은 물리 기반 시뮬레이션 및 렌더링에 사용될 수 있습니다. 3D 가우스 커널에 더 많은 매개변수를 추가하면 속도, 변형률 및 기타 기계적 특성을 모델링할 수 있습니다. 그렇기 때문에 가우스 산란을 사용한 물리학 시뮬레이션을 포함하여 다양한 방법이 몇 달 내에 개발되었습니다.
Xie et al.은 편미분 방정식(PDE)을 사용하여 가우스 커널 및 관련 구면 고조파의 발전을 주도하는 연속체 역학을 기반으로 하는 3차원 가우스 운동학 방법을 도입했습니다. 이러한 혁신을 통해 통합 시뮬레이션 렌더링 파이프라인을 사용할 수 있어 명시적인 대상 메시가 필요하지 않아 모션 생성이 단순화됩니다. 그들의 접근 방식은 다양한 재료에 대한 포괄적인 벤치마킹과 실험을 통해 다양성을 보여 주며, 간단한 역학을 갖춘 시나리오에서 실시간 성능을 보여줍니다. 저자는 물리적 기반의 역학과 사실적인 렌더링을 동시에 원활하게 생성하는 프레임워크인 PhysGaussian을 소개합니다. 섀도우 진화의 부족 및 볼륨 적분을 위한 단일점 구적법 사용과 같은 프레임워크의 한계를 인정하면서 저자는 재료점 방법(MPM)에서 고차 구적법을 사용하고 탐색하는 것을 포함하여 향후 작업을 위한 방법을 제안합니다. 보다 현실적인 모델링을 위해 통합된 신경망 사용. 프레임워크를 확장하여 액체와 같은 다양한 재료를 처리하고 LLM(대형 언어 모델)을 활용하는 고급 사용자 컨트롤을 통합할 수 있습니다. 그림 13은 PhysGaussian 프레임워크의 훈련 과정을 보여줍니다.
Gaussian Splash는 또한 장면의 3D 편집 및 포인트 조작까지 날개를 확장합니다. 앞으로 설명할 최신 기술을 사용하면 팁 기반 장면의 3D 편집도 가능합니다. 이러한 방법은 장면을 3D 가우스 맵으로 표현할 뿐만 아니라 장면에 대한 의미론적, 논쟁적 이해도 갖습니다.
Chen et al.은 기존 3D 편집 방식의 한계를 극복하기 위해 Gaussian Splatting 기반의 새로운 3D 편집 알고리즘인 GaussianEditor를 선보였습니다. 메시나 포인트 클라우드에 의존하는 전통적인 방법은 사실적인 묘사를 달성하는 데 어려움을 겪는 반면, NeRF와 같은 암시적 3D 표현은 느린 처리와 제한된 제어 문제에 직면합니다. GaussianEditor는 3D-GS를 활용하고, 가우스 의미 추적을 통해 정확성과 제어를 강화하고, 생성 지침에 따라 안정적이고 세련된 결과를 얻기 위해 HGS(Hierarchical Gaussian Splash)를 도입함으로써 이러한 문제를 해결합니다. 알고리즘에는 효율적인 개체 제거 및 통합을 위한 특수한 3D 복구 방법이 포함되어 있어 광범위한 실험에서 탁월한 제어, 효율성 및 빠른 성능을 보여줍니다. 그림 14는 Chen 등이 테스트한 다양한 텍스트 프롬프트를 보여줍니다. GaussianEditor는 향상된 효율성, 속도 및 제어 기능을 제공하여 3D 편집 분야에서 큰 발전을 이루었습니다. 이 연구의 기여에는 세부적인 편집 제어를 위한 가우스 의미 추적 도입, 생성 지침 하에서 안정적인 수렴을 달성하기 위한 HGS 제안, 타겟의 신속한 삭제 및 추가를 위한 3D 복구 알고리즘 개발, 그리고 이를 입증하는 광범위한 실험이 포함됩니다. 방법은 이전의 3D 편집 방법보다 우수합니다. GaussianEditor의 발전에도 불구하고 효과적인 감독을 위해 2D 확산 모델에 의존하고 복잡한 단서를 처리하는 데 한계가 있습니다. 이는 유사한 모델을 기반으로 하는 다른 3D 편집 방법이 직면하는 일반적인 과제입니다.
전통적으로 3D 장면은 명시적인 특성과 빠른 GPU/CUDA 기반 래스터화와의 호환성으로 인해 메쉬와 점을 사용하여 표현되었습니다. 그러나 NeRF 방법과 같은 최근 발전은 다층 퍼셉트론 최적화 및 체적 광선 행진을 통한 새로운 뷰 합성과 같은 기술을 사용하여 연속 장면 표현에 중점을 둡니다. 연속 표현은 최적화에 도움이 되지만 렌더링에 필요한 무작위 샘플링으로 인해 값비싼 노이즈가 발생합니다. Gaussian Splash는 최첨단 시각적 품질과 경쟁력 있는 훈련 시간을 달성하도록 최적화된 3D 가우스 표현을 활용하여 이러한 격차를 해소합니다. 또한 타일 기반 스플래시 솔루션은 최고 품질의 실시간 렌더링을 보장합니다. Gaussian Splash는 3D 장면을 렌더링할 때 품질과 효율성 측면에서 최고의 결과를 제공합니다.
Gaussian Splash는 원래 표현을 수정하여 동적이며 변형 가능한 대상을 처리하도록 개발되었습니다. 여기에는 3D 위치, 회전, 배율 계수, 색상 및 불투명도에 대한 구면 조화 계수와 같은 매개변수를 통합하는 작업이 포함됩니다. 이 분야의 최근 발전에는 기본 궤적 공유를 장려하기 위한 희소성 손실 도입, 시간 종속 잔차를 캡처하기 위한 이중 도메인 변형 모델 도입, 생성기 네트워크를 3D 가우스 렌더링과 연결하는 가우스 쉘 매핑이 포함됩니다. 또한 비강성 추적, 아바타 표현 변경, 사실적인 인간 성능의 효율적인 렌더링과 같은 과제를 해결하기 위한 노력도 이루어지고 있습니다. 이러한 발전은 역동적이고 변형 가능한 대상으로 작업할 때 실시간 렌더링, 최적화된 효율성 및 고품질 결과를 제공하는 데 함께 작용합니다.
반면에 Diffusion과 Gaussian Splash는 함께 작동하여 텍스트 큐에서 3D 타겟을 생성합니다. 확산 모델은 일련의 점점 더 깨끗한 이미지를 통해 이미지 손상 과정을 역전시켜 잡음이 있는 입력에서 이미지를 생성하는 방법을 학습하는 신경망입니다. 텍스트-3D 파이프라인에서 확산 모델은 텍스트 설명을 기반으로 초기 3D 포인트 클라우드를 생성한 다음 가우시안 산란을 사용하여 가우스 구로 변환합니다. 렌더링된 가우시안 구는 최종 3D 대상 이미지를 생성합니다. 이 분야의 발전에는 구조화된 노이즈를 사용하여 다중 뷰 지오메트리 문제를 해결하고, 변형 가우스 산란 모델을 도입하여 수렴 문제를 해결하고, 노이즈 제거 점수를 최적화하여 확산 사전을 강화하여 텍스트 기반 3D 생성에서 비교할 수 없는 사실성을 달성하는 것이 포함됩니다. .
Gaussian Splash는 AR/VR 애플리케이션용 디지털 아바타 제작에 널리 사용되었습니다. 여기에는 최소한의 시점에서 객체를 캡처하고 3D 모델을 구축하는 작업이 포함됩니다. 이 기술은 인간의 관절, 관절 각도 및 기타 매개변수를 모델링하는 데 사용되어 표현력이 풍부하고 제어 가능한 아바타를 생성할 수 있습니다. 이 분야의 발전에는 고주파수 얼굴 세부 정보를 캡처하고, 과장된 표정을 보존하고, 아바타를 효과적으로 변형하는 방법 개발이 포함됩니다. 또한 표현에 따른 최종 색상 및 불투명도 값을 달성하기 위해 명시적 표현과 학습 가능한 잠재 기능을 결합하는 하이브리드 모델이 제안되었습니다. 이러한 발전은 AR/VR 애플리케이션에서 사실적이고 제어 가능한 아바타에 대한 수요 증가를 충족하기 위해 생성된 3D 모델의 형상과 질감을 향상시키도록 설계되었습니다.
Gaussian Splatting은 또한 SLAM에서 다양한 애플리케이션을 찾아 GPU에서 실시간 추적 및 매핑 기능을 제공합니다. 3D 가우스 표현과 미분 가능한 스플래시 래스터화 파이프라인을 사용하여 실제 장면과 합성 장면을 빠르고 사실적으로 렌더링할 수 있습니다. 이 기술은 메시 추출 및 물리 기반 시뮬레이션으로 확장되어 명시적인 대상 메시 없이 기계적 특성을 모델링할 수 있습니다. 연속체 역학과 편미분 방정식의 발전으로 가우스 커널이 발전하여 모션 생성이 단순화되었습니다. 특히, 최적화에는 OpenVDB와 같은 효율적인 데이터 구조, 정렬을 위한 정규화 용어, 오류 감소를 위한 물리학에서 영감을 받은 용어가 포함되어 전반적인 효율성과 정확성이 향상됩니다. 압축 및 가우시안 산란 렌더링 효율성 향상에 대한 다른 작업도 수행되었습니다.
표 2를 보면 이 글을 쓰는 시점에서 Gaussian Splash가 실시간 렌더링 및 동적 장면 표현에 가장 가까운 옵션임이 분명합니다. 네트워크 점유는 NVS 사용 사례에 맞게 맞춤화되지 않습니다. 사진 측량은 강력한 맥락 감각을 통해 매우 정확하고 사실적인 모델을 만드는 데 이상적입니다. NeRF는 새로운 뷰와 사실적인 조명 효과를 생성하여 창의적인 자유를 제공하고 복잡한 장면을 처리하는 데 탁월합니다. Gaussian Splash는 실시간 렌더링 기능과 대화형 탐색 기능이 뛰어나 동적 애플리케이션에 적합합니다. 각 방법에는 고유한 틈새가 있고 서로를 보완하여 3D 재구성 및 시각화를 위한 다양한 도구를 제공합니다.
Gaussian Splash는 매우 강력한 기술이지만 몇 가지 주의 사항이 있습니다. 그 중 일부는 아래에 나열되어 있습니다.
실시간 3D 재구성 기술은 3D 장면이나 모델의 실시간 대화형 탐색, 즉각적인 피드백을 통한 시점 및 대상 조작 등 컴퓨터 그래픽 및 관련 분야의 다양한 기능을 실현할 것입니다. . 또한 움직이는 대상이나 실시간으로 변화하는 환경이 포함된 역동적인 장면을 렌더링하여 현실감과 몰입감을 향상시킬 수 있습니다. 실시간 3D 재구성은 시뮬레이션 및 교육 환경에서 자동차, 항공우주, 의학과 같은 분야의 가상 장면에 대한 사실적인 시각적 피드백을 제공하는 데 사용될 수 있습니다. 또한 사용자가 가상 대상이나 환경과 실시간으로 상호 작용할 수 있는 몰입형 AR 및 VR 경험의 실시간 렌더링을 지원합니다. 전반적으로 실시간 Gaussian Splash는 컴퓨터 그래픽, 시각화, 시뮬레이션 및 몰입형 기술 분야의 다양한 애플리케이션에 대한 효율성, 상호 작용성 및 사실성을 향상시킵니다.
이 기사에서는 3차원 재구성 및 새로운 시점 합성을 위한 가우스 산란과 관련된 다양한 기능 및 응용 측면에 대해 논의했습니다. 동적 및 변형 가능한 모델링, 모션 추적, 고정되지 않은/변형 가능한 대상, 표현/감정 변화, 텍스트 기반 생성 확산, 노이즈 제거, 최적화, 아바타, 애니메이션 가능한 대상, 머리 기반 모델링, 동시 현지화 및 계획, 메쉬 추출 및 물리학, 최적화 기술, 편집 기능, 렌더링 방법, 압축 등.
구체적으로 이 기사에서는 이미지 기반 3D 재구성의 과제와 진행 상황, 3D 형상 추정 개선에서 학습 기반 방법의 역할, 동적 장면 처리, 대화형 대상 조작, 3D 분할에서 가우시안 스플래시 기술 적용에 대해 자세히 설명합니다. 장면 편집의 잠재적인 적용 및 향후 방향.
Gaussian Splash는 컴퓨터 생성 이미지, VR/AR, 로봇 공학, 영화 및 애니메이션, 자동차 디자인, 소매, 환경 연구, 항공우주 응용 등 다양한 분야에서 혁신을 일으키고 있습니다. 그러나 가우스 산란은 NeRF와 같은 다른 방법에 비해 현실감을 구현하는 데 한계가 있을 수 있다는 점에 주목할 필요가 있습니다. 또한 과적합, 계산 리소스 및 렌더링 품질 제한과 관련된 문제도 고려해야 합니다. 이러한 한계에도 불구하고 가우스 산란에 대한 지속적인 연구와 발전은 이러한 문제를 계속해서 해결하고 방법의 효율성과 적용성을 더욱 향상시킵니다.
위 내용은 단순한 3D 가우스 그 이상입니다! 최첨단 3D 재구성 기술의 최신 개요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!