현재 이미지 3D 재구성 작업은 일반적으로 일정한 자연광 조건 하에서 여러 시점(멀티 뷰)에서 대상 장면을 캡처하는 멀티 뷰 스테레오 재구성 방법(Multi-view Stereo)을 사용합니다. 그러나 이러한 방법은 일반적으로 Lambertian 표면을 가정하므로 고주파수 세부 정보를 복구하는 데 어려움이 있습니다.
장면 재구성의 또 다른 방법은 고정된 시점이지만 다른 점 광원에서 캡처된 이미지를 활용하는 것입니다. 예를 들어 포토메트릭 스테레오 방법은 이 설정을 사용하고 해당 음영 정보를 사용하여 램버시안 개체가 아닌 개체의 표면 세부 정보를 재구성합니다. 그러나 기존의 싱글뷰 방식은 눈에 보이는 표면을 표현하기 위해 보통 노멀맵이나 깊이맵을 사용하기 때문에 객체의 뒷면과 폐색된 영역을 기술할 수 없고 2.5D 장면 기하구조만 재구성할 수 있습니다. 또한 노멀 맵은 깊이 불연속성을 처리할 수 없습니다.
최근 연구에서 홍콩대학교, 홍콩중문대학교(선전), 난양기술대학교, MIT-IBM Watson AI Lab의 연구진은 단일 뷰 다중 광원(단일 뷰)을 사용하는 방법을 제안했습니다. 보기, 다중 조명) 이미지를 사용하여 완전한 3D 장면을 재구성합니다.
노멀맵이나 깊이맵을 기반으로 한 기존 싱글뷰 방식과 달리 S3-NeRF는 신경 장면을 기반으로 합니다. 신경 장면 표현. 장면의 음영 및 그림자 정보를 사용하여 전체 3D 장면(표시/보이지 않는 영역 포함)을 재구성합니다. 신경 장면 표현 방법은 MLP(다층 퍼셉트론)를 사용하여 연속 3D 공간을 모델링하고 3D 점을 밀도, 색상 등과 같은 장면 속성에 매핑합니다. 신경 장면 표현은 다중 뷰 재구성 및 새로운 뷰 합성에서 상당한 진전을 이루었지만 단일 뷰 장면 모델링에서는 덜 탐구되었습니다. S3-NeRF는 다중 뷰 사진 일관성에 의존하는 기존 신경 장면 표현 기반 방법과 달리 단일 뷰에서 음영 및 그림자 정보를 활용하여 신경 장을 주로 최적화합니다.
우리는 단순히 광원 위치 정보를 NeRF에 입력으로 직접 입력하는 것만으로는 장면의 형상과 모양을 재구성할 수 없다는 사실을 발견했습니다. 캡처된 측광 스테레오 이미지를 더 잘 활용하기 위해 반사 필드를 사용하여 표면 형상과 BRDF를 명시적으로 모델링하고 물리적 기반 렌더링을 사용하여 스테레오 렌더링을 통해 얻은 장면의 3D 포인트 색상을 계산합니다. 광선에 해당하는 2차원 픽셀. 동시에 장면의 가시성에 대한 미분 가능한 모델링을 수행하고, 3D 점과 광원 사이의 광선을 추적하여 점의 가시성을 계산합니다. 그러나 광선의 모든 샘플 점의 가시성을 고려하는 것은 계산 비용이 많이 들기 때문에 광선 추적을 통해 얻은 표면 점의 가시성을 계산하여 그림자 모델링을 최적화합니다.
우리는 UNISURF와 유사한 점유 필드를 사용하여 장면 형상을 특성화합니다. UNISURF는 MLP를 통해 3D 점좌표와 시선방향을 점유값과 점의 색상에 매핑하고 스테레오 렌더링을 통해 픽셀의 색을 구합니다. 각 광선 포인트 수.
측광 스테레오 이미지의 음영 정보를 효과적으로 활용하기 위해 S
3-NeRF는 장면의 BRDF를 명시적으로 모델링하고 물리 기반 렌더링을 사용하여 3D 포인트의 색상을 얻습니다. 동시에 장면의 3D 점의 빛 가시성을 모델링하여 이미지의 풍부한 그림자 큐를 활용하고 다음 방정식을 통해 최종 픽셀 값을 얻습니다.
우리의 접근 방식은 비램버트 표면과 공간적으로 다양한 BRDF를 고려합니다. 근거리 점광원(pl, Le) 아래 시선 방향 d에서 관찰한 점 x의 값은
으로 표현할 수 있습니다. 그 중 점의 빛 감쇠 문제를 고려합니다. 광원, 광원 지점을 통해 거리는 해당 지점에 입사되는 빛의 강도를 계산합니다. 우리는 확산 반사와 정반사를 고려하는 BRDF 모델을 사용합니다
구 가우스 기반의 가중치 조합을 통해 정반사를 표현합니다
그림자 장면 기하학의 중요한 단서 중 하나 재건축 중. 사진 속 세 물체는 앞에서 보면 모양과 모습이 동일하지만, 뒷면에서는 모양이 다릅니다. 조명에 따라 생성되는 그림자를 통해 그림자의 모양이 달라지는 것을 관찰할 수 있는데, 이는 정면에서 보이지 않는 영역의 기하학적 정보를 반영한 것이다. 빛은 배경에 반사된 그림자를 통해 물체의 뒷면 윤곽에 특정 제약을 만듭니다.
3D 점 - 광원 사이의 점유율 값을 계산하여 해당 점의 빛 가시성을 반영합니다.
여기서 NL은 점입니다. 광원 선분 샘플링된 포인트 수입니다.
광선을 따라 픽셀 포인트로 샘플링된 모든 Nv 포인트의 가시성을 계산하는 데 드는 계산 비용이 높기 때문에(O(NvNL)) 기존 방법은 MLP를 사용하여 점의 가시성을 직접 회귀하거나(O(Nv)), 장면 형상을 얻은 후 표면 점을 사전 추출(O(NL))하는 것입니다. S3-NeRF는 근탐색을 통해 찾아낸 표면 점을 통해 온라인으로 픽셀의 빛 가시성을 계산하고, 다음 공식을 통해 픽셀 값을 표현합니다.
우리의 방법은 그림자 감독이 필요하지 않지만 최적화를 위해 이미지 재구성 손실에 의존합니다. 단일 관점에서 다른 관점으로 인해 발생하는 추가적인 제약이 없다는 점을 고려하면, UNISURF와 같은 샘플링 전략을 채택하여 샘플링 범위를 점진적으로 줄이는 경우 샘플링 간격이 줄어든 후에 모델이 저하되기 시작합니다. 따라서 우리는 루트 찾기를 사용하여 색상을 렌더링하고 L1 손실을 계산할 표면 지점을 찾는 결합 스테레오 렌더링 및 표면 렌더링 전략을 채택했습니다.
신경방사선장법과의 비교
먼저 신경 방사선장을 기반으로 한 두 가지 기본 방법을 비교합니다(다른 작업으로 인해 색상 MLP에 광원 정보를 소개합니다). 장면 형상을 재구성하거나 새로운 조명 아래에서 그림자를 정확하게 생성할 수 없다는 것을 알 수 있습니다.
단일 시점 형상 추정 방법과의 비교
기존 단일 시점 정규/깊이 추정 방법과 비교하면 정규 추정 및 깊이 측정에서 우리 방법이 더 좋은 성능을 보이는 것을 알 수 있습니다. 두 가지 모두 최상의 결과를 얻었으며 장면의 보이는 영역과 보이지 않는 영역을 동시에 재구성할 수 있었습니다.
다양한 배경으로 장면 재구성
우리의 방법은 다양한 배경 조건의 다양한 장면에 적합합니다.
새로운 뷰 렌더링, 조명 변경 및 재료 편집
신경 반사 필드 장면 모델링을 기반으로 장면의 형상/재료/조명 등을 성공적으로 분리하여 새로운 뷰 렌더링, 장면 조명 변경, 재료 편집 및 기타 응용 프로그램에 적용됩니다.
실제 촬영 장면 재구성
실용성을 탐구하기 위해 3개의 실제 장면을 촬영했습니다. 카메라 위치를 고정하고 휴대폰의 손전등을 점광원으로 사용했으며(주변 광원은 꺼짐) 휴대용 손전등을 무작위로 움직여 다양한 광원에서 이미지를 캡처했습니다. 이 설정에는 광원 보정이 필요하지 않습니다. SDPS-Net을 적용하여 광원 방향을 대략적으로 추정하고, 카메라-물체 및 광원-물체 상대 거리를 대략적으로 추정하여 광원 위치를 초기화합니다. 광원 위치는 훈련 중에 장면의 형상 및 BRDF와 함께 최적화됩니다. 보다 일반적인 데이터 캡처 설정(광원 보정 없이)을 사용하더라도 우리의 방법은 여전히 3D 장면 형상을 잘 재구성할 수 있음을 알 수 있습니다.
위 내용은 단일 뷰 NeRF 알고리즘 S^3-NeRF는 다중 조명 정보를 사용하여 장면 형상 및 재료 정보를 복원합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!