포즈 이미지에서 3D 실내 장면을 재구성하는 작업은 일반적으로 이미지 깊이 추정, 깊이 병합 및 표면 재구성의 두 단계로 나뉩니다. 최근 여러 연구에서 최종 3D 체적 특징 공간에서 직접 재구성을 수행하는 일련의 방법을 제안했습니다. 이러한 방법은 인상적인 재구성 결과를 얻었지만 값비싼 3D 컨볼루셔널 레이어에 의존하므로 리소스가 제한된 환경에서의 적용이 제한됩니다.
이제 Niantic 및 UCL과 같은 기관의 연구자들은 전통적인 방법을 재사용하고 고품질 다시점 깊이 예측에 집중하려고 노력하고 있으며, 마침내 간단하고 기성 깊이 융합 방법을 사용하여 고정밀 3D 재구성을 달성했습니다. .
이 연구는 평면 스캔 특징량 및 기하학적 손실뿐만 아니라 강력한 이미지 사전을 활용하며 2D CNN을 신중하게 설계했습니다. 제안된 방법 SimpleRecon은 깊이 추정에서 상당히 뛰어난 결과를 달성하고 온라인 실시간 저메모리 재구성을 허용합니다.
아래 그림과 같이 SimpleRecon의 재구성 속도는 프레임당 약 70ms에 불과할 정도로 매우 빠릅니다. betweensimplerecon과 다른 방법들 사이의 비교 결과는 다음과 같습니다. methodod
깊이 추정 모델은 단안 깊이 추정 및 평면 스캐닝 MV의 교차점에 있습니다. 연구원은 그림 2와 같이 깊이 예측 인코더-디코더 아키텍처를 늘리기 위해 비용 볼륨(비용 볼륨)을 사용합니다. 이미지 인코더는 참조 이미지와 소스 이미지에서 일치하는 특징을 비용 볼륨에 대한 입력으로 추출합니다. 2D 컨벌루션 인코더-디코더 네트워크는 비용 볼륨의 출력을 처리하는 데 사용되며, 이는 별도의 사전 훈련된 이미지 인코더에 의해 추출된 이미지 수준 기능으로 보강됩니다.
이 연구는 PyTorch를 사용하여 구현되었으며 UNet++와 유사한 디코더가 있는 EfficientNetV2 S를 사용했습니다. 또한 일치 기능 추출을 위해 ResNet18의 처음 2개 블록을 사용했으며 최적화 프로그램은 다음과 같습니다. AdamW 2개의 40GB A100 GPU를 사용하여 완료하는 데 36시간이 걸렸습니다.
네트워크 아키텍처 설계
네트워크는 2D 컨벌루션 인코더-디코더 아키텍처를 기반으로 구현됩니다. 이러한 네트워크를 구축할 때 연구에 따르면 깊이 예측 정확도를 크게 향상시킬 수 있는 몇 가지 중요한 설계 선택이 있으며 주로 다음을 포함합니다.
기본 비용 볼륨 융합: RNN 기반 시간 융합 방법이 자주 사용되지만 시스템의 복잡성. 대신 비용량 융합을 최대한 간단하게 만들고 참조 뷰와 각 소스 뷰 사이에 비용 매칭 내적을 추가하는 것만으로도 SOTA 깊이 추정에 경쟁력 있는 결과를 얻을 수 있음을 발견했습니다.
이미지 인코더 및 특징 일치 인코더: 이전 연구에 따르면 이미지 인코더는 단안 및 다중 뷰 추정 모두에서 깊이 추정에 매우 중요합니다. 예를 들어 DeepVideoMVS는 상대적으로 지연 시간이 짧은 MnasNet을 이미지 인코더로 사용합니다. 이 연구에서는 작지만 더 강력한 EfficientNetv2 S 인코더를 사용할 것을 권장합니다. 이를 통해 깊이 추정 정확도가 크게 향상되지만 이로 인해 매개변수 수가 증가하고 실행 속도가 10% 감소합니다.
다중 규모 이미지 기능을 비용 볼륨 인코더에 융합: 2D CNN 기반 깊이 스테레오 및 다중 뷰 스테레오에서 이미지 기능은 일반적으로 단일 규모의 비용 볼륨 출력과 결합됩니다. 최근 DeepVideoMVS는 모든 해상도에서 이미지 인코더와 비용 볼륨 인코더 사이에 건너뛰기 연결을 추가하여 다양한 스케일에서 깊은 이미지 기능을 스티칭할 것을 제안합니다. 이는 LSTM 기반 융합 네트워크에 도움이 되며, 연구에서는 아키텍처에도 중요하다는 것을 발견했습니다.
이 연구에서는 3D 장면 재구성 데이터 세트 ScanNetv2에 대해 제안된 방법을 훈련하고 평가했습니다. 아래 표 1은 Eigen et al.(2014)이 제안한 측정항목을 사용하여 여러 네트워크 모델의 깊이 예측 성능을 평가합니다.
놀랍게도 본 연구에서 제안한 모델은 3D 컨볼루션을 사용하지 않지만 깊이 예측 지표에서 모든 기본 모델을 능가합니다. 또한 메타데이터 인코딩을 사용하지 않는 기본 모델도 이전 방법보다 성능이 뛰어나므로 잘 설계되고 훈련된 2D 네트워크가 고품질 깊이 추정에 충분하다는 것을 나타냅니다. 아래 그림 4와 5는 깊이와 법선에 대한 정성적 결과를 보여줍니다.
본 연구에서는 3차원 재구성 평가를 위해 TransformerFusion에서 제정한 표준 프로토콜을 사용하였으며, 그 결과를 아래 표 2에 나타내었다.
온라인 및 대화형 3D 재구성 애플리케이션의 경우 센서 대기 시간을 줄이는 것이 중요합니다. 아래 표 3은 새로운 RGB 프레임이 주어졌을 때 각 모델의 프레임당 앙상블 계산 시간을 보여줍니다.
본 연구에서 제안한 방법의 각 구성요소의 유효성을 검증하기 위해 연구자는 ablation 실험을 진행하였고, 그 결과는 아래 표 4와 같다.
관심 있는 독자는 논문의 원문을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.
위 내용은 A100은 3D 컨볼루션 없이 3D 재구성 방법을 구현하며 각 프레임 재구성에 70ms만 소요됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!