저희 웹사이트의 AIxiv 칼럼은 학술 및 기술 콘텐츠에 대한 칼럼입니다. 지난 몇 년 동안 당사 웹사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 다루는 2,000개 이상의 콘텐츠가 접수되어 학술 교류 및 보급을 촉진하는 데 도움이 되었습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일 주소는 liyazhou@jiqizhixin.com입니다.
홍콩과기대와 칭화대학교의 연구원들은 텍스트 기반 NeRF 편집과 같은 다양한 NeRF 변환 작업에 적합한 통합 생성 NeRF-NeRF 변환 프레임워크인 "GenN2N"을 제안했습니다. 셰이딩, 초해상도, 복원 등 성능이 매우 좋습니다!
- 논문 주소: https://arxiv.org/abs/2404.02788
- 논문 홈페이지: https://xiangyueliu.github.io/GenN2N/
- Github 주소: https://github.com/Lxiangyue/GenN2N
- 논문 제목: GenN2N: Generative NeRF2NeRF Translation
최근 몇 년간 NeRF(Neural Radiation Fields)는 그 컴팩트함으로 인해 많은 주목을 받았습니다. , 높은 품질 및 다양성을 갖춘 3D 재구성, 3D 생성 및 새로운 관점 합성 분야가 광범위한 관심을 끌었습니다. 그러나 NeRF 장면이 생성되면 이러한 방법은 결과적인 형상 및 모양에 대한 추가 제어가 부족한 경우가 많습니다. 따라서 NeRF 편집은 최근 주목할 만한 연구 초점이 되었습니다. 현재 NeRF 편집 방법은 일반적으로 NeRF의 텍스트 기반 편집, 초해상도, 복구 및 색상화와 같은 작업별로 다릅니다. 이러한 방법에는 많은 양의 작업별 도메인 지식이 필요합니다. 2D 이미지 편집 분야에서는 보편적인 이미지 간 변환 방법을 개발하는 것이 추세입니다. 예를 들어 다기능 이미지 편집을 지원하기 위해 2D 생성 모델 Stable Difussion이 사용됩니다. 따라서 우리는 기본 2D 생성 모델을 활용하는 범용 NeRF 편집을 제안합니다. 이와 관련된 과제는 NeRF와 2D 이미지 사이의 표현 격차입니다. 특히 이미지 편집기는 종종 서로 다른 관점에 대해 일관되지 않은 여러 편집을 생성하기 때문입니다. 최근 텍스트 기반 NeRF 편집 방법인 Instruct-NeRF2NeRF가 이를 탐구합니다. 멀티뷰 이미지를 점진적으로 렌더링하고, 이러한 이미지를 편집하고, 편집된 이미지를 NeRF로 집계하여 NeRF 장면을 점진적으로 업데이트하는 "렌더링-편집-집합" 프로세스를 채택합니다. 그러나 이 편집 방법은 특정 편집 요구 사항에 대해 많은 최적화를 거친 후에만 특정 편집 결과를 생성할 수 있습니다. 사용자가 만족하지 않으면 반복적인 시도를 반복해야 합니다. 그래서 우리는 다양한 NeRF 편집 작업에 적합한 일반적인 NeRF-NeRF 프레임워크인 "GenN2N"을 제안했습니다. 그 핵심은 편집 프로세스의 다중 솔루션 특성을 특성화하기 위해 생성적 접근 방식을 사용하는 것입니다. 생성 편집을 사용하여 사용자가 선택해야 하는 요구 사항을 충족하는 많은 수의 편집 결과를 쉽게 생성할 수 있습니다.
GenN2N의 핵심 부분에서는 1) 3D VAE-GAN의 생성 프레임워크가 도입되어 VAE를 사용하여 전체 편집 공간을 표현하고 입력 2D 편집 이미지 세트에 해당하는 가능한 모든 3D NeRF 편집 분포를 학습합니다. 2) 편집 결과의 신뢰성을 보장하기 위해 GAN을 사용하여 NeRF의 다양한 뷰 편집에 대한 합리적인 감독을 제공합니다. 2) 대조 학습을 사용하여 편집 콘텐츠와 관점을 분리하여 다양한 관점 간 편집 콘텐츠의 일관성을 보장합니다. , 사용자는 조건 생성 모델에서 여러 개의 편집 코드를 무작위로 샘플링하는 것만으로도 편집 대상에 해당하는 다양한 3D 편집 결과를 생성할 수 있습니다.
다양한 NeRF 편집 작업(ICCV2023 Oral 등)에서 SOTA 방식과 비교했을 때, GenN2N은 편집 품질, 다양성, 효율성 등의 측면에서 기존 방식보다 우수합니다. 방법 소개
먼저 2D 이미지 편집을 수행한 다음 이러한 2D 편집을 3D NeRF로 업그레이드하여 생성적인 NeRF에서 NeRF로의 변환을 달성합니다. A. Implicit Distill(Latent Distill) Latent Distill 모듈을 VAE의 인코더로 사용하여 편집된 각 이미지에 대한 암시적 편집 코드를 학습하고 이를 NeRF-NeRF 변환 편집 코드에 전달합니다. 생성된 콘텐츠를 제어합니다. 모든 편집 코드는 더 나은 샘플링을 위해 KL 손실 제약 조건 하에서 양호한 정규 분포를 따릅니다. 편집 내용과 관점을 분리하기 위해 편집 스타일은 동일하지만 관점이 다른 사진의 편집 코드는 유사하게 하고, 편집 스타일은 다르지만 관점이 같은 사진의 편집 코드는 멀도록 장려하는 대조 학습을 신중하게 설계했습니다. 서로 멀리 떨어져 있습니다. B.NeRF-to-NeRF 변환(Translated NeRF) 우리는 NeRF-to-NeRF Translation을 VAE의 디코더로 사용합니다. 이는 편집 코드를 입력으로 사용하여 원본 NeRF를 수정합니다. 변환된 NeRF의 경우. 우리는 원래 NeRF 네트워크의 숨겨진 레이어 사이에 잔여 레이어를 추가했습니다. 이러한 잔여 레이어는 편집 코드를 입력으로 사용하여 숨겨진 레이어 뉴런을 변조하므로 변환된 NeRF는 원래 NeRF 정보를 유지할 뿐만 아니라 3D 변환도 제어할 수 있습니다. 편집 코드를 기반으로 합니다. 동시에 NeRF-to-NeRF Translation은 생성적 적대 훈련에 참여하기 위한 생성기 역할도 합니다. 최적화가 아닌 생성을 통해 한 번에 여러 변환 결과를 얻을 수 있어 NeRF 변환 효율성과 결과 다양성이 크게 향상됩니다. NeRF로 변환된 렌더링된 이미지는 구별되어야 하는 생성 공간을 구성합니다. 이러한 이미지의 편집 스타일과 렌더링 관점이 다르기 때문에 생성 공간이 매우 복잡해집니다. . 따라서 판별자에 대한 추가 정보로 조건을 제공합니다. 구체적으로, 판별자가 훈련 데이터에서 생성자가 렌더링한 그림(음성 샘플) 또는 편집된 그림(양성 샘플)을 식별하면 훈련 데이터에서 동일한 관점의 편집된 그림을 조건으로 선택합니다. 판별자는 양성 샘플과 음성 샘플을 구별할 때 관점 요인의 간섭을 받지 않습니다. GenN2N 최적화 후 사용자는 정규 분포에서 편집 코드를 무작위로 샘플링하고 변환된 NeRF를 입력하여 뷰포인트에 일관된 고품질 3D NeRF를 생성할 수 있습니다. 장면. 우리는 NeRF 텍스트 기반 편집, 색상화, 초해상도, 인페인팅 등 다양한 NeRF 간 작업에 대한 광범위한 실험을 수행했습니다. 실험 결과는 GenN2N의 뛰어난 편집 품질, 멀티뷰 일관성, 생성된 다양성 및 편집 효율성을 보여줍니다. A. 텍스트 기반 NeRF 편집더 많은 실험과 방법은 논문 홈페이지를 참고해주세요. 이 논문은 홍콩 과학 기술 대학의 Tan Ping 팀, Tsinghua University 3DVICI Lab, Shanghai Artificial Intelligence Laboratory 및 Shanghai Qizhi Research Institute의 저자입니다. 논문은 홍콩과기대 학생 Liu, 청화대 학생 Xue Han, 홍콩과기대 학생 Luo Kunming, 그리고 강사는 칭화대 Yi Li 선생님입니다. 홍콩과기대학교의 대학교수이자 교사인 탄핑(Tan Ping).
위 내용은 CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!