3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성-일체 포함-php.cn

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성

다양하고 고품질의 3차원 장면 생성 결과

논문 주소: https://arxiv.org/abs/2304.12670
프로젝트 홈페이지: http:/ /weiyuli.xyz/Sin3DGen/

Introduction

AIGC(인공 지능 지원 콘텐츠 생성)를 사용하면 초기 VAE(변형 자동 인코더)부터 생성 이미지 생성까지 이미지 생성 분야에서 많은 작업이 등장했습니다. 적대적 네트워크(GAN))에 이어 최근 인기를 끌고 있는 확산 모델(Diffusion Model)까지 모델 생성 능력이 급속도로 향상되었습니다. Stable Diffusion, Midjourney 등으로 대표되는 모델은 매우 사실적인 이미지를 생성하는 데 전례 없는 결과를 달성했습니다. 동시에 비디오 생성 분야에서는 최근 훌륭한 작품이 많이 등장했습니다. 예를 들어 Runway의 생성 모델은 상상력이 풍부한 비디오 클립을 생성할 수 있습니다. 이러한 애플리케이션은 콘텐츠 제작의 한계를 크게 낮추어 누구나 자신의 엉뚱한 아이디어를 쉽게 현실로 만들 수 있게 해줍니다.

그러나 콘텐츠를 담는 미디어가 점점 더 풍부해지면서 사람들은 점차 사진, 텍스트, 동영상과 같은 2차원 그래픽 콘텐츠에 더 이상 만족하지 않게 되었습니다. 대화형 전자 게임 기술의 지속적인 발전, 특히 가상 및 증강 현실과 같은 응용 프로그램의 점진적인 성숙으로 인해 사람들은 점점 더 3차원 관점에서 장면 및 사물과 상호 작용하기를 희망하고 있으며, 이는 3차원 콘텐츠에 대한 필요성을 불러일으킵니다. 더 큰 수요를 창출하세요.

미세한 기하학적 구조와 매우 사실적인 외관을 갖춘 고품질 3차원 콘텐츠를 빠르게 생성하는 방법은 항상 컴퓨터 그래픽 커뮤니티의 연구자들이 탐구하는 주요 문제였습니다. 컴퓨터를 통한 3차원 콘텐츠의 지능적인 생성은 실제 제작 응용 프로그램에서 게임, 영화 및 TV 제작의 중요한 디지털 자산 생산을 지원하여 예술 제작 인력의 개발 시간을 크게 단축하고 자산 획득 비용을 크게 절감하며 작업 시간을 단축할 수 있습니다. 전반적인 제작 사이클은 또한 사용자가 수천 가지의 개인화된 시각적 경험을 가져올 수 있는 기술적 가능성을 제공합니다. 일반 사용자에게는 빠르고 편리한 3D 콘텐츠 제작 도구의 등장과 데스크톱 3D 프린터 등의 애플리케이션이 결합되어 향후 일반 소비자의 엔터테인먼트 생활에 더욱 무한한 상상력을 선사할 것입니다.

현재 일반 사용자는 휴대용 카메라 등의 기기를 통해 이미지, 동영상 등 2D 콘텐츠를 쉽게 제작할 수 있고, 3D 장면을 모델링하고 스캔할 수도 있지만, 일반적으로 고품질 3D 콘텐츠를 제작하려면 숙련된 전문가가 필요한 경우가 많습니다. 3ds Max, Maya, Blender 등과 같은 소프트웨어를 사용하여 수동으로 모델링하고 렌더링하지만 학습 비용이 높고 성장 곡선이 가파르게 나타납니다.

기하학 모델, 텍스처 맵, 캐릭터 뼈대 애니메이션 등 3차원 콘텐츠의 표현이 매우 복잡하다는 것이 주된 이유 중 하나입니다. 기하학적 표현 측면에서도 포인트 클라우드, 복셀, 메쉬 등 다양한 형태가 가능합니다. 3차원 표현의 복잡성으로 인해 후속 데이터 수집 및 알고리즘 설계가 크게 제한됩니다.

반면, 3D 데이터는 당연히 부족하고, 데이터 획득 비용이 높으며, 고가의 장비와 복잡한 수집 프로세스가 필요한 경우가 많으며, 대량의 3D 데이터를 통일된 형식으로 수집하기 어렵습니다. . 이로 인해 대부분의 데이터 기반 심층 생성 모델을 사용하기가 어렵습니다.

알고리즘 수준에서는 수집된 3차원 데이터를 계산 모델에 어떻게 공급하는지도 해결하기 어려운 문제입니다. 3차원 데이터 처리의 컴퓨팅 성능 오버헤드는 2차원 데이터 처리보다 기하급수적으로 높습니다. 2차원 생성 알고리즘을 3차원으로 과격하게 확장하는 것은 가장 발전된 병렬 컴퓨팅 프로세서라도 허용 가능한 시간 내에 처리하기 어렵습니다.

위의 이유로 인해 현재 3D 콘텐츠 생성 작업의 대부분은 특정 카테고리에 국한되거나 저해상도 콘텐츠만 생성할 수 있어 실제 제작 프로세스에 적용하기 어렵습니다.

위 문제를 해결하기 위해 북경대학교 Chen Baoquan 팀은 산둥대학교 및 Tencent AI Lab의 연구원들과 협력하여 단일 샘플 장면을 기반으로 다양한 고품질 3D 장면을 생성하는 첫 번째 방법을 제안했습니다. 훈련도 없이. 이 알고리즘은 다음과 같은 장점이 있습니다.

1. 대규모의 유사 학습 데이터와 장기간의 학습이 필요하지 않으며, 단 하나의 샘플만으로 고품질의 3차원 장면을 빠르게 생성할 수 있습니다.

2 신경방사선장을 기반으로 한 Plenoxel을 3차원 표현으로 사용하여 장면이 매우 사실적인 모습을 가지며 사진처럼 사실적인 다관점 사진을 렌더링할 수 있습니다. 생성된 장면은 보는 각도에 따라 변화하는 수면 반사 효과와 같은 샘플의 모든 특성을 완벽하게 유지하며 3D 장면 편집과 같은 다양한 애플리케이션 제작 시나리오를 지원합니다. 크기 방향 전환, 장면 구조 유추 및 장면 모양 변경 등

방법 소개

연구원들은 아래 그림과 같이 다중 규모 진보적 세대 프레임워크를 제안했습니다. 알고리즘의 핵심 아이디어는 샘플 장면을 여러 블록으로 분해하고 가우스 노이즈를 도입한 다음 빌딩 블록과 유사한 방식으로 유사한 새로운 장면으로 재조립하는 것입니다.

저자는 샘플과 이질적인 표현인 좌표 매핑 필드를 사용하여 생성된 장면을 표현하므로 고품질 생성이 가능합니다. 알고리즘의 최적화 과정을 더욱 견고하게 만들기 위해 본 연구에서는 값과 좌표의 혼합을 기반으로 한 최적화 방법도 제안합니다. 동시에, 3차원 계산에서 막대한 리소스 소비 문제를 해결하기 위해 본 연구에서는 정확하고 근사한 최적화 전략을 사용하여 별도의 훈련 없이 몇 분 만에 고품질의 새로운 장면을 생성할 수 있습니다. 자세한 기술적인 내용은 원본 문서를 참조하세요.

무작위 장면 생성

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성

왼쪽 상자에 있는 것과 같은 단일 3D 샘플 장면을 사용하면 복잡한 형상과 현실적인 모습 . 이 방법은 선인장, 아치, 석재 벤치 등과 같은 복잡한 토폴로지를 가진 객체를 처리할 수 있으며 생성된 장면은 샘플 장면의 미세한 기하학과 고품질 외관을 완벽하게 유지합니다. 현재 신경망을 기반으로 하는 생성 모델은 유사한 품질과 다양성을 달성하지 못합니다.

고해상도 대형 장면 생성

이 방법을 사용하면 초고해상도 3차원 콘텐츠를 효율적으로 생성할 수 있습니다. 위에 표시된 대로 512 x 512 x 해상도의 3차원 "수천 마일의 강과 산"의 단일 부분을 입력하여 1328 x 512 x 200 해상도의 "천 마일의 강과 산" 부분을 생성할 수 있습니다. 200을 왼쪽 상단 모서리에 배치하고 고해상도의 4096 x 1024 2D 다중 뷰 이미지를 렌더링합니다.

실제 경계 없는 장면 생성

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성 저자는 제안된 생성 방법을 실제 자연 장면에서도 검증했습니다. NeRF++와 유사한 처리 방법을 사용하여 하늘 등 전경과 배경을 명시적으로 분리하고 전경 콘텐츠를 별도로 생성한 후 현실 세계에서 경계 없는 장면에 새로운 장면을 생성할 수 있습니다.

기타 응용 시나리오

장면 편집

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성 동일 세대 알고리즘 프레임워크를 사용하여 인위적으로 지정된 제한을 추가하여 3차원 장면의 개체를 삭제하고 복사 및 수정 및 기타 편집 작업. 그림과 같이 장면에서 산을 제거하고 자동으로 구멍을 채우거나, 복제하여 세 개의 봉우리를 만들거나, 산을 더 크게 만들 수 있습니다.

크기 리디렉션

이 방법은 3차원 물체의 국부적인 모양을 유지하면서 늘리거나 압축할 수도 있습니다. 그림의 녹색 프레임은 창의 로컬 크기를 유지하면서 3차원 열차를 늘린 원본 샘플 장면을 보여줍니다.

구조적 유추 생성

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성

은 두 장면 A와 B가 주어지면 A의 모양과 기하학적 특성을 갖는 장면을 만들 수 있습니다. 그러나 구조는 B와 유사한 새로운 시나리오입니다. 예를 들어, 눈산을 참조하여 다른 산을 3차원 눈산으로 바꿀 수 있습니다.

샘플 장면 교체

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성

생성된 장면에 대해 이질적인 표현을 사용하기 때문에 매핑된 샘플 장면을 수정하는 것만으로도 더욱 다양한 새로운 장면을 생성할 수 있습니다. 예를 들어, 동일하게 생성된 장면 매핑 필드 S를 사용하여 서로 다른 시간이나 계절의 장면을 매핑하면 보다 풍부한 생성 결과를 얻을 수 있습니다.

요약

이 작업은 3D 콘텐츠 생성 분야를 지향하며, 현재의 3D 생성 방식의 대용량 데이터 요구 사항을 해결하려고 처음으로 단일 샘플 기반의 3D 자연스러운 장면 생성 모델을 제안합니다. 컴퓨팅 성능 오버헤드, 생성 품질 저하 등의 문제가 있습니다. 이 작업은 의미 정보가 약한 보다 일반적인 자연 장면에 중점을 두고 생성된 콘텐츠의 다양성과 품질에 더 많은 관심을 기울였습니다. 이 알고리즘은 주로 전통적인 컴퓨터 그래픽의 텍스처 이미지 생성과 관련된 기술에서 영감을 얻었으며 최근 신경 방사선 분야와 결합하여 고품질의 3차원 장면을 빠르게 생성할 수 있으며 다양한 실용적인 응용을 입증했습니다.

미래 전망

이 작업은 매우 다양하며 현재의 신경 표현과 결합할 수 있을 뿐만 아니라 다각형 메쉬(Mesh)와 같은 전통적인 렌더링 파이프라인 기하학적 표현에도 적용할 수 있습니다. 대규모 데이터와 모델에 중점을 두는 동시에 전통적인 그래픽 도구도 수시로 검토해야 합니다. 연구원들은 가까운 미래에 3D AIGC 분야에서 고품질 신경 표현 및 강력한 생성 모델과 결합된 전통적인 그래픽 도구가 더욱 빛나는 불꽃을 만들어 3D 콘텐츠 생성의 품질과 속도를 더욱 촉진하고 사람들의 창의성을 해방시킬 것이라고 믿습니다. .

이 연구는 대부분의 네티즌들에 의해 논의되었습니다:

일부 네티즌들은 다음과 같이 말했습니다: (이 연구는) 단일 모델을 모델링하는 것만으로도 많은 새로운 버전이 생성될 수 있기 때문에 게임 개발에 매우 좋습니다.

3D 장면 생성: 신경망 훈련 없이 단일 샘플로 다양한 결과 생성