본 홈페이지의 AIxiv 칼럼은 학문적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
3D 생성 모델링 연구 분야에서 현재 3D 표현 방법의 두 가지 주요 범주는 피팅 기능이 부족한 암시적 디코더를 기반으로 하거나 명확하게 정의된 공간 구조가 부족하고 주류 3D와 통합하기 어렵습니다. 확산 기술. 중국 과학 기술 대학, Tsinghua University 및 Microsoft Research Asia의 연구원들은 강력한 피팅 기능을 갖춘 명시적으로 구조화된 3D 표현인 GaussianCube를 제안했으며 현재 주류 3D 확산 모델에 원활하게 적용할 수 있습니다. GaussianCube는 고정된 수의 무료 가우스 사용을 보장하면서 3D 자산의 고정밀 피팅을 가능하게 하는 새로운 밀도 제한 가우스 피팅 알고리즘으로 시작합니다. 그런 다음 이러한 가우시안은 최적의 전송 알고리즘을 사용하여 미리 정의된 복셀 그리드로 재배열됩니다. GaussianCube의 구조적 특성 덕분에 연구자들은 복잡한 네트워크 설계 없이 확산 모델링을 위한 백본 네트워크로 표준 3D U-Net을 직접 적용할 수 있습니다. 더 중요한 것은 이 기사에서 제안된 새로운 피팅 알고리즘이 표현의 간결성을 크게 향상시킨다는 것입니다. 3D 표현 피팅 품질이 유사할 때 필요한 매개변수 수는 기존 구조적 표현에 필요한 것의 1/10입니다. 또는 매개변수 양의 100분의 1입니다. 이러한 컴팩트함은 3D 생성 모델링의 복잡성을 크게 줄여줍니다. 연구자들은 무조건적 및 조건부 3D 개체 생성, 디지털 아바타 생성, 텍스트-3D 콘텐츠 합성에 대한 광범위한 실험을 수행했습니다. 수치 결과 GaussianCube는 이전 기준 알고리즘에 비해 최대 74%의 성능 향상을 달성한 것으로 나타났습니다. 아래와 같이 GaussianCube는 고품질 3D 자산을 생성할 수 있을 뿐만 아니라 매우 매력적인 시각적 효과를 제공하여 3D 생성을 위한 보편적인 표현으로서의 큰 잠재력을 충분히 보여줍니다. 그림 1. 무조건 생성된 결과. 이 기사의 방법은 고품질의 다양한 3D 모델을 생성할 수 있습니다.入 그림 2. 입력 인물 사진을 기반으로 한 디지털 화신 생성 결과. 본 논문의 방법은 입력된 인물 사진의 아이덴티티 특징 정보를 상당 부분 유지할 수 있으며, 상세한 헤어스타일 및 의상 모델링을 제공할 수 있습니다.入 그림 3. 입력된 텍스트를 기반으로 3D 자산을 생성한 결과. 이 기사의 방법은 텍스트 정보와 일치하는 결과를 출력할 수 있으며 복잡한 기하학적 구조와 상세한 재료를 모델링할 수 있습니다. 그림 4. 카테고리 조건에 따라 생성된 결과. 이 기사에서 생성된 3D 자산은 명확한 의미와 고품질 기하학적 구조 및 재료를 가지고 있습니다.
- 논문 이름: GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
- 프로젝트 홈페이지: https://gaussiancube.github.io/
- 논문 링크: https://arxiv.org/ pdf/2403.19655
- 코드 오픈 소스: https://github.com/GaussianCube/GaussianCube
- 데모 비디오: https://www.bilibili.com/video/BV1zy411h7wB/
몇 살 때부터 3D 생성 모델링을 위해 전통적인 NeRF를 사용하고 계십니까? 대부분의 이전 3D 생성 모델링 작업에서는 NeRF(Neural Radiance Field)의 변형을 기본 3D 표현으로 사용했습니다. 이는 일반적으로 명시적 구조적 특징 표현과 암시적 특징 디코더를 결합합니다. 그러나 3D 생성 모델링에서는 모든 3D 객체가 동일한 암시적 특징 디코더를 공유해야 하므로 NeRF의 피팅 능력이 크게 약화됩니다. 또한, NeRF가 의존하는 볼륨 렌더링 기술은 계산 복잡도가 매우 높기 때문에 렌더링 속도가 느리고 GPU 메모리 소비량이 매우 높습니다. 최근에는 또 다른 3차원 표현 방법인 3DGS(3D Gaussian Splatting)가 많은 주목을 받고 있습니다. 3DGS는 강력한 피팅 기능, 효율적인 컴퓨팅 성능 및 완전히 명시적인 기능을 갖추고 있지만 3차원 재구성 작업에 널리 사용되었습니다. 그러나 3DGS는 잘 정의된 공간 구조가 부족하여 현재 주류 생성 모델링 프레임워크에 직접 적용할 수 없습니다.
그래서 연구팀은 GaussianCube를 제안했습니다. 이는 구조화되고 완전히 명시적이며 강력한 피팅 기능을 갖춘 혁신적인 3차원 표현 방법입니다. 이 문서에 제시된 방법은 먼저 고정된 수의 자유 가우시안으로 높은 정확도의 맞춤을 보장한 다음 이러한 가우시안을 구조화된 복셀 그리드로 효율적으로 구성합니다. 이러한 명시적이고 구조화된 표현을 통해 연구자는 비구조적이거나 암시적으로 디코딩된 표현을 사용할 때 요구되는 복잡하고 맞춤화된 네트워크가 필요 없이 U-Net과 같은 표준 3D 네트워크 아키텍처를 원활하게 채택할 수 있습니다. 동시에 최적의 전송 알고리즘을 통한 구조화된 조직은 인접한 가우시안 커널 간의 공간 구조 관계를 최대한 유지하므로 연구자는 고전적인 3D 컨볼루셔널 네트워크만을 사용하여 효율적으로 특징을 추출할 수 있습니다. 더 중요한 것은 고차원 데이터 분포를 처리할 때 확산 모델의 성능이 좋지 않다는 이전 연구 결과를 고려할 때, 본 논문에서 제안하는 GaussianCube는 고품질 재구성을 유지하면서 필요한 매개 변수의 양을 크게 줄여 문제를 크게 완화한다는 것입니다. 이는 분포 모델링에 대한 확산 모델의 부담을 제거하고 3D 생성 모델링 분야에 상당한 모델링 기능과 효율성 향상을 제공합니다. | 표현 구성과 3차원 확산이라는 두 가지 주요 단계로 구성됩니다. 표현 구성 단계에서는 3D 자산의 다중 뷰 렌더링이 주어지면 밀도 제한 가우스 피팅이 수행되어 고정된 수의 3D 가우스를 얻습니다. 이어서, 3차원 가우시안은 최적화된 전달을 통해 GaussianCube로 구조화됩니다. 3D 확산 단계에서 연구원들은 가우스 잡음으로부터 GaussianCube를 생성하기 위해 3D 확산 모델을 훈련했습니다.
생성 모델링에 적합한 각 3D 자산에 대한 표현을 생성합니다. 생성 필드에서는 모델링된 데이터가 균일한 고정 길이를 가져야 하는 경우가 많다는 점을 고려하면 원래 3DGS 피팅 알고리즘의 적응형 밀도 제어는 다양한 개체를 맞추는 데 사용되는 가우시안 커널의 수가 달라져 생성 모델링에 문제가 발생합니다. 매우 간단한 해결책은 단순히 적응형 밀도 제어를 제거하는 것이지만 연구원들은 이로 인해 맞춤 정확도가 심각하게 감소한다는 것을 발견했습니다. 본 논문에서는 원래의 적응형 밀도 제어에서 가지치기 연산을 유지하면서 분할 및 복제 연산에 대해 새로운 제약 처리를 수행하는 새로운 밀도 제약 조건 피팅 알고리즘을 제안합니다. 가우시안이 포함되어 있다고 가정할 때 연구원은 시점 공간 위치의 기울기 크기가 미리 정의된 임계값 τ를 초과하는 가우시안을 선택하여 분할 또는 복제 작업의 후보를 식별합니다. 이러한 후보의 수는 다음과 같이 표시됩니다. 가우시안을 초과하는 것을 방지하기 위해 분할 또는 복제 후보 중에서 시점 공간 위치 기울기가 가장 큰 가우시안을 선택합니다. 피팅 프로세스를 완료한 후 연구원들은 렌더링 결과에 영향을 주지 않고 목표 개수
에 도달하기 위해 α=0인 가우스로 채웠습니다. 이 전략 덕분에 유사한 품질의 기존 작업에 비해 몇 배 더 적은 매개변수를 사용하여 고품질 표현을 달성할 수 있으며 확산 모델의 모델링 난이도를 크게 줄일 수 있습니다. 위의 피팅 알고리즘을 통해 얻은 가우시안은 여전히 명확한 공간 배열 구조를 갖지 못하므로 후속 확산 모델이 데이터를 효율적으로 모델링할 수 없습니다. 이를 위해 연구자들은 가우시안을 미리 정의된 구조화된 복셀 그리드에 매핑하여 가우시안에게 명확한 공간 구조를 제공할 것을 제안했습니다. 직관적으로 이 단계의 목표는 가우시안의 공간적 인접성을 최대한 유지하면서 각 가우시안을 복셀로 "이동"하는 것입니다.
연구원들은 이를 최적 전송 문제로 모델링하고 Jonker-Volgenant 알고리즘을 사용하여 해당 매핑 관계를 얻은 후 최적 전송 솔루션에 따라 가우시안을 해당 복셀로 구성하여 GaussianCube를 얻은 후 위치를 대체합니다. 확산 모델의 솔루션 공간을 줄이기 위해 현재 복셀 중심의 오프셋을 사용하여 원래 가우스를 계산합니다. 최종 GaussianCube 표현은 구조화될 뿐만 아니라 인접한 가우시안 간의 구조적 관계를 최대한 유지하여 3D 생성 모델링을 위한 효율적인 특징 추출을 강력하게 지원합니다.
3차원 확산 단계에서 이 기사에서는 3차원 확산 모델을 사용하여 GaussianCube의 분포를 모델링합니다. GaussianCube의 공간적으로 구조화된 구성 덕분에 표준 3D 컨볼루션은 복잡한 네트워크나 교육 설계 없이도 인접 가우스의 특징을 효과적으로 추출하고 집계하는 데 충분합니다. 따라서 연구원들은 표준 U-Net 네트워크 확산을 활용하고 원래의 2D 연산자(컨볼루션, 어텐션, 업샘플링 및 다운샘플링 포함)를 3D 구현으로 직접 대체했습니다.
이 기사의 3차원 확산 모델은 카테고리 라벨 조건 생성, 이미지 조건을 기반으로 디지털 아바타 생성, 이미지 조건을 기반으로 3차원 디지털 자산 생성 등 생성 프로세스를 제어하는 다양한 조건 신호도 지원합니다. 텍스트. 다중 모드 조건을 기반으로 하는 생성 기능은 모델의 적용 범위를 크게 확장하고 향후 3D 컨텐츠 생성을 위한 강력한 도구를 제공합니다. 실험 결과 연구진은 먼저 ShapeNet Car 데이터 세트에서 GaussianCube의 피팅 능력을 검증했습니다. 실험 결과에 따르면 기본 방법과 비교하여 GaussianCube는 가장 빠른 속도와 가장 적은 수의 매개변수로 고정밀 3차원 객체 피팅을 달성할 수 있습니다. 표 1. 공간 구조, 피팅 품질, 상대적 피팅 속도 및 사용된 매개변수의 양과 관련하여 ShapeNet Car의 다양한 3차원 표현에 대한 수치 비교. * 은 서로 다른 객체가 암시적 기능 디코더를 공유함을 나타냅니다. 모든 방법은 30K 반복으로 평가됩니다. 그림 8. ShapeNet Car에서 다양한 3D 표현의 피팅 기능을 시각적으로 비교합니다. *는 서로 다른 객체가 암시적 기능 디코더를 공유함을 나타냅니다. 모든 방법은 30K 반복으로 평가됩니다.
그런 다음 연구원들은 ShapeNet, OmniObject3D, 합성 디지털 아바타 데이터 세트 및 Objaverse 데이터 세트를 포함한 수많은 데이터 세트에서 GaussianCube 기반 확산 모델의 생성 능력을 검증했습니다. 실험 결과에 따르면 우리 모델은 숫자 측정 항목에서 시각적 품질에 이르기까지 무조건 및 범주 조건부 개체 생성, 디지털 아바타 생성, 텍스트-3D 합성에서 최고의 결과를 달성하는 것으로 나타났습니다. 특히 GaussianCube는 기존 기준 알고리즘 대비 최대 74%의 성능 향상을 달성했다. ㅋㅋ 표 2. ShapeNet Car, Chair의 무조건 생성과 OmniObject3D의 카테고리 조건부 생성의 정량적 비교. ㅋㅋ 그림 9. 무조건 세대의 질적 비교 ShapeNet 자동차, 의자. 이 문서의 방법은 정확한 형상과 상세한 재료를 생성할 수 있습니다. 그림 10. OmniObject3D에서 카테고리 조건 생성의 정성적 비교. 이 방법은 명확한 의미를 지닌 복잡한 객체를 생성할 수 있습니다. . 그림 11. 입력 인물 사진을 기반으로 한 디지털 아바타 생성의 질적 비교. 이 글의 방법은 입력된 인물 사진의 아이덴티티 특징, 표정, 장신구, 헤어 디테일 등을 더욱 정확하게 복원할 수 있습니다. 표 4. 입력 텍스트를 기반으로 3D 자산 생성의 정량적 비교. 추론 시간은 단일 A100을 사용하여 테스트되었습니다. Shap-E와 LGM은 이 기사의 방법과 유사한 CLIP 점수를 달성했지만 이전에는 각각 수백만 개의 교육 데이터(이 기사에서는 교육에 100,000개의 3차원 데이터만 사용함)와 2차원 Vincentian 그래프 확산 모델을 사용했습니다. 그림 12. 입력 텍스트를 기반으로 3D 자산 생성의 질적 비교. 이 문서의 방법은 입력 텍스트를 기반으로 고품질 3D 자산 생성을 달성할 수 있습니다. 위 내용은 고품질 3D 생성을 위한 가장 유망한 에피소드는 무엇입니까? GaussianCube는 3D 생성에서 NeRF를 포괄적으로 능가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!