컴퓨터 그래픽의 발전과 함께 3D 생성 기술이 점차 연구 핫스팟이 되고 있습니다. 그러나 텍스트나 이미지로부터 3D 모델을 생성하는 데에는 여전히 많은 어려움이 있습니다.
최근 Google, NVIDIA, Microsoft 등의 기업에서 NeRF(신경방사선장) 기반의 3D 생성 방식을 출시했지만 이러한 방식은 기존 3D 렌더링 소프트웨어(예: Unity, Unreal Engine, Maya, 등) 실제 응용 분야에서 폭넓게 적용됩니다.
이를 위해 Yingmo Technology와 ShanghaiTech University의 R&D 팀은 이러한 문제를 해결하기 위해 설계된 텍스트 기반 프로그레시브 3D 생성 프레임워크를 제안했습니다.
연구팀이 제안한 텍스트 기반 프로그레시브 3D 생성 프레임워크(줄여서 DreamFace)는 시각 언어 모델, 암시적 확산 모델 및 물리 기반 물질 확산 기술을 결합하여 컴퓨터에서 생성되는 3D 자산을 생성합니다. 호환 그래픽 제작 표준 3D 자산.
이 프레임워크의 혁신은 기하학 생성, 물리 기반 재료 확산 생성 및 애니메이션 기능 생성의 세 가지 모듈에 있습니다.
이 작품은 최고의 저널인 Transactions on Graphics에 승인되었으며 최고의 국제 컴퓨터 그래픽 컨퍼런스인 SIGGRAPH 2023에서 발표될 예정입니다.
프로젝트 웹사이트: https://sites.google.com/view/dreamface
사전 인쇄 용지: https://arxiv.org/abs/2304.03117
웹 데모: https: //hyperhuman.top
HuggingFace Space: https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
DreamFace는 주로 세 가지 모듈, 즉 기하학 생성을 기반으로 합니다. 물리학 재료 확산 및 애니메이션 기능이 생성됩니다. 이전 3D 생성 작업과 비교할 때 이 작업의 주요 기여는 다음과 같습니다.
Geometry Generation: 이 모듈은 CLIP(Contrastive Language-Image Pre-Training) 선택 프레임워크를 통해 텍스트 프롬프트를 기반으로 기하학적 모델을 생성합니다.
먼저 얼굴 기하학적 매개변수 공간에서 후보를 무작위로 샘플링한 다음 텍스트 프롬프트를 기반으로 일치 점수가 가장 높은 대략적인 기하학적 모델을 선택합니다.
다음으로 LDM(Implicit Diffusion Model) 및 SDS(Scored Distillation Sampling) 처리를 사용하여 거친 기하학 모델에 얼굴 세부 정보와 상세한 노멀 맵을 추가하여 고정밀 기하학을 생성합니다.
물리 기반 재료 확산 생성: 이 모듈은 예측된 기하학 및 텍스트 단서에 대한 얼굴 텍스처를 생성합니다. 첫째, LDM은 두 가지 확산 모델을 얻기 위해 미세 조정됩니다.
그런 다음 두 모델은 공동 훈련 계획을 통해 조정됩니다. 하나는 U 텍스처 맵의 노이즈를 직접 제거하기 위한 것이고 다른 하나는 감독된 렌더링 이미지를 위한 것입니다. 또한 생성된 확산 맵의 품질을 보장하기 위해 힌트 학습 전략과 비얼굴 영역 마스킹을 사용합니다.
마지막으로 초해상도 모듈을 적용하여 고품질 렌더링을 위한 4K 물리 기반 텍스처를 생성합니다.
애니메이션 기능 생성: DreamFace에서 생성된 모델에는 애니메이션 기능이 있습니다. 기존의 BlendShapes 기반 방법과 달리 이 프레임워크는 고유한 변형을 예측하여 개인화된 애니메이션을 생성함으로써 Neutral 모델에 애니메이션을 적용합니다.
먼저 기하 생성기를 훈련시켜 표현 잠재 공간을 학습한 다음 표현 인코더를 훈련시켜 RGB 이미지에서 표현 특징을 추출합니다. 마지막으로 단안 RGB 이미지를 사용하여 개인화된 애니메이션을 생성합니다.
DreamFace 프레임워크는 유명 인사 생성, 설명 생성 등의 작업에서 좋은 결과를 얻었으며 사용자 평가에서도 이전 작업을 능가하는 결과를 얻었습니다.
동시에 기존 방식에 비해 실행 시간 면에서도 확실한 장점이 있습니다.
또한 DreamFace는 팁과 스케치를 사용한 텍스처 편집을 지원하여 전역 편집 효과(노화, 메이크업 등)와 로컬 편집 효과(문신, 수염, 모반 등)를 얻을 수 있습니다.
텍스트 기반 프로그레시브 3D 생성 프레임워크인 DreamFace는 시각적 언어 모델, 암시적 확산 모델 및 물리 기반 재료 확산 기술을 결합하여 높은 정밀도, 효율성 및 우수한 호환성으로 3D 생성을 달성합니다.
이 프레임워크는 복잡한 3D 생성 작업을 해결하기 위한 효과적인 솔루션을 제공하며 보다 유사한 연구 및 기술 개발을 촉진할 것으로 예상됩니다.
또한 물리 기반 소재 확산 세대와 애니메이션 역량 세대를 통해 영화 및 TV 제작, 게임 개발 및 기타 관련 산업에 3D 생성 기술 적용을 촉진할 것입니다.
위 내용은 5분 만에 마블 3D 디지털 휴먼을 생성해보세요! American Spider-Man과 Joker가 모두 가능하며 얼굴 세부 사항이 고화질로 복원됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!