AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
일상 활동에서 사람들의 움직임은 옷의 2차적인 움직임을 유발하여 옷의 주름이 달라지는 경우가 많습니다. 이를 위해서는 인체와 옷의 기하학과 움직임(사람의 자세 및 속도 역학 등)에 대한 이해가 필요합니다. .) 및 모양이 동시에 동적으로 모델링됩니다. 이 프로세스에는 사람과 옷 사이의 복잡하고 단단하지 않은 물리적 상호 작용이 포함되므로 전통적인 3차원 표현을 처리하기 어려운 경우가 많습니다. 비디오 시퀀스에서 동적 디지털 휴먼 렌더링을 학습하는 것은 최근 몇 년 동안 큰 진전을 이루었습니다. 기존 방법은 "모션 인코더-모션 특징-외관" 디코더" 패러다임을 사용하여 렌더링을 인간 자세에서 이미지로의 신경 매핑으로 간주하는 경우가 많습니다. 이 패러다임은 감독을 위한 이미지 손실을 기반으로 하며, 이미지의 각 프레임 재구성에 너무 집중하고 모션 연속성의 모델링이 부족하여 "인체 모션 및 의복 관련 모션"과 같은 복잡한 모션을 효과적으로 모델링하기가 어렵습니다. ". 이 문제를 해결하기 위해 싱가포르 난양기술대학교 S-Lab 팀은 동작-외상 공동 학습을 통한 동적 인체 재구성의 새로운 패러다임을 제안하고, 동작 물리학 모델링과 외관 모델링을 하나의 프레임워크로 통합한 인체 표면(표면 기반 삼면)은 동적 인체 렌더링의 품질을 향상시키기 위한 새로운 아이디어를 열어줍니다. 이 새로운 패러다임은 옷에 부착된 모션을 효과적으로 모델링하고 빠르게 움직이는 비디오(예: 춤)에서 동적 인체 재구성을 학습하고 모션 관련 그림자를 렌더링하는 데 사용할 수 있습니다. 3D 복셀 렌더링 방식에 비해 렌더링 효율은 9배 빠르며, LPIPS 화질은 약 19%포인트 향상됐다.
- 논문 제목: SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering
- 논문 주소: https://arxiv.org/pdf/2404.01225.pdf
- 프로젝트 홈페이지: https //taohuumd.github.io/projects/SurMo
- Github 링크: https://github.com/TaoHuUMD/SurMo
외관 재구성에만 초점을 맞추고 모션 연속성 모델링을 무시하는 기존 패러다임 "모션 인코더-모션 기능-외관 디코더"의 단점을 고려하여 새로운 패러다임 SurMo를 제안합니다. 외관 디코더". 위 그림과 같이 패러다임은 세 단계로 구분됩니다.
- 희소한 3차원 공간에서 움직임을 모델링하는 기존 방법과 달리 SurMo는 인간 표면 다양체 필드를 기반으로(또는 컴팩트)을 제안합니다. 2차원 텍스처 UV 공간) 4차원(XYZ-T) 모션 모델링을 수행하고 인체 표면에 정의된 3면 (표면 기반 3면)을 통해 모션을 표현합니다.
- 움직임의 공간적 편향(표면)과 같은 현재 움직임 특성(3차원 자세, 속도, 움직임 궤적 등)을 기반으로 다음 프레임의 움직임 상태를 예측하는 움직임 물리학 디코더를 제안합니다. 법선 벡터 및 시간 편향 - 속도 이는 모션 특징의 연속성을 모델링합니다.
- 4차원 외관 디코딩, 3차원 자유 시점 비디오를 렌더링하기 위한 모션 특징의 시간적 디코딩, 주로 하이브리드 복셀-텍스처 신경 렌더링을 통해 구현됨(Hybrid Volumetric-Textural Rendering, HVTR [Hu et al. 2022]) .
SurMo는 재구성 손실 및 적대적 손실 엔드투엔드 훈련을 기반으로 한 비디오에서 동적 휴먼 렌더링을 학습할 수 있습니다. 이 연구는 총 9개의 동적 인간 비디오 시퀀스가 포함된 3개의 데이터 세트에 대한 실험 평가를 수행했습니다: ZJU-MoCap [Peng et al 2021], AIST++ [Li, Yang et al. . 2021] MPII-RRDC [Habermann et al. 2021] .이 연구는 ZJU-MoCap 데이터 세트에 대한 새로운 관점의 성능을 탐구합니다. 아래 그림과 같이 시간 순서(시간에 따라 변하는 모습), 특히 두 가지 순서의 효과를 연구합니다. 각 시퀀스에는 유사한 제스처가 포함되어 있지만 ① ②, ③ ④, ⑤ 여섯과 같이 서로 다른 모션 궤적으로 나타납니다. SurMo는 동작 궤적을 모델링하여 시간이 지남에 따라 변화하는 동적 효과를 생성할 수 있는 반면 관련 방법은 자세에만 의존하는 결과를 생성하며 옷의 접힘은 다른 궤적에서 거의 동일합니다.
모션 관련 그림자 및 의복 관련 모션 렌더링
SurMo는 아래 그림과 같이 MPII-RRDC 데이터 세트에서 모션 관련 그림자 및 의복 관련 모션을 탐색했습니다. 시퀀스는 실내 사운드 스테이지에서 촬영되었으며 조명 조건으로 인해 자체 폐쇄 문제로 인해 공연자에게 모션 관련 그림자가 생성되었습니다. SurMo는 새로운 시점 렌더링에서 ① ②, ③ ④, 7⑧과 같은 그림자를 복원할 수 있습니다. 대조 방법 HumanNeRF[Weng et al.]는 모션 관련 그림자를 복구할 수 없습니다. 또한 SurMo는 점프 동작의 다양한 접힘 ⑤⑥과 같이 동작 궤적에 따라 변화하는 의류 액세서리의 동작을 재구성할 수 있지만 HumanNeRF는 이러한 동적 효과를 재구성할 수 없습니다.
SurMo는 또한 빠르게 움직이는 비디오에서 인체를 렌더링하고 대조 방법으로는 렌더링할 수 없는 동작 관련 옷 접힘 세부 정보를 복구합니다.
이 연구에서는 두 가지 모션 모델링 방법을 비교했습니다. 현재 복셀 공간(체적 공간) 모션 모델링에서 일반적으로 사용되는 방법입니다. , SurMo가 제안한 인간 표면 다양체 분야(Surface Manifold)의 모션 모델링은 아래 그림과 같이 구체적으로 Volumetric triplane과 Surface-based triplane을 비교합니다.
Volumetric triplane은 렌더링에 사용되는 기능이 약 21~35%에 불과한 희소 표현인 반면, Surface 기반 triplane 기능 활용도는 85%에 달할 수 있어 자체 폐색 처리에 더 많은 장점이 있음을 알 수 있습니다. (d)와 같이. 동시에 표면 기반 삼면은 그림 (c)와 같이 복셀 렌더링에서 표면에서 멀리 떨어진 지점을 필터링하여 더 빠른 렌더링을 달성할 수 있습니다.
동시에 이 연구는 훈련 과정에서 표면 기반 삼중 평면이 체적 삼중 평면보다 더 빠르게 수렴할 수 있으며 위 그림에서 볼 수 있듯이 옷 접기 세부 사항 및 자체 폐쇄에 확실한 이점이 있음을 보여줍니다. SurMo는 아래 그림과 같이 절제 실험을 통해 모션 모델링의 효과를 연구했습니다. 결과는 SurMo가 모션의 정적 특성(예: 특정 프레임의 고정 자세)과 동적 특성(예: 속도)을 분리할 수 있음을 보여줍니다. 예를 들어, 속도가 바뀌어도 몸에 꼭 맞는 옷의 주름은 ①처럼 변하지 않고, 헐렁한 옷의 주름은 ②처럼 속도에 크게 영향을 받아 일상 관찰과 일치합니다. 위 내용은 CVPR 2024 | AI는 춤을 출 때 날아다니는 치마도 고도로 복원할 수 있다. 난양폴리테크닉은 역동적인 인체 렌더링을 위한 새로운 패러다임을 제안한다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!