사진 + 동영상으로 사진을 생생하게 만들 수 있습니다!
최근 알리바바, 푸단대학교, 난징대학교가 공동으로 출시한 제어 가능한 인간 비전 생성 작품인 챔프(Champ)가 인터넷에서 큰 인기를 끌었습니다. 이 모델은 오픈 소스로 공개된 지 5일 만에 GitHub에서 별 1,000개를 받았습니다. 트위터에서 큰 인기를 끌면서 많은 블로거들이 새로운 프로젝트를 만들게 되었고, 총 조회수는 300,000에 도달했습니다.
현재 Champ는 추론 코드와 가중치를 오픈 소스로 공개했으며, 사용자는 Github에서 직접 다운로드하여 사용할 수 있습니다. 공식 Hugging Face 데모가 출시되었으며, 캡슐화된 Champ-ComfyUI도 동시에 홍보되고 있습니다. GitHub 홈페이지에는 팀이 가까운 시일 내에 교육 코드와 데이터 세트를 오픈 소스로 제공할 예정이며 관심 있는 파트너는 계속해서 프로젝트 역학에 주의를 기울일 수 있습니다.
프로젝트 홈페이지: https://fudan-generative-vision.github.io/champ/
논문 링크: https://arxiv.org/abs/2403.14781
Github 링크: https //github.com/fudan-generative-vision/champ
허깅 페이스 링크: https://huggingface.co/fudan-generative-ai/champ
실제 인물 사진에 대한 Champ 비디오 효과, 이를 통해 서로 다른 인물 사진이 동일한 동작을 "복사"할 수 있으며 왼쪽 상단 모서리의 동작 비디오를 입력으로 사용합니다.
Champ는 실제 인체 영상으로만 훈련을 받았지만 다양한 유형의 이미지에 대해 강력한 일반화 능력을 보여주었습니다.
흑백 사진, 유화, 수채화 및 기타 효과가 뛰어납니다. 가상 캐릭터를 포함하여 그래프 모델로 생성된 사실적인 이미지는 다양한 유형의 이미지에서 잘 작동합니다.
기술 개요
Champ는 고급 인간 메시 복구 모델을 사용하여 해당 매개변수화된 3차원 인체를 추출합니다. 입력 인체 비디오 메시 모델 SMPL 시퀀스(Skinned Multi-Person Linear Model)는 해당 깊이 맵, 노멀 맵, 인체 자세 및 인체 의미 맵을 추가로 렌더링하며, 이는 비디오 생성 및 전송을 안내하는 해당 모션 제어 조건으로 사용됩니다. 입력에 대한 동작 참조 인물 사진에서 인간의 움직임 비디오 품질은 물론 기하학적 및 외관 일관성을 크게 향상시킬 수 있습니다.
다양한 모션 조건의 경우 Champ는 Self-Attention 메커니즘을 사용하여 다양한 조건 간의 특성을 완전히 통합하여 보다 정교한 모션 제어를 달성하는 MLMF(다층 모션 융합 모듈)를 사용합니다. 다음 그림은 다양한 조건에서 이 모듈의 주의 시각화 결과를 보여줍니다. 깊이 맵은 인간 형태의 기하학적 윤곽선 정보에 초점을 맞추고, 일반 맵은 인체의 방향을 나타내며, 의미 맵은 다양한 부분의 모양 대응을 제어합니다. 인체의 골격, 인체의 자세 골격 얼굴과 손의 주요 세부 사항에만 중점을 둡니다.
한편, 챔프는 인간 영상세대에서 무시해 왔던 체형 이동 문제를 발견하고 해결했습니다. 이전 작업은 인체 골격 모델을 기반으로 하거나 입력 비디오에서 얻은 기타 기하학적 정보를 기반으로 인체 형상의 움직임을 구동했지만 이러한 방법은 인체 형상에서 움직임을 분리할 수 없었습니다. 참조 이미지의 신체 유형과 일치하지 않는 결과입니다.
예를 들어, 뚱뚱한 사람을 참조 이미지로 했을 때 비교 결과는 아래 그림 7과 같습니다.
Animate Any와 MagicAnimate에서 생성된 결과에서 크고 뚱뚱한 배는 다음과 같습니다. 매끄럽게, 심지어 프레임도 약간 축소되었습니다. Champ는 SMPL의 체형 매개변수를 사용하여 매개변수화된 체형으로 비디오를 구동하는 SMPL 시퀀스와 정렬함으로써 체형과 동작에서 최상의 일관성을 달성합니다(그림에서는 PST 사용).
실험 결과
아래 표 4에서 볼 수 있듯이 다른 SOTA 작업과 비교하여 Champ는 모션 제어가 더 좋고 아티팩트가 적습니다.
동시에 Champ는 외관 매칭에서도 탁월한 일반화 성능과 안정성을 보여줍니다.
더 자세한 기술적 내용과 실험 결과를 보려면 Champ의 원본 논문과 코드를 참조하거나 HuggingFace에 접속하거나 공식 소스 코드를 다운로드하여 직접 체험해 보세요.
위 내용은 Champ는 최초의 오픈 소스입니다. 인체 영상이 새로운 SOTA를 생성하고 5일 만에 별 1,000개를 얻었으며 데모를 재생할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!