1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

인간 춤 비디오 생성은 입력 참조 이미지 및 대상 포즈 시퀀스 생성을 기반으로 비디오를 생성하는 것을 목표로 하는 설득력 있고 도전적인 제어 가능한 비디오 합성 작업입니다. 고품질의 실감나는 연속 영상. 비디오 생성 기술의 급속한 발전, 특히 생성 모델의 반복적 진화로 인해 춤추는 비디오 생성 작업은 전례 없는 발전을 이루었고 광범위한 응용 가능성을 보여주었습니다.

기존 방식은 크게 두 그룹으로 나눌 수 있습니다. 첫 번째 그룹은 일반적으로 GAN(Generative Adversarial Networks)을 기반으로 하며 중간 포즈 기반 표현을 활용하여 참조 모양을 왜곡하고 이전에 왜곡된 대상에서 합리적인 비디오 프레임을 생성합니다. 그러나 생성적 적대 신경망(GAN)을 기반으로 하는 방법은 훈련이 불안정하고 일반화 기능이 좋지 않아 명백한 아티팩트와 프레임 간 지터가 발생하는 경우가 많습니다.

두 번째 그룹은 확산 모델을 사용하여 사실적인 동영상을 합성합니다. 이러한 방법은 안정적인 훈련과 강력한 전송 기능의 장점을 가지며 GAN 기반 방법보다 성능이 뛰어납니다. 대표적인 방법으로는 Disco, MagicAnimate, Animate Any, Champ 등이 있습니다.

확산 모델을 기반으로 한 방법은 상당한 진전을 이루었지만 기존 방법에는 여전히 두 가지 제한 사항이 있습니다. 첫째, 참조 이미지 특징을 인코딩하고 이를 3D-UNet과 결합하려면 추가 참조 네트워크(ReferenceNet)가 필요합니다. 백본 분기의 훈련 난이도와 모델 매개변수가 증가합니다. 둘째, 일반적으로 시간 변환기를 사용하여 비디오 프레임 간의 시간 종속성을 모델링하지만 변환기의 복잡성은 생성된 시간의 길이에 따라 2차가 됩니다. 생성된 비디오의 타이밍 길이. 일반적인 방법은 24프레임의 비디오만 생성할 수 있으므로 실제 배포 가능성이 제한됩니다. 시간적 중첩의 슬라이딩 윈도우 전략은 더 긴 비디오를 생성할 수 있지만 팀 작성자는 이 방법이 세그먼트의 중첩된 교차점에서 원활하지 않은 전환 및 모양 불일치 문제로 쉽게 이어진다는 것을 발견했습니다.

이러한 문제를 해결하기 위해 화중 과학 기술 대학교, 알리바바, 중국 과학 기술 대학교의 연구팀은 효율적이고 장기적인 인간 비디오 생성을 달성하기 위한 UniAnimate 프레임워크를 제안했습니다.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

논문주소 : https://arxiv.org/abs/2406.01188
프로젝트 홈페이지 : https://unianimate.github.io/

방법소개

UniAnimate 프레임워크는 먼저 참조 이미지, 포즈 안내 및 노이즈 비디오를 특징 공간에 매핑한 다음 Unified Video Diffusion Model(Unified Video Diffusion Model) 을 사용하여 참조 이미지와 비디오 백본 분기 외관 정렬을 동시에 처리합니다. 효율적인 기능 정렬과 일관된 비디오 생성을 달성하기 위한 비디오 노이즈 제거 작업.

두 번째로, 연구팀은 첫 번째 프레임을 기반으로 무작위 노이즈 입력과 조건부 노이즈 입력을 지원하는 통합 노이즈 입력도 제안했습니다. 무작위 노이즈 입력은 참조 이미지와 포즈 시퀀스를 기반으로 비디오를 생성할 수 있습니다. 첫 번째 프레임의 조건부 노이즈 입력(첫 번째 프레임 컨디셔닝)은 비디오의 첫 번째 프레임을 조건부 입력으로 사용하여 후속 비디오를 계속 생성합니다. 이런 방식으로 이전 비디오 세그먼트의 마지막 프레임을 다음 세그먼트의 첫 번째 프레임으로 처리하는 등의 추론을 생성하여 하나의 프레임워크에서 긴 비디오 생성을 달성할 수 있습니다.

마지막으로, 긴 시퀀스를 더욱 효율적으로 처리하기 위해 연구팀은 원래의 계산 집약적인 시계열 Transformer의 대안으로 상태 공간 모델(Mamba)을 기반으로 한 시간 모델링 아키텍처를 탐색했습니다. 실험에 따르면 순차 Mamba 기반 아키텍처는 순차 Transformer와 유사한 효과를 얻을 수 있지만 그래픽 메모리 오버헤드가 덜 필요하다는 사실이 밝혀졌습니다.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

UniAnimate 프레임워크를 사용하면 사용자는 고품질 시계열 인간 춤 비디오를 생성할 수 있습니다. 첫 번째 프레임 컨디셔닝 전략을 여러 번 사용하면 1분짜리 고화질 비디오를 생성할 수 있다는 점을 언급할 가치가 있습니다. 기존 방법과 비교하여 UniAnimate에는 다음과 같은 장점이 있습니다.

추가 참조 네트워크가 필요하지 않습니다: UniAnimate 프레임워크는 통합 비디오 확산 모델을 통해 추가 참조 네트워크에 대한 의존성을 제거하여 훈련 난이도와 모델 수를 줄입니다. 매개변수.
추가 참조 조건으로 참조 이미지의 포즈 맵을 도입합니다. 이는 네트워크가 참조 포즈와 대상 포즈 사이의 대응 관계를 학습하고 양호한 겉보기 정렬을 달성하도록 촉진합니다.
통합 프레임워크 내에서 긴 시퀀스 비디오 생성: 통합 노이즈 입력을 추가함으로써 UniAnimate는 더 이상 기존 방법의 시간 제약을 받지 않고 프레임 내에서 장기 비디오를 생성할 수 있습니다.
매우 일관성: UniAnimate 프레임워크는 후속 프레임을 생성하기 위한 조건으로 첫 번째 프레임을 반복적으로 사용하여 생성된 비디오의 원활한 전환 효과를 보장하여 비디오의 모양이 더욱 일관되고 일관되게 만듭니다. 또한 이 전략을 통해 사용자는 여러 비디오 클립을 생성하고 좋은 결과를 얻은 클립의 마지막 프레임을 다음 생성된 클립의 첫 번째 프레임으로 선택할 수 있으므로 사용자가 더 쉽게 모델과 상호 작용하고 필요에 따라 생성 결과를 조정할 수 있습니다. 그러나 이전 시계열 중첩의 슬라이딩 윈도우 전략을 사용하여 긴 비디오를 생성하는 경우 확산 과정의 각 단계에서 각 비디오가 서로 결합되므로 세그먼트 선택을 수행할 수 없습니다.

위 기능을 통해 UniAnimate 프레임워크는 고품질의 장기 인간 춤 동영상을 합성하는 데 탁월하며 더 넓은 범위의 응용 프로그램에 대한 새로운 가능성을 제공합니다.

생성된 결과의 예

1. 합성 이미지를 기반으로 한 댄스 영상 생성.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

2. 실제 사진을 기반으로 춤추는 동영상을 생성합니다.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

3. 클레이 스타일 사진을 기반으로 한 댄스 영상 생성.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

4. 머스크 댄스.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

5. 얀 르쿤이 춤을 춥니다.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

6. 다른 도메인 간 이미지를 기반으로 춤추는 동영상을 생성합니다.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

7. 1분짜리 춤 동영상을 생성합니다.

원본 MP4 동영상과 더 많은 HD 동영상 예시를 보려면 해당 논문의 프로젝트 홈페이지(https://unianimate.github.io/)를 참조하세요.

실험적 비교 분석

1. TikTok 데이터 세트에 대한 기존 방법과의 정량적 비교 실험.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

위 표에서 볼 수 있듯이 UniAnimate 방법은 L1, PSNR, SSIM, LPIPS 및 비디오 표시기 FVD와 같은 이미지 표시기에서 최상의 결과를 달성하여 UniAnimate가 높은 충실도의 결과를 생성할 수 있음을 나타냅니다.

2. 기존 방법과의 정성적 비교 실험.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

위의 정성적 비교 실험에서도 MagicAnimate 및 Animate Any와 비교하여 UniAnimate 방법이 명백한 아티팩트 없이 더 나은 연속 결과를 생성할 수 있다는 점을 알 수 있으며 이는 UniAnimate의 효율성을 나타냅니다.

3. 필링 실험.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

위 표의 수치 결과에서 알 수 있듯이 UniAnimate에서 사용되는 참조 포즈와 통합 영상 확산 모델은 성능 향상에 핵심적인 역할을 합니다.

4. 장편 영상 생성 전략 비교.

1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.

위 그림에서 볼 수 있듯이, 긴 비디오를 생성하기 위해 일반적으로 사용되는 타이밍 오버랩 슬라이딩 윈도우 전략은 쉽게 불연속적인 전환으로 이어질 수 있다고 연구팀은 믿습니다. 타이밍이 겹치는 부분으로 인해 생성 결과가 달라지게 됩니다. 직접 평균화하면 명백한 변형이나 왜곡이 발생하고 이러한 불일치로 인해 오류 전파가 발생합니다. 이 기사에서 사용된 첫 번째 프레임 비디오 연속 생성 방법은 부드러운 전환을 생성할 수 있습니다.

더 많은 실험적 비교 결과와 분석은 원문을 참고해주세요.

전반적으로 UniAnimate의 샘플 결과와 정량적 비교 결과는 매우 좋습니다. UniAnimate가 영화 및 TV 제작, 가상 현실 및 게임 산업 등 다양한 분야에 적용되어 사용자에게 더 많은 것을 제공할 수 있기를 기대합니다. 현실적이고 흥미진진한 인간 이미지를 경험해보세요.

위 내용은 1분짜리 고화질 비디오 합성을 지원합니다. Huake 등은 인간 춤 비디오 생성을 위한 새로운 프레임워크인 UniAnimate를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!