AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
글로벌 카메라 움직임이든 프롬프트 단어로 지정된 새 장면에서 참조 비디오의 움직임을 복제할 필요가 없습니다. 또는 로컬 신체 움직임을 한 번만 클릭하면 완료됩니다.
페이퍼: https://arxiv.org/abs/2406.05338
홈페이지: https://bujiazi.github.io/motionclone.github.io/
코드: https:// github.com/Bujiazi/MotionClone
이 기사에서는 MotionClone이라는 새로운 프레임워크를 제안합니다. 참조 비디오가 주어지면 모델 훈련이나 미세 조정 없이 해당 모션 정보를 추출할 수 있습니다. 비디오를 텍스트 프롬프트와 함께 사용하여 맞춤형 모션으로 텍스트 생성 비디오를 얻을 수 있습니다(text2video).
이전 연구와 비교하여 MotionClone에는 다음과 같은 장점이 있습니다.
교육이나 미세 조정이 필요하지 않습니다. 이전 방법에서는 일반적으로 모션 큐를 인코딩하기 위한 교육 모델이 필요하거나 특정 모션 패턴에 맞게 비디오 확산 모델을 미세 조정해야 합니다. . 동작 신호를 인코딩하는 훈련 모델은 훈련 영역 외부의 동작에 대한 일반화 능력이 좋지 않으며 기존 비디오 생성 모델을 미세 조정하면 기본 모델의 기본 비디오 생성 품질이 손상될 수 있습니다. MotionClone은 추가 교육이나 미세 조정이 필요하지 않으므로 기본 모델의 생성 품질을 최대한 유지하면서 모션 일반화 기능을 향상시킵니다.
더 높은 모션 품질: 기존 오픈 소스 Wensheng 비디오 모델은 크고 합리적인 움직임을 생성하기 어렵습니다. MotionClone은 생성된 비디오의 모션 진폭을 크게 향상시키는 동시에 모션 합리성을 효과적으로 보장하는 주요 구성요소 타이밍 주의 모션 안내를 도입합니다.
더 나은 공간 위치 관계: 직접 모션 복제로 인해 발생할 수 있는 공간 의미 불일치를 방지하기 위해 MotionClone은 교차 어텐션 마스크를 기반으로 한 공간 의미 정보 안내를 제안하여 올바른 공간 의미 정보와 시공간 모션 정보를 지원합니다. . 커플 링.
시간적 주의 모듈의 동작 정보
텍스트로 생성된 비디오 작업에서 시간적 주의 모듈(Temporal Attention)은 비디오의 프레임 간 상관 관계를 모델링하는 데 널리 사용됩니다. 시간적 주의 모듈의 주의 점수(주의 맵 점수)는 프레임 간의 상관 관계를 특성화하므로 직관적인 아이디어는 주의 점수를 완전히 일관되게 제한하여 모션 복제를 달성함으로써 프레임 간 연결을 복제할 수 있는지 여부입니다.
그러나 실험에 따르면 완전한 어텐션 맵(일반 제어)을 직접 복사하면 매우 대략적인 모션 전송만 달성할 수 있는 것으로 나타났습니다. 이는 어텐션의 가중치 대부분이 노이즈 또는 매우 미묘한 모션 정보에 해당하기 때문에 결합하기 어렵기 때문입니다. 반면에 텍스트로 지정된 새로운 시나리오에서는 잠재적으로 효과적인 이동 지침이 모호해집니다.
이 문제를 해결하기 위해 MotionClone은 시간적 주의의 주요 구성 요소만 사용하여 영상 생성을 드물게 안내함으로써 노이즈와 미묘한 움직임을 필터링하는 주성분 시간적 주의 유도 메커니즘(Primary Tempo-Attention Guidance)을 도입합니다. 정보의 영향을 통해 텍스트에 지정된 새로운 시나리오에서 모션을 효과적으로 복제할 수 있습니다.
공간 의미 교정
주요 구성 요소인 시간적 주의 모션 안내는 참조 비디오의 모션 복제를 달성할 수 있지만 움직이는 피사체가 사용자의 의도와 일치하는지 확인할 수 없으므로 비디오 생성 품질이 저하됩니다. .어떤 경우에는 움직이는 피사체의 탈구로 이어질 수도 있습니다.
위 문제를 해결하기 위해 MotionClone에서는 공간 의미 안내 메커니즘(위치 인식 의미 안내)을 도입하고 Cross Attention Mask를 통해 영상의 앞 배경 영역과 뒷 배경 영역을 구분하고 각각 의미 정보를 제한하여 이를 보장합니다. 비디오의 전면 및 후면 배경 공간 의미론의 합리적인 레이아웃은 시간적 움직임과 공간 의미론의 올바른 결합을 촉진합니다.
MotionClone 구현 세부 정보
DDIM 반전: MotionClone은 DDIM 반전을 사용하여 입력 참조 비디오를 잠재 공간으로 반전하여 참조 비디오의 시간적 주의 주성분 추출을 구현합니다.
안내 단계: 각 잡음 제거 중에 MotionClone은 제어 가능한 비디오 생성을 위한 포괄적인 모션 및 의미론적 지침을 제공하기 위해 함께 작동하는 주요 구성 요소인 시간적 주의 모션 안내와 공간 의미론적 정보 안내를 동시에 도입합니다.
Gaussian Mask: 공간 의미론적 안내 메커니즘에서 Gaussian 커널 기능은 잠재적인 구조적 정보의 영향을 제거하기 위해 교차 주의 마스크를 흐리게 하는 데 사용됩니다.
DAVIS 데이터 세트의 30개 비디오가 테스트에 사용되었습니다. 실험 결과에 따르면 MotionClone은 텍스트 맞춤, 타이밍 일관성 및 여러 사용자 설문 조사 지표에서 이전 모션 전송 방법을 능가하는 상당한 개선을 달성했습니다. 구체적인 결과는 아래 표에 나와 있습니다.
MotionClone의 생성 결과와 기존 모션 마이그레이션 방식을 비교하면 아래 그림과 같이 MotionClone이 앞선 성능을 가지고 있음을 알 수 있습니다.
요약하자면, MotionClone은 훈련이나 미세 조정 없이 사용자가 지정한 프롬프트 단어로 지정된 새로운 장면에 참조 비디오의 모션을 효과적으로 복제할 수 있는 새로운 모션 전송 프레임워크입니다. 기존 Vincent 비디오 모델을 위한 모션 맞춤화 솔루션입니다.
MotionClone은 기존 기본 모델의 생성 품질을 유지하는 기반으로 효율적인 주성분 동작 정보 안내 및 공간 의미 안내를 도입하여 텍스트와의 의미 정렬 능력을 보장하면서 참조 비디오와의 동작 일관성을 크게 향상시킵니다. 고품질의 제어 가능한 비디오 생성을 달성합니다.
또한 MotionClone은 풍부한 커뮤니티 모델에 직접 적응하여 다양한 비디오 생성을 달성할 수 있으며 확장성이 매우 높습니다.
위 내용은 MotionClone: 교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!