보세요! 지금 여러분 앞에는 화끈한 댄스를 선보이고 있는 네 명의 젊은 여성이 있습니다.
쇼트비디오 플랫폼에 일부 앵커가 공개한 작품인 줄 알았나요?
안돼 안돼 안돼 안돼
진짜 답은 가짜, 생성된 것, 사진 한 장에만 의존하는 종류입니다!
이 기능을 켜는 실제 방법은 다음과 같습니다.
이것은 Magic Animate라고 불리는 싱가포르 국립대학교와 Bytedance의 최신 연구입니다.
기능은 간단한 공식으로 요약할 수 있습니다. 그림 + 일련의 작업 = 위반의 의미가 없는 비디오 .
이 기술의 발표로 기술계에 소란이 일었고 많은 기술 거인과 괴짜들이 합류했습니다. 심지어
HuggingFace CTO도 자신의 아바타로 이를 시도했습니다:
By 그런데 유머러스하게 농담도 했어요.
이거 피트니스로 간주되나요? 이번 주에는 체육관을 건너뛸 수 있어요.새로 출시된GTA6
(Grand Theft Auto 6):
심지어 이모티콘이 네티즌이 선택한 타겟...
Magic Animate가 기술계의 관심을 자체적으로 집중시켰다고 할 수 있으므로 일부 네티즌은 다음과 같이 농담했습니다.
OpenAI는 잠시 쉬어도 됩니다.불이야, 진짜 불이야.
사진 한 장으로 댄스를 연출할 수 있습니다
더 이상 고민하지 말고 단계별로 경험해 보세요.
현재 저희 프로젝트 팀은 HuggingFace
에 온라인 체험 페이지를 개설했습니다. 작업은 매우 간단하며 세 단계만 거치면 됩니다.
예를 들어 다음은 내 사진과 최근 인기 있는 "Subject Three" 댄스입니다. 클립:
Δ 영상 출처: Douyin (ID: QC0217)
페이지 하단에 제공된 템플릿을 선택하여 체험해 볼 수도 있습니다.
하지만 MagicAnimate는 현재 너무 인기가 많아서 생성 과정 중에 "다운타임"이 있을 수 있습니다.
성공적으로 "먹은" 경우에도 대기열에 등록해야 할 수 있습니다 ...
(그렇습니다! 보도 시점 현재 결과는 아직 나오지 않았습니다)
또한 MagicAnimate에서는 GitHub에서 로컬 체험 방법도 제공합니다. 관심 있는 친구들은 시도해 볼 수 있습니다~
그럼 다음 질문은
일반적으로 MagicAnimate는 확산 모델(확산)을 기반으로 하는 프레임워크를 사용합니다. 그 목적은 시간적 일관성을 높이고 참조 이미지의 신뢰성을 유지하며 애니메이션 충실도를 향상시키는 것입니다.
이를 위해 팀에서는 시간 정보를 인코딩하기 위한 Video Diffusion Model(Temporal Consistency Modeling)을 먼저 개발했습니다.
이 모델은 애니메이션 프레임 간의 시간적 일관성을 보장하기 위해 확산 네트워크에 시간적 주의 모듈을 추가하여 시간적 정보를 인코딩합니다.
둘째, 프레임 간의 외관 일관성을 유지하기 위해 팀에서는 참조 이미지의 복잡한 세부 사항을 보존하기 위해 새로운 Appearance Encoder(Appearance Encoder)을 도입했습니다.
이 인코더는 CLIP 인코딩을 사용하는 이전 방법과 달리 애니메이션 제작에 도움이 되는 더 조밀한 시각적 특징을 추출할 수 있으므로 아이덴티티, 배경, 의상과 같은 정보를 더 잘 보존할 수 있습니다.
이 두 가지 혁신적인 기술을 기반으로 합니다. , 팀은 긴 비디오 애니메이션의 원활한 전환을 촉진하기 위해 간단한 비디오 융합 기술 (Video Fusion Technique) 을 채택했습니다.
마지막으로 두 가지 벤치마크 실험을 통해 검증한 결과 MagicAnimate가 이전 방법보다 훨씬 뛰어난 성능을 보였습니다.
특히 까다로운 TikTok 댄스 데이터 세트에서 MagicAnimate는 비디오 충실도에서 가장 강력한 기준을 38% 이상 능가했습니다!
다음은 팀에서 제공한 정성적 비교입니다.
그리고 최신 크로스ID 기본 모델과 비교한 결과는 다음과 같습니다.
MagicAnimate와 같은 프로젝트가 최근에 정말 인기가 많다고 말씀드리고 싶습니다
아니요, "데뷔"하기 얼마 전에 Ali 팀에서는 Animate Any 's라는 프로젝트도 출시했습니다. 프로젝트에도 "사진"과 "원하는 동작"만 있으면 됩니다.
이에 대해 일부 네티즌들도 의문을 제기했습니다.
이것은 MagicAnimate와 AnimateAnyone 간의 전쟁인 것 같습니다. 누가 더 좋나요?
어떻게 생각하세요?
논문을 보려면 다음 링크를 클릭하세요: https://arxiv.org/abs/2311.16498
위 내용은 두인춤은 실제 사람이 카메라에 등장할 필요가 없으며, 사진 한 장으로 고품질의 영상을 만들 수 있습니다! 얼굴을 껴안는 CTO도 바이트의 신기술을 경험했다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!