


사진 + 오디오가 단 몇 초 만에 비디오로 변환됩니다! Xi'an Jiaotong University의 오픈 소스 SadTalker: 초자연적인 머리와 입술 움직임, 중국어와 영어 이중 언어 가능, 노래도 가능
디지털 피플이라는 개념의 대중화와 세대 기술의 지속적인 발전으로 인해 오디오 입력에 따라 사진 속 캐릭터를 움직이는 것은 더 이상 문제가 되지 않습니다.
그러나 "얼굴 이미지와 음성 오디오를 통해 말하는 캐릭터 아바타 영상을 생성하는 것"에는 부자연스러운 머리 움직임, 왜곡된 표정, 영상과 사진의 과도한 얼굴 차이 등 여전히 많은 문제점이 있습니다. 및 기타 문제.
최근 시안교통대학교 연구진 등이 3차원 모션장에서 학습하여 오디오로부터 3DMM의 3차원 모션 계수(머리 포즈, 표정)를 생성하고, 머리 움직임을 생성하는 새로운 3D 얼굴 렌더러.
논문 링크: https://arxiv.org/pdf/2211.12194.pdf
프로젝트 홈페이지: https://sadtalker.github.io/
오디오는영어, 중국어, 노래로 제공되며, 영상 속 캐릭터는 깜빡이는 속도도 제어할 수 있습니다!
실제적인 모션 계수를 배우기 위해 연구자들은 오디오와 다양한 유형의 모션 계수 간의 연결을 명시적으로 별도로 모델링합니다. 계수와 3D 렌더링된 얼굴을 추출하여 오디오에서 정확한 얼굴을 학습합니다. 조건부 VAE를 통해 PoseVAE를 설계하여 다양한 스타일의 머리를 합성합니다. 동정.마지막으로 생성된 3차원 모션 계수를 얼굴 렌더링의 비지도 3차원 키포인트 공간에 매핑하고 최종 영상을 합성합니다.
마지막으로 이 방법이 모션 동기화 및 비디오 품질 측면에서 최첨단 성능을 달성한다는 것이 실험적으로 입증되었습니다.
stable-diffusion-webui 플러그인도 출시되었습니다!
사진 + 오디오 = 비디오
디지털 휴먼 창작, 화상 회의 등 다양한 분야에는 "음성 오디오를 사용하여 정지 사진에 애니메이션을 적용하는" 기술이 필요하지만 현재 이는 여전히 매우 어려운 작업입니다.입술 움직임과 말의 관계가 가장 강력하기 때문에 이전 작업에서는 주로 "입술 움직임"을 생성하는 데 중점을 두었습니다. 다른 작업에서도 다른 관련 움직임(예: 머리 자세)의 얼굴 동영상을 생성하려고 합니다. 결과 비디오의 품질은 여전히 매우 부자연스럽고 선호하는 포즈, 흐림, 신원 수정 및 얼굴 왜곡으로 인해 제한됩니다.
또 다른 인기 있는 방법은 대화형 얼굴 애니메이션에서 특정 동작 범주에 주로 초점을 맞춘 잠재 기반 얼굴 애니메이션입니다. 3D 얼굴 모델에는 높은 해상도가 포함되어 있지만 고품질 비디오를 합성하는 것도 어렵습니다. 결합된 표현을 사용하면 얼굴의 다양한 위치의 동작 궤적을 독립적으로 학습할 수 있지만 여전히 부정확한 표현과 부자연스러운 동작 시퀀스가 생성됩니다.
위의 관찰을 바탕으로 연구원들은 암시적 3차원 계수 변조를 통해 양식화된 오디오 기반 비디오 생성 시스템인 SadTalker(Stylized Audio-Driven Talking-head)를 제안했습니다.
마지막으로 Face-vid2vid에서 영감을 받은 3D 인식 얼굴 렌더링을 통해 소스 이미지를 구동합니다.
3D 얼굴 실제 영상은 3차원 환경에서 촬영되기 때문에 생성된 영상의 진정성을 높이기 위해서는 3차원 정보가 중요하지만, 이전 작품에서는 평면만으로는 얻기 어렵기 때문에 3차원 공간을 거의 고려하지 않았습니다. image 원래의 3차원은 희박하고 고품질의 얼굴 렌더러는 디자인하기 어렵습니다. 최근 단일 이미지 심도 3D 재구성 방법에서 영감을 받아 연구원들은 예측된 3D 변형 모델(3DMM)의 공간을 중간 표현으로 사용합니다. 3DMM에서 3D 얼굴 모양 S는 다음과 같이 분리될 수 있습니다. 여기서 S는 3D 얼굴의 평균 모양이고 Uid와 Uexp는 LSFM 변형 가능 모델의 정체성과 표현의 정규식입니다. , 계수 α(80차원)와 β(64차원)는 자세의 차이를 유지하기 위해 각각 캐릭터의 정체성과 표현을 설명하고, 계수 r과 t는 정체성 독립적을 달성하기 위해 각각 머리 회전과 이동을 나타냅니다. 계수 생성, 이동만 매개변수는 {β, r, t}로 모델링됩니다. 즉, 구동 오디오와 별도로 머리 포즈 ρ = [r, t]와 표현 계수 β를 학습한 후, 최종 영상 합성을 위해 이러한 모션 계수를 사용하여 얼굴 렌더링을 암묵적으로 변조합니다. 오디오를 통해 희소 모션 생성 3차원 모션 계수에는 머리 포즈와 표현이 포함됩니다. 여기서 머리 포즈는 전역 모션인 반면 표현은 상대적으로 지역적이므로 모든 계수를 완전히 학습하면 네트워크에 많은 문제를 가져온다. 머리 자세는 오디오와 관련성이 상대적으로 약한 반면, 입술 움직임은 오디오와 관련성이 높기 때문에 불확실성이 크다. 그래서 SadTalker는 다음과 같은 PoseVAE와 ExpNet을 사용하여 각각 머리 자세와 표정의 움직임을 생성합니다. ExpNet 두 가지 이유로 "오디오에서 정확한 표현 계수를 생성"할 수 있는 일반 모델을 학습하는 것은 매우 어렵습니다. 1) Audio-to -expression)은 하나가 아닙니다. 다양한 문자에 대한 일대일 매핑 작업 2) 표현 계수에는 예측의 정확성에 영향을 미치는 오디오 관련 작업이 있습니다. ExpNet의 디자인 목표는 캐릭터 정체성 문제에 대한 이러한 불확실성을 줄이는 것입니다. 연구원들은 첫 번째 프레임의 표현 계수를 통해 표현 동작을 특정 캐릭터에 연결했습니다. 자연스러운 대화에서 다른 얼굴 구성 요소의 모션 가중치를 줄이기 위해 Wav2Lip의 사전 훈련된 네트워크와 심층 3D 재구성을 통해 입술 모션 계수(입술 모션만 해당)만 계수 대상으로 사용됩니다. 기타 미묘한 얼굴 움직임(예: 눈 깜박임)의 경우 렌더링된 이미지의 추가적인 랜드마크 손실로 인해 발생할 수 있습니다. PoseVAE 연구원들은 대화 비디오에서 현실적이고 신원을 인식하는 양식화된 머리 움직임을 학습하기 위해 VAE 기반 모델을 설계했습니다.
훈련에서 포즈 VAE는 인코더-디코더 기반 구조를 사용하여 고정 n 프레임에서 훈련됩니다. 여기서 인코더와 디코더는 모두 2계층 MLP이고 입력에는 연속적인 머리 포즈가 포함됩니다. 프레임 t는 디코더에서 가우스 분포에 포함되며, 네트워크는 샘플링 분포에서 프레임 t의 포즈를 생성하는 방법을 학습합니다.
PoseVAE는 포즈를 직접 생성하지 않지만 첫 번째 프레임의 조건부 포즈의 잔차를 학습합니다. 이를 통해 첫 번째 프레임의 조건에서 더 길고 안정적이며 긴 포즈를 생성할 수 있습니다. 더 지속적인 머리 움직임.
CVAE에 따르면 해당 오디오 기능과 스타일 식별자도 리듬 인식 및 아이덴티티 스타일의 조건으로 PoseVAE에 추가됩니다.
모델은 KL 발산을 사용하여 생성된 모션의 분포를 측정합니다. 평균 제곱 손실과 적대적 손실을 사용하여 생성 품질을 보장합니다.
3D 인식 얼굴 렌더링
실제적인 3D 모션 계수를 생성한 후 연구원들은 신중하게 설계된 3D 이미지 애니메이터를 통해 최종 비디오를 렌더링했습니다.
최근 제안된 이미지 애니메이션 방법인 face-vid2vid는 단일 이미지로부터 3D 정보를 암묵적으로 학습할 수 있지만, 이 방법은 동작 구동 신호로 실제 비디오가 필요한 반면, 본 논문에서 제안하는 얼굴 렌더링은 3DMM 계수에 의해 구동될 수 있습니다.
연구원들은 명시적인 3DMM 모션 계수(머리 자세 및 표현)와 암시적인 비지도 3D 키포인트 간의 관계를 학습하기 위해 mappingNet을 제안합니다.
mappingNet은 여러 개의 1차원 컨볼루션 레이어를 통해 구축되었으며 PIRenderer처럼 스무딩을 위해 시간 창의 시간 계수를 사용합니다. 차이점은 연구원들이 PIRenderer의 얼굴 정렬 동작 계수가 큰 영향을 미친다는 것을 발견했다는 것입니다. 오디오 기반 비디오는 자연스러운 동작을 생성하므로 mappingNet은 표현 계수와 머리 자세만 사용합니다.
교육 단계는 두 단계로 구성됩니다. 먼저 원본 논문에 따라 Face-vid2vid를 자체 감독 방식으로 교육한 다음, 외관 인코더, 표준 키포인트 추정기 및 이미지 생성기의 모든 매개변수를 동결한 후 재구성된 방식 MappingNet은 미세 조정을 위해 실제 영상의 3DMM 계수에 대해 학습됩니다.
비지도 키포인트 영역의 지도 교육에 L1 손실을 사용하고 원래 구현에 따라 최종 생성된 비디오를 제공합니다.
실험 결과
이 방법의 우수성을 입증하기 위해 연구원들은 FID(Frechet Inception Distance) 및 CPBD(Cumulative Probability BlurDetection) 지표를 선택하여 이미지 품질을 평가했으며, FID는 주로 이미지 품질을 평가합니다. 생성된 프레임의 신뢰성, CPBD는 생성된 프레임의 선명도를 평가합니다.
신원 보존 정도를 평가하기 위해 ArcFace를 사용하여 이미지의 신원 임베딩을 추출한 후 원본 이미지와 생성된 프레임 간의 신원 임베딩의 코사인 유사성(CSIM)을 계산합니다.
입술 동기화와 입 모양을 평가하기 위해 연구원들은 거리 점수(LSE-D)와 신뢰도 점수(LSE-C)를 포함하여 Wav2Lip의 입 모양에 대한 인식 차이를 평가했습니다.
머리 모션 평가에서는 Hopenet에서 생성된 프레임에서 추출한 머리 모션 특징 임베딩의 표준 편차를 사용하여 생성된 머리 모션의 다양성을 계산하고 Beat Align Score를 계산하여 오디오와 생성된 머리를 평가합니다. 움직임의 일관성.
비교 방법에서는 MakeItTalk, Audio2Head 및 오디오 표현 생성 방법(Wav2Lip, PC-AVS)을 포함하여 가장 진보된 여러 가지 말하기 아바타 생성 방법이 선택되었으며 공개 체크포인트 가중치를 사용하여 평가되었습니다.
논문에서 제안한 방법이 전반적인 영상 품질과 머리 자세의 다양성을 보여줄 수 있으며, 립싱크 지표 측면에서도 다른 방법보다 좋은 성능을 보인다는 것을 실험 결과에서 확인할 수 있습니다. 완전히 말하는 머리 생성 방법에 대한 성능입니다.
연구원들은 이러한 립싱크 지표가 오디오에 너무 민감하여 부자연스러운 입술 움직임이 더 좋은 점수를 얻을 수 있다고 생각하지만, 기사에서 제안한 방법은 실제 비디오와 비슷한 점수를 얻었으며 또한 이 방법의 장점은 다음과 같습니다. 표시됩니다.
다양한 방법으로 생성된 시각적 결과에서 볼 수 있듯이 이 방법의 시각적 품질은 원본 대상 비디오와 매우 유사하며 예상되는 다양한 머리 포즈와도 매우 유사합니다.
다른 방법과 비교하여 Wav2Lip은 흐릿한 반쪽 얼굴을 생성합니다. PC-AVS 및 Audio2Head는 소스 이미지의 정체성을 유지하는 데 어려움이 있습니다. MakeItTalk 및 Audio2Head는 2D 왜곡으로 인해 흐릿한 얼굴을 생성할 수 있습니다. 얼굴 영상.
위 내용은 사진 + 오디오가 단 몇 초 만에 비디오로 변환됩니다! Xi'an Jiaotong University의 오픈 소스 SadTalker: 초자연적인 머리와 입술 움직임, 중국어와 영어 이중 언어 가능, 노래도 가능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Win11 컴퓨터에서 음악을 듣거나 영화를 볼 때 스피커나 헤드폰의 소리가 불균형한 경우 사용자는 필요에 따라 밸런스 수준을 수동으로 조정할 수 있습니다. 그럼 어떻게 조정해야 할까요? 이 문제에 대응하여 편집자는 모든 사람에게 도움이 되기를 바라며 자세한 작업 튜토리얼을 가져왔습니다. Windows 11에서 왼쪽 및 오른쪽 오디오 채널의 균형을 맞추는 방법은 무엇입니까? 방법 1: 설정 앱을 사용하여 키를 탭하고 설정을 클릭합니다. Windows에서는 시스템을 클릭하고 사운드를 선택합니다. 추가 사운드 설정을 선택하세요. 스피커/헤드폰을 클릭하고 속성을 선택합니다. 수준 탭으로 이동하여 잔액을 클릭합니다. "왼쪽"을 확인하고

제가 기억하는 한, 저는 집에 대형 플로어 스탠딩 스피커 한 쌍을 가지고 있었습니다. 저는 TV가 완전한 사운드 시스템을 갖추고 있어야만 TV라고 부를 수 있다고 항상 믿어왔습니다. 하지만 처음 일을 시작했을 때는 전문적인 홈 오디오를 구입할 여유가 없었습니다. 제품 포지셔닝을 문의하고 이해한 결과 사운드바 카테고리가 음질, 크기 및 가격 측면에서 나에게 매우 적합하다는 것을 알았습니다. 그래서 사운드바로 가기로 결정했습니다. 신중한 선택 끝에 2024년 초 보스가 출시한 파노라믹 사운드바 제품, 보스 홈 엔터테인먼트 스피커 울트라를 선택했습니다. (사진 출처: Lei Technology 촬영) 일반적으로 "원래의" Dolby Atmos 효과를 경험하려면 측정되고 보정된 서라운드 사운드 + 천장을 집에 설치해야 합니다.

소셜 미디어의 지속적인 발전으로 Xiaohongshu는 점점 더 많은 젊은이들이 자신의 삶을 공유하고 아름다운 것을 발견할 수 있는 플랫폼이 되었습니다. 많은 사용자들이 이미지 게시 시 자동 저장 문제로 고민하고 있습니다. 그렇다면 이 문제를 해결하는 방법은 무엇입니까? 1. Xiaohongshu에 게시할 때 사진이 자동으로 저장되는 문제를 해결하는 방법은 무엇입니까? 1. 캐시 지우기 먼저 Xiaohongshu의 캐시 데이터를 지워볼 수 있습니다. 단계는 다음과 같습니다. (1) Xiaohongshu를 열고 오른쪽 하단에 있는 "내" 버튼을 클릭합니다. (2) 개인 센터 페이지에서 "설정"을 찾아 클릭합니다. 캐시 지우기' 옵션을 선택하고 확인을 클릭하세요. 캐시를 삭제한 후 샤오홍슈에 다시 진입하여 사진을 올려 자동 저장 문제가 해결되었는지 확인해 보세요. 2. Xiaohongshu 버전을 업데이트하여 Xiaohongshu를 확인하세요.

Douyin 짧은 동영상의 인기로 인해 댓글 영역의 사용자 상호 작용이 더욱 다채로워졌습니다. 일부 사용자는 자신의 의견이나 감정을 더 잘 표현하기 위해 댓글로 이미지를 공유하기를 원합니다. 그렇다면 TikTok 댓글에 사진을 게시하는 방법은 무엇입니까? 이 기사에서는 이 질문에 대해 자세히 답변하고 몇 가지 관련 팁과 예방 조치를 제공합니다. 1. Douyin 댓글에 사진을 어떻게 게시하나요? 1. Douyin 열기: 먼저 Douyin 앱을 열고 계정에 로그인해야 합니다. 2. 댓글 영역 찾기: 짧은 동영상을 탐색하거나 게시할 때 댓글을 달고 싶은 위치를 찾아 "댓글" 버튼을 클릭하세요. 3. 댓글 내용 입력: 댓글 영역에 댓글 내용을 입력합니다. 4. 사진 전송 선택: 댓글 내용 입력 인터페이스에 "사진" 버튼 또는 "+" 버튼이 표시됩니다.

Windows는 컴퓨터의 사운드를 관리할 수 있지만 오디오 문제나 결함이 발생할 경우 개입하여 사운드 설정을 재설정할 수 있습니다. 그러나 Microsoft가 Windows 11에서 적용한 미학적 변화로 인해 이러한 설정에 초점을 맞추는 것이 더욱 어려워졌습니다. 이제 Windows 11에서 이러한 설정을 찾아 관리하는 방법이나 문제가 발생할 경우 재설정하는 방법을 살펴보겠습니다. Windows 11 in 7에서 사운드 설정을 재설정하는 쉬운 방법 다음은 직면한 문제에 따라 Windows 11에서 사운드 설정을 재설정하는 7가지 방법입니다. 시작하자. 방법 1: 앱 소리 및 볼륨 설정 재설정 키보드의 버튼을 눌러 설정 앱을 엽니다. 지금 클릭하세요

Apple의 최근 iPhone은 선명한 디테일, 채도 및 밝기로 추억을 포착합니다. 그러나 때로는 이미지가 덜 선명하게 보일 수 있는 몇 가지 문제가 발생할 수 있습니다. iPhone 카메라의 자동 초점 기능이 크게 발전하여 사진을 빠르게 촬영할 수 있게 되었지만, 특정 상황에서는 카메라가 실수로 잘못된 피사체에 초점을 맞춰 원치 않는 영역에서 사진이 흐릿해질 수 있습니다. iPhone의 사진이 일반적으로 초점이 맞지 않거나 선명도가 부족한 경우 다음 게시물을 통해 사진을 더 선명하게 만드는 데 도움이 될 것입니다. iPhone에서 사진을 더 선명하게 만드는 방법 [6가지 방법] 기본 사진 앱을 사용하여 사진을 정리할 수 있습니다. 더 많은 기능과 옵션을 원하신다면

파워포인트에서는 그림을 하나씩 표시하는 것이 일반적인 기술인데, 이는 애니메이션 효과를 설정하면 가능하다. 이 가이드에서는 기본 설정, 이미지 삽입, 애니메이션 추가, 애니메이션 순서 및 타이밍 조정 등 이 기술을 구현하는 단계를 자세히 설명합니다. 또한 트리거 사용, 애니메이션 속도 및 순서 조정, 애니메이션 효과 미리보기 등의 고급 설정 및 조정이 제공됩니다. 이러한 단계와 팁을 따르면 사용자는 PowerPoint에서 그림이 차례로 표시되도록 쉽게 설정할 수 있으므로 프레젠테이션의 시각적 효과가 향상되고 청중의 관심을 끌 수 있습니다.

일부 네티즌들은 브라우저 웹페이지를 열었을 때 웹페이지의 사진이 오랫동안 로드되지 않는다는 사실을 발견했습니다. 네트워크가 정상인지 확인했는데 무엇이 문제인가요? 아래 편집기에서는 웹 페이지 이미지를 로드할 수 없는 문제에 대한 6가지 해결 방법을 소개합니다. 웹페이지 이미지를 로드할 수 없습니다: 1. 인터넷 속도 문제 웹페이지에 이미지가 표시되지 않습니다. 이는 컴퓨터의 인터넷 속도가 상대적으로 느리고 컴퓨터에 열려 있는 소프트웨어가 더 많기 때문일 수 있습니다. 로딩 시간 초과로 인해 사진이 표시되지 않을 수 있습니다. 네트워크 속도를 차지하는 소프트웨어를 끄고 작업 관리자에서 확인할 수 있습니다. 2. 방문자가 너무 많으면 웹페이지에 사진이 표시되지 않는 경우, 우리가 방문한 웹페이지가 동시에 방문되었기 때문일 수 있습니다.
