하드웨어 튜토리얼 하드웨어 검토 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

Mar 21, 2024 pm 12:21 PM
Google 기계 인간 번역하다 효과 영어 아름다운 그림 비디오 편집

Google에서 새로운 비디오 프레임워크를 출시했습니다.

얼굴 사진과 연설 녹음만 있으면 실제와 같은 연설 비디오를 얻을 수 있습니다.

영상 길이는 가변적이며 현재 보이는 예시는 최대 10초 입니다.

입 모양이나 표정 모두 매우 자연스럽다는 것을 알 수 있습니다.

입력 이미지가 상체 전체를 덮는 경우 다양한 동작으로 사용할 수도 있습니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

읽은 후 네티즌들은 다음과 같이 말했습니다.

이를 사용하면 더 이상 머리와 옷을 정리할 필요가 없습니다. 앞으로도 온라인 화상회의를 위해 좋은 옷을 입으세요.

그럼 인물 사진을 찍고 음성 오디오를 녹음하세요(수동 개 머리)

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

목소리로 인물 사진을 제어해 동영상을 생성하세요

이 프레임워크를 VLOGGER라고 합니다.

주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.

하나는 인간과 3D 모션의 무작위 확산 모델입니다.

다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.

후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.

결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 맵도 입력으로 사용합니다.

VLOGGER 교육은 매우 큰 데이터 세트(MENTOR라는 이름)에서 완료됩니다.

얼마나 크나요? 길이는 2,200시간이며, 80만 개의 캐릭터 영상을 담고 있습니다.

그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.

Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.

아래 그림과 같이 최종 픽셀 이미지의 색상이 어두울수록(빨간색) 액션이 풍부해집니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 완전하다는 것입니다(얼굴과 입술 모두 포함). , 신체 움직임 포함) 등

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

구체적으로는 다음 표와 같습니다.

얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.

Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.

립싱크는 다양한 테마의 동영상을 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.

비교해보면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 근접한 성능을 발휘하지만 신체를 제어할 수 없고 영상을 추가로 편집할 수 없다는 점에서 실패합니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

또 다른 응용 프로그램은 비디오 번역입니다:

예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.

네티즌들은 불만을 표시했습니다

결국 "기존 규칙"에 따라 Google은 해당 모델을 공개하지 않았으며 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

글쎄, 불만이 많습니다:

모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.

그래서 일부 사람들은 부정적인 리뷰를 주저하지 않고 남겼습니다.

이게 구글 수준인가요?

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

"VLOGGER"라는 이름을 붙여서 죄송합니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .

어떻게 생각하세요?

추가 효과:

https://enriccorona.github.io/vlogger/

전체 보고서:

https://enriccorona.github.io/vlogger/paper.pdf

위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek에 의견을 말하는 방법 DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

DeepSeek를 다운로드하는 방법 DeepSeek를 다운로드하는 방법 Feb 19, 2025 pm 05:45 PM

공식 웹 사이트 다운로드에 액세스하고 도메인 이름과 웹 사이트 디자인을주의 깊게 확인하십시오. 다운로드 후 파일을 스캔하십시오. 설치 중에 프로토콜을 읽고 설치시 시스템 디스크를 피하십시오. 기능을 테스트하고 고객 서비스에 연락하여 문제를 해결하십시오. 소프트웨어의 보안 및 안정성을 보장하기 위해 버전을 정기적으로 업데이트하십시오.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

Gate.io Exchange 공식 등록 포털 Gate.io Exchange 공식 등록 포털 Feb 20, 2025 pm 04:27 PM

Gate.io는 광범위한 암호화 자산 및 거래 쌍을 제공하는 주요 암호 화폐 거래소입니다. Gate.io 등록은 공식 웹 사이트를 방문하거나 앱을 다운로드하면 "등록"을 클릭하고 등록 양식을 작성하고 2FA (Factor Verification)를 설정하면 가능합니다. 등록을 완료하십시오. Gate.io를 사용하면 사용자는 안전하고 편리한 암호 화폐 거래 경험을 즐길 수 있습니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

See all articles