Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성-일체 포함-php.cn

이 프레임워크를

결국 "기존 규칙"에 따라 Google은 모델을 공개하지 않았습니다. 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

집

기술 주변기기

일체 포함

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

王林

Mar 20, 2024 pm 04:41 PM

모델 기차 비디오 편집

Google은 새로운 비디오 프레임워크를 출시했습니다.

당신의 사진과 연설 녹음본만 있으면 당신의 연설이 담긴 생생한 비디오를 얻을 수 있습니다. 동영상 길이는 가변적이며 현재 표시되는 예시는 최대 10초입니다.

보시다시피

입 모양이든 표정이든 매우 자연스럽습니다. 입력 이미지가 상체 전체를 덮는 경우 풍부한

제스처와 함께 사용할 수도 있습니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 읽은 후 네티즌들은 다음과 같이 말했습니다.

이를 사용하면 더 이상 기다릴 필요가 없습니다. 앞으로는 온라인 화상 회의에 참석하기 전에 머리를 다듬고 옷을 입으십시오.

글쎄요, 인물 사진을 찍고 음성 오디오를 녹음하세요

(수동 개 머리)

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 목소리를 사용하여 인물 사진을 제어하여 비디오를 생성하세요

이 프레임워크를

VLOGGER이라고 합니다. 주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.

하나는 무작위 인간 대 3D 모션

(인간 대 3D 모션)

확산 모델입니다. 다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.

후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.

결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 다이어그램도 입력으로 사용합니다.

VLOGGER 교육은 매우 큰 데이터 세트

(MENTOR라는 이름)

에서 완료됩니다. 얼마나 크나요?

길이는 2200시간이며 800,000개의 캐릭터 동영상이 포함되어 있습니다. 그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.

Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.

아래 그림과 같이 최종 픽셀 이미지의 부분이 어두울수록

(빨간색)

액션이 풍부해집니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 매우 완벽하다는 것입니다

(얼굴 및 입술, 신체 움직임 포함)

등등.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 구체적으로는 다음 표와 같습니다.

얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.

Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.

립싱크는 다양한 테마의 비디오를 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.

비교하면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 가까운 성능을 발휘하지만, 신체를 제어할 수 없고 추가로 영상을 편집할 수 없다는 점에서 패배합니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 또 다른 응용 프로그램은 비디오 번역입니다:

예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.

네티즌들은 불평했습니다

결국 "기존 규칙"에 따라 Google은 모델을 공개하지 않았습니다. 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

글쎄, 불만이 많습니다:

모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.

따라서 일부 사람들은 주저하지 않고 부정적인 리뷰를 남겼습니다.

이게 구글 수준인가요?

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

'VLOGGER'라는 이름이 좀 아쉽네요.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .

어떻게 생각하세요?

추가 효과:https://enriccorona.github.io/vlogger/

전체 문서: https://enriccorona.github.io/vlogger/paper.pdf

위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7489

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

OPPO 휴대폰으로 화면 동영상을 녹화하는 방법(간단한 조작) May 07, 2024 pm 06:22 PM

게임 기술이나 교육 시연 등 일상 생활에서 일부 작동 단계를 보여주기 위해 휴대폰을 사용하여 화면 비디오를 녹화해야 하는 경우가 많습니다. 화면 비디오 녹화 기능도 매우 좋으며 OPPO 휴대폰은 강력한 스마트폰입니다. 녹화 작업을 쉽고 빠르게 완료할 수 있도록 이 기사에서는 OPPO 휴대폰을 사용하여 화면 비디오를 녹화하는 방법을 자세히 소개합니다. 준비 - 녹음 목표 결정 시작하기 전에 녹음 목표를 명확히 해야 합니다. 단계별 시연 영상을 녹화하고 싶으신가요? 아니면 게임의 멋진 순간을 기록하고 싶으신가요? 아니면 교육 비디오를 녹화하고 싶나요? 녹음 과정과 명확한 목표를 더 잘 정리해야만 가능합니다. OPPO 휴대폰의 화면 녹화 기능을 열고 바로가기 패널에서 찾으세요. 화면 녹화 기능은 바로가기 패널에 있습니다.

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

Adobe After Effects cs6(Ae cs6)에서 언어를 전환하는 방법 Ae cs6에서 중국어와 영어 간 전환을 위한 세부 단계 - ZOL 다운로드 May 09, 2024 pm 02:00 PM

1. 먼저 AMTLanguages 폴더를 찾으세요. AMTLanguages 폴더에서 일부 문서를 찾았습니다. 중국어 간체를 설치하면 zh_CN.txt 텍스트 문서가 생성됩니다(텍스트 내용: zh_CN). 영어로 설치했다면 텍스트 문서 en_US.txt가 있을 것입니다(텍스트 내용은 en_US). 3. 따라서 중국어로 전환하려면 AdobeAfterEffectsCCSupportFilesAMTLanguages 경로 아래에 zh_CN.txt(텍스트 내용: zh_CN)의 새 텍스트 문서를 만들어야 합니다. 4. 반대로 영어로 전환하고 싶다면,

Sora 'Ke Ling'의 Kuaishou 버전이 테스트용으로 공개되었습니다. 120초가 넘는 비디오를 생성하고 물리학을 더 잘 이해하며 복잡한 움직임을 정확하게 모델링할 수 있습니다. Jun 11, 2024 am 09:51 AM

무엇? 주토피아는 국내 AI로 현실이 되는 걸까? 영상과 함께 노출된 것은 '켈링'이라는 국산 대형 영상세대 신형 모델이다. Sora는 유사한 기술 경로를 사용하고 자체 개발한 여러 기술 혁신을 결합하여 크고 합리적인 움직임뿐만 아니라 물리적 세계의 특성을 시뮬레이션하고 강력한 개념적 결합 능력과 상상력을 갖춘 비디오를 제작합니다. 데이터에 따르면 Keling은 최대 1080p의 해상도로 30fps에서 최대 2분의 초장 영상 생성을 지원하며 다양한 화면비를 지원합니다. 또 다른 중요한 점은 Keling이 실험실에서 공개한 데모나 비디오 결과 시연이 아니라 단편 비디오 분야의 선두주자인 Kuaishou가 출시한 제품 수준 애플리케이션이라는 점입니다. 더욱이 백지 작성이 아닌 실용성에 중점을 두고, 출시되자마자 온라인에 진출하는 데 중점을 두고 있다. 콰이잉에서는 커링의 대형 모델이 출시됐다.

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 Jun 13, 2024 pm 01:59 PM

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

DPO를 완전히 능가함: Chen Danqi 팀은 단순 선호도 최적화 SimPO를 제안하고 가장 강력한 8B 오픈 소스 모델도 개선했습니다. Jun 01, 2024 pm 04:41 PM

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

TikTok에서 동영상을 촬영하는 방법은 무엇인가요? 동영상 촬영 시 마이크를 어떻게 켜나요? May 09, 2024 pm 02:40 PM

오늘날 가장 인기 있는 단편 비디오 플랫폼 중 하나인 Douyin 비디오의 품질과 효과는 사용자의 시청 경험에 직접적인 영향을 미칩니다. 그렇다면 TikTok에서 고품질 동영상을 촬영하는 방법은 무엇입니까? 1. Douyin에서 동영상을 촬영하는 방법은 무엇인가요? 1. Douyin 앱을 열고 하단 중앙의 "+" 버튼을 클릭하여 영상 촬영 페이지로 들어갑니다. 2. Douyin은 일반 촬영, 슬로우 모션, 짧은 비디오 등 다양한 촬영 모드를 제공합니다. 필요에 따라 적절한 촬영 모드를 선택하십시오. 3. 촬영 페이지에서 화면 하단의 "필터" 버튼을 클릭하여 다양한 필터 효과를 선택하여 동영상을 더욱 개인화하세요. 4. 노출, 대비 등의 매개변수를 조정해야 하는 경우 화면 왼쪽 하단에 있는 "매개변수" 버튼을 클릭하여 설정할 수 있습니다. 5. 촬영 중 화면 왼쪽의 를 클릭하시면 됩니다.

See all articles

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

이 프레임워크를

결국 "기존 규칙"에 따라 Google은 모델을 공개하지 않았습니다. 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제