社区

学习

工具库

AI工具

休闲

简体中文

首页 > 硬件教程 > 硬件测评 > 谷歌发布' Vlogger ”模型：单张图片生成 10 秒视频

谷歌发布' Vlogger ”模型：单张图片生成 10 秒视频

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

发布： 2024-03-21 12:21:38

转载

1175 人浏览过

谷歌发布了一个新的视频框架：

只需要一张你的头像、一段讲话录音，就能得到一个本人栩栩如生的演讲视频。

视频时长可变，目前看到的示例最高为 10s。

可以看到，无论是口型还是面部表情，它都非常自然。

如果输入图像囊括整个上半身，它也能配合丰富的手势：

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

网友看完就表示：

有了它，以后咱开线上视频会议再也不需要整理好发型、穿好衣服再去了。

嗯，拍一张肖像，录好演讲音频就可以（手动狗头）

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

用声音控制肖像生成视频

这个框架名叫VLOGGER。

它主要基于扩散模型，并包含两部分：

一个是随机的人体到 3D 运动（human-to-3d-motion）扩散模型。

另一个是用于增强文本到图像模型的新扩散架构。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

其中，前者负责将音频波形作为输入，生成人物的身体控制动作，包括眼神、表情和手势、身体整体姿势等等。

后者则是一个时间维度的图像到图像模型，用于扩展大型图像扩散模型，使用刚刚预测的动作来生成相应的帧。

为了使结果符合特定的人物形象，VLOGGER 还将参数图像的 pose 图作为输入。

VLOGGER 的训练是在一个超大的数据集（名叫 MENTOR）上完成的。

有多大？全长 2200 小时，共包含 80 万个人物视频。

其中，测试集的视频时长也有 120 小时长，共计 4000 个人物。

谷歌介绍，VLOGGER 最突出的表现是具备多样性：

如下图所示，最后的像素图颜色越深（红）的部分，代表动作越丰富。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

而和业内此前的同类方法相比，VLOGGER 最大的优势则体现在不需要对每个人进行训练、也不依赖于面部检测和裁剪，并且生成的视频很完整（既包括面部和唇部，也包括肢体动作）等等。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

具体来看，如下表所示：

Face Reenactment 方法无法用音频和文本来控制此类视频生成。

Audio-to-motion 倒是可以音频生成，方式也是将音频编码为 3D 人脸动作，不过它生成的效果不够逼真。

Lip sync 可以处理不同主题的视频，但只能模拟嘴部动作。

对比起来，后面的两种方法 SadTaker 和 Styletalk 表现最接近谷歌 VLOGGER，但也败在了不能进行身体控制上，并且也不能进一步编辑视频。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

说到视频编辑，如下图所示，VLOGGER 模型的应用之一就是这个，它可以一键让人物闭嘴、闭眼、只闭左眼或者全程睁眼：

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

另一个应用则是视频翻译：

例如将原视频的英语讲话改成口型一致的西班牙语。

网友吐槽

最后，" 老规矩 "，谷歌没有发布模型，现在能看的只有更多效果还有论文。

嗯，吐槽也是不少的：

画质模型、口型抽风对不上、看起来还是很机器人等等。

因此，有人毫不犹豫打上差评：

这就是谷歌的水准吗？

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

有点对不起 "VLOGGER" 这个名字了。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

——和 OpenAI 的 Sora 对比，网友的说法确实也不是没有道理。。

大家觉得呢？

更多效果：

https://enriccorona.github.io/vlogger/

完整论文：

https://enriccorona.github.io/vlogger/paper.pdf

以上是谷歌发布' Vlogger ”模型：单张图片生成 10 秒视频的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

谷歌机器人翻译效果英语美图视频编辑

上一篇：华为连续三年登顶欧洲专利申请者排行超越三星和高通下一篇：澜舟坚持四两拨千斤：ToB 场景落地，10B 参数大模型足矣

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

LLM的工作方式：培训前训练，神经网络，幻觉和推理

2025-02-26 03:58:14
我将区块链和AI组合在一起以生成艺术。接下来发生了什么。

2025-02-26 03:38:10
高级及时工程：思想链（COT）

2025-02-26 03:17:10
在Sqlite中检索增强发电

2025-02-26 02:49:09
如何使用LLM驱动的样板构建自己的节点。JSAPI

2025-02-26 01:08:13
2024年编码的LLM：价格，性能和争取最佳的战斗

2025-02-26 00:46:10
提示视觉语言模型

2025-02-25 23:42:08
如何衡量大语模型的响应的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科学家对大型语言模型的认真反映了人类思维

2025-02-25 20:45:11

最新问题

MWC 新品前瞻：荣耀全面接入 DeepSeek '一句话的事”落地荣耀 AI PC

2025-03-12 14:12:02
显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

2025-03-12 13:03:01
vivo Y200 GT首发体验：轻薄机身下的续航「怪兽」

2024-09-04 07:30:03
这就是AI大模型时代词典笔该有的样子

2024-09-02 17:51:32
'骨气混动”才是骨传导耳机的终局？

2024-09-02 14:45:00

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1440300
php入门教程之一周学会PHP

4301686
JAVA 初级入门视频教程

2689372
小甲鱼零基础入门学习Python视频教程

518199
PHP 零基础入门教程

879985

最新下载

更多>

网站特效

网站源码

网站素材

前端模板