目录
多样性
视频翻译
首页 科技周边 人工智能 一张图即出AI视频!谷歌全新扩散模型,让人物动起来

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

Mar 28, 2024 pm 03:40 PM
数据 训练 视频编辑

只需一张照片,和一段音频,就能直接生成人物说话的视频!

近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

论文地址:https://enriccorona.github.io/vlogger/paper.pdf

Vlogger可以收集单个输入图像,使用文本或者音频驱动,生成人类语音的视频,包括口型、表情、肢体动作等都非常自然。

我们先来看几个例子:

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

如果感觉视频使用别人的声音有点违和,小编帮你关掉声音:

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

可以看出整个生成的效果是非常优雅自然的。

VLOGGER建立在最近生成扩散模型的成功之上,包括一个将人类转成3D运动的模型,以及一个基于扩散的新架构,用于通过时间和空间控制,增强文本生成图像的效果。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

VLOGGER可以生成可变长度的高质量视频,并且这些视频可以通过人脸和身体的高级表示轻松控制。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

比如我们可以让生成视频中的人闭上嘴:

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

或者闭上双眼:

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

与之前的同类模型相比,VLOGGER不需要针对个体进行训练,不依赖于面部检测和裁剪,而且包含了肢体动作、躯干和背景,——构成了可以交流的正常的人类表现。

AI的声音、AI的表情、AI的动作、AI的场景,人类开始的价值是提供数据,再往后可能就没什么价值了?

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

在数据方面,研究人员收集了一个新的、多样化的数据集MENTOR,比之前的同类数据集大了整整一个数量级,其中训练集包括2200小时、800000个不同个体,测试集为120小时、4000个不同身份的人。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

研究人员在三个不同的基准上评估了VLOGGER,表明模型在图像质量、身份保存和时间一致性方面达到了目前的最优。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

VLOGGER

VLOGGER的目标是生成一个可变长度的逼真视频,来描绘目标人说话的整个过程,包括头部动作和手势。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

如上图所示,给定第1列所示的单个输入图像和一个示例音频输入,右列中展示了一系列合成图像。

包括生成头部运动、凝视、眨眼、嘴唇运动,还有以前模型做不到的一点,生成上半身和手势,这是音频驱动合成的一大进步。

VLOGGER采用了基于随机扩散模型的两阶段管道,用于模拟从语音到视频的一对多映射。

第一个网络将音频波形作为输入,以生成身体运动控制,负责目标视频长度上的凝视、面部表情和姿势。

第二个网络是一个包含时间的图像到图像的平移模型,它扩展了大型图像扩散模型,采用预测的身体控制来生成相应的帧。为了使这个过程符合特定身份,网络获取了目标人的参考图像。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

VLOGGER使用基于统计的3D身体模型,来调节视频生成过程。给定输入图像,预测的形状参数对目标标识的几何属性进行编码。

首先,网络M获取输入语音,并生成一系列N帧的3D面部表情和身体姿势。

然后渲染移动3D身体的密集表示,以在视频生成阶段充当2D控件。这些图像与输入图像一起作为时间扩散模型和超分辨率模块的输入。

音频驱动的运动生成

管道的第一个网络旨在根据输入语音预测运动。此外还通过文本转语音模型将输入文本转换为波形,并将生成的音频表示为标准梅尔频谱图(Mel-Spectrograms)。

管道基于Transformer架构,在时间维度上有四个多头注意力层。包括帧数和扩散步长的位置编码,以及用于输入音频和扩散步骤的嵌入MLP。

在每一帧中,使用因果掩码使模型只关注前一帧。模型使用可变长度的视频进行训练(比如TalkingHead-1KH数据集),以生成非常长的序列。

研究人员采用基于统计的3D人体模型的估计参数,来为合成视频生成中间控制表示。

模型同时考虑了面部表情和身体运动,以生成更好的表现力和动态的手势。

此外,以前的面部生成工作通常依赖于扭曲(warped)的图像,但在基于扩散的架构中,这个方法被忽视了。

作者建议使用扭曲的图像来指导生成过程,这促进了网络的任务并有助于保持人物的主体身份。

生成会说话和移动的人类

下一个目标是对一个人的输入图像进行动作处理,使其遵循先前预测的身体和面部运动。

受ControlNet的启发,研究人员冻结了初始训练的模型,并采用输入时间控件,制作了编码层的零初始化可训练副本。

作者在时间域中交错一维卷积层,网络通过获取连续的N帧和控件进行训练,并根据输入控件生成参考人物的动作视频。

模型使用作者构建的MENTOR数据集进行训练,因为在训练过程中,网络会获取一系列连续的帧和任意的参考图像,因此理论上可以将任何视频帧指定为参考。

不过在实践中,作者选择采样离目标剪辑更远的参考,因为较近的示例提供的泛化潜力较小。

网络分两个阶段进行训练,首先在单帧上学习新的控制层,然后通过添加时间分量对视频进行训练。这样就可以在第一阶段使用大批量,并更快地学习头部重演任务。

作者采用的learning rate为5e-5,两个阶段都以400k的步长和128的批量大小训练图像模型。

多样性

下图展示了从一个输入图片生成目标视频的多样化分布。最右边一列显示了从80个生成的视频中获得的像素多样性。

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

在背景保持固定的情况下,人的头部和身体显着移动(红色意味着像素颜色的多样性更高),并且,尽管存在多样性,但所有视频看起来都很逼真。

视频编辑

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

模型的应用之一是编辑现有视频。在这种情况下,VLOGGER会拍摄视频,并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。

在实践中,作者利用扩散模型的灵活性,对应该更改的图像部分进行修复,使视频编辑与原始未更改的像素保持一致。

视频翻译

模型的主要应用之一是视频翻译。在这种情况下,VLOGGER会以特定语言拍摄现有视频,并编辑嘴唇和面部区域以与新音频(例如西班牙语)保持一致。

以上是一张图即出AI视频!谷歌全新扩散模型,让人物动起来的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何用OPPO手机录制屏幕视频(简单操作) 如何用OPPO手机录制屏幕视频(简单操作) May 07, 2024 pm 06:22 PM

游戏技巧或是进行教学演示,在日常生活中,我们经常需要用手机录制屏幕视频来展示一些操作步骤。其录制屏幕视频的功能也非常出色,而OPPO手机作为一款功能强大的智能手机。让您轻松快速地完成录制任务、本文将详细介绍如何使用OPPO手机来录制屏幕视频。准备工作——确定录制目标您需要明确自己的录制目标、在开始之前。是要录制一个操作步骤的演示视频?还是要录制一个游戏的精彩瞬间?或者是要录制一段教学视频?才能更好地安排录制过程、只有明确目标。打开OPPO手机的录屏功能在快捷面板中找到、录屏功能位于快捷面板中,在

电脑cpu四核和八核的区别? 电脑cpu四核和八核的区别? May 06, 2024 am 09:46 AM

电脑cpu四核和八核的区别?区别在于处理速度和性能。四核CPU相当于有四个处理器核心,而八核CPU则有八个核心。这意味着,前者可以同时进行四项任务,后者则可以同时进行八项任务。因此,用于处理大量数据或运行多个程序时,八核CPU比四核CPU更快。同时,八核CPU也更适合进行多媒体工作,如视频编辑或游戏,因为这些任务需要更高的处理速度和更好的图形处理能力。但是,八核CPU的成本也更高,因此根据实际需求和预算选择适合的CPU是非常重要的。电脑CPU是双核好还是四核好?是双核好还是四核好取决于您的使用需

骁龙8gen3和第三代骁龙8s哪个好 骁龙8gen3和第三代骁龙8s哪个好 May 05, 2024 am 01:24 AM

骁龙8 Gen 3在综合性能上更胜一筹,骁龙8s Gen 3则在功耗、发热和连接性方面更具优势。两者均支持高分辨率摄像头、先进图像处理功能和强大的AI引擎。骁龙8 Gen 3搭载X70调制解调器,而骁龙8s Gen 3搭载X65调制解调器。

Adobe After Effects cs6(Ae cs6)怎么切换语言 Ae cs6中英文切换的详细步骤-ZOL下载 Adobe After Effects cs6(Ae cs6)怎么切换语言 Ae cs6中英文切换的详细步骤-ZOL下载 May 09, 2024 pm 02:00 PM

1、首先找到AMTLanguages这个文件夹。我们发现了在AMTLanguages文件夹中的一些文档。如果你安装的是简体中文,会有一个zh_CN.txt的文本文档(文本内容为:zh_CN)。如果你安装的是英文,会有一个en_US.txt的文本文档(文本内容为:en_US)。3、所以,如果我们要切换到中文,我们要在AdobeAfterEffectsCCSupportFilesAMTLanguages路径下,新建zh_CN.txt的文本文档(文本内容是:zh_CN)。4、相反如果我们要切换到英文,

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

骁龙8gen3和骁龙8sgen3哪个好 骁龙8gen3和骁龙8sgen3哪个好 May 05, 2024 am 01:39 AM

对于大多数用户而言,骁龙 8 Gen 3 更胜一筹,因为它具备更强的性能,包括更高的单核和多核性能。它还支持更多高级功能,如更快的内存和存储,更强大的 GPU,以及先进的 AI 引擎,同时在电池续航方面也更出色。

See all articles