一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制-人工智能-PHP中文网

GAIA 有什么创新点？

GAIA 效果怎么样？

首页

科技周边

人工智能

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

王林

Dec 03, 2023 am 11:17 AM

微软模型

最近，微软进行的一项研究揭示了视频处理软件PS的灵活程度有多高

在这项研究中，你只要给 AI 一张照片，它就能生成照片中人物的视频，而且人物的表情、动作都是可以通过文字进行控制的。比如，如果你给的指令是「张嘴」，视频中的人物就会真的张开嘴。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

如果你给的指令是「伤心」，她就会做出伤心的表情和头部动作。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

当给出指令「惊讶」，虚拟人物的抬头纹都挤到一起了。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

除此之外，您还可以提供一段语音，使虚拟角色的嘴型和动作与语音同步。或者，您可以提供一段真人视频供虚拟角色模仿

如果你对虚拟人物的动作有更多的自定义编辑需求，例如让他们点头、转头或歪头，这项技术也是支持的

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

这项研究名叫 GAIA（Generative AI for Avatar，用于虚拟形象的生成式 AI），其 demo 已经开始在社交媒体传播。不少人对其效果表示赞叹，并希望用它来「复活」逝者。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

但也有人担心，这些技术的持续进化会让网络视频变得更加真假难辨，或者被不法分子用于诈骗。看来，反诈手段要继续升级了。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

GAIA 有什么创新点？

零样本会说话的虚拟人物生成技术旨在根据语音合成自然视频，确保生成的嘴型、表情和头部姿势与语音内容一致。以往的研究通常需要针对每个虚拟人物进行特定训练或调整特定模型，或在推理过程中利用模板视频以实现高质量的结果。最近，研究人员致力于设计和改进零样本会说话的虚拟人物的生成方法，只需使用一张目标虚拟人物的肖像图片作为外貌参考即可。不过，这些方法通常采用基于warping的运动表示、3D Morphable Model（3DMM）等领域先验来降低任务难度。这类启发式方法虽然有效，但可能会限制多样性，导致不自然的结果。因此，从数据分布中直接学习是未来研究的重点

本文中，来自微软的研究者提出了 GAIA（Generative AI for Avatar），其能够从语音和单张肖像图片合成自然的会说话的虚拟人物视频，在生成过程中消除了领域先验。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

项目地址：https://microsoft.github.io/GAIA/可以在此链接上找到相关项目的详细信息

论文链接: https://arxiv.org/pdf/2311.15230.pdf

盖亚揭示了两个关键洞见：

用语音来驱动虚拟人物运动，而虚拟人物的背景和外貌（appearance）在整个视频中保持不变。受此启发，本文将每一帧的运动和外貌分开，其中外貌在帧之间共享，而运动对每一帧都是唯一的。为了根据语音预测运动，本文将运动序列编码为运动潜在序列，并使用以输入语音为条件的扩散模型来预测潜在序列；
当一个人在说出给定的内容时，表情和头部姿态存在巨大的多样性，这需要一个大规模和多样化的数据集。因此，该研究收集了一个高质量的能说话的虚拟人物数据集，该数据集由 16K 个不同年龄、性别、皮肤类型和说话风格的独特说话者组成，使生成结果自然且多样化。

根据上述两个洞见，本文提出了 GAIA 框架，其由变分自编码器 (VAE)（橙色模块）和扩散模型（蓝色和绿色模块）组成。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

VAE的主要功能是分解运动和外貌。它由两个编码器（运动编码器和外貌编码器）和一个解码器组成。在训练时，运动编码器的输入为面部关键点（landmarks）的当前帧，而外貌编码器的输入为当前视频剪辑中的随机采样帧

根据这两个编码器的输出，随后优化解码器以重建当前帧。一旦获得训练完成的VAE，就会得到所有训练数据的潜在动作（即运动编码器的输出）

然后，这篇文章使用扩散模型训练，以预测基于语音和视频剪辑中随机采样帧的运动潜在序列，从而为生成过程提供外貌信息

在推理过程中，给定目标虚拟人物的参考肖像图像，扩散模型将图像和输入语音序列作为条件，生成符合语音内容的运动潜在序列。然后，生成的运动潜在序列和参考肖像图像经过 VAE 解码器合成说话视频输出。

该研究在数据方面进行了构建，从不同的来源收集了数据集，包括 High-Definition Talking Face Dataset (HDTF) 和 Casual Conversation datasets v1&v2 (CC v1&v2)。除了这三个数据集之外，研究还收集了一个大规模的内部说话虚拟人物数据集，其中包含 7K 小时的视频和 8K 说话者 ID。数据集的统计概述如表 1 所示

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

为了学习到所需的信息，文章提出了几种自动过滤策略以确保训练数据的质量：

为了使嘴唇运动可见，头像的正面方向应朝向相机；
为了保证稳定性，视频中的面部动作要流畅，不能出现快速晃动；
为了过滤掉嘴唇动作和言语不一致的极端情况，应该删除头像戴口罩或保持沉默的帧。

本文在过滤后的数据上训练 VAE 和扩散模型。从实验结果来看，本文得到了三个关键结论：

GAIA 能够进行零样本说话虚拟人物生成，在自然度、多样性、口型同步质量和视觉质量方面具有优越的性能。根据研究者的主观评价，GAIA 显着超越了所有基线方法；
训练模型的大小从 150M 到 2B 不等，结果表明，GAIA 具有可扩展性，因为较大的模型会产生更好的结果；
GAIA 是一个通用且灵活的框架，可实现不同的应用，包括可控的说话虚拟人物生成和文本 - 指令虚拟人物生成。

GAIA 效果怎么样？

实验过程中，该研究将 GAIA 与三个强大的基线进行比较，包括 FOMM、HeadGAN 和 Face-vid2vid。结果如表 2 所示：GAIA 中的 VAE 比以前的视频驱动基线实现了持续的改进，这说明 GAIA 成功地分解了外貌和运动表示。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

语音驱动结果。用语音驱动说话虚拟人物生成是通过从语音预测运动实现的。表 3 和图 2 提供了 GAIA 与 MakeItTalk、Audio2Head 和 SadTalker 方法的定量和定性比较。

从数据中可以清楚地看出，GAIA 在主观评价方面远远超过了所有基准方法。更具体地说，如图 2 所示，即使参考图像是闭眼或头部姿态不寻常，基准方法的生成结果通常高度依赖于参考图像；相比之下，GAIA 对各种参考图像都表现出鲁棒性，并生成具有更高自然度、口型高度同步、视觉质量更好以及运动多样性的结果

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

根据表3，最佳的MSI分数表明GAIA生成的视频具有出色的运动稳定性。Sync-D得分为8.528，接近真实视频得分（8.548），表明生成的视频具有出色的唇形同步性。该研究获得了与基线相当的FID分数，这可能是受到了不同头部姿态的影响，因为该研究发现未经扩散训练的模型在表中实现了更好的FID分数，详见表6

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

以上是一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7554

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

微软发布 Win11 八月累积更新：提高安全、优化锁屏等 Aug 14, 2024 am 10:39 AM

本站8月14日消息，在今天的8月补丁星期二活动日中，微软发布了适用于Windows11系统的累积更新，包括面向22H2和23H2的KB5041585更新，面向21H2的KB5041592更新。上述设备安装8月累积更新之后，本站附上版本号变化如下：21H2设备安装后版本号升至Build22000.314722H2设备安装后版本号升至Build22621.403723H2设备安装后版本号升至Build22631.4037面向Windows1121H2的KB5041585更新主要内容如下：改进：提高了

微软全屏弹窗催促：Windows 10用户抓紧时间升级到Windows 11 Jun 06, 2024 am 11:35 AM

6月3日消息，微软正在积极向所有Windows10用户发送全屏通知，鼓励他们升级到Windows11操作系统。这一举措涉及了那些硬件配置并不支持新系统的设备。自2015年起，Windows10已经占据了近70%的市场份额，稳坐Windows操作系统的霸主地位。然而，市场占有率远超过82%的市场份额，占有率远超过2021年面世的Windows11。尽管Windows11已经推出已近三年，但其市场渗透率仍显缓慢。微软已宣布，将于2025年10月14日后终止对Windows10的技术支持，以便更专注于

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型 Jun 01, 2024 pm 04:41 PM

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐LLM方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管RLHF方法的结果很出色，但其中涉及到了一些优化难题。其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。近段时间已有一些研究者探索了更简单的离线算法，其中之一便是直接偏好优化（DPO）。DPO是通过参数化RLHF中的奖励函数来直接根据偏好数据学习策略模型，这样就无需显示式的奖励模型了。该方法简单稳定

无需OpenAI数据，跻身代码大模型榜单！UIUC发布StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

在软件技术的前沿，UIUC张令明组携手BigCode组织的研究者，近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显着突破，成功超越CodeLlama-70B-Instruct，登上代码生成性能榜单之巅。 StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略，整个训练流程公开透明，且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令，响应对StarCoder-15B基座模型进行微调，无需依赖昂贵的人工标注数

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新） May 09, 2024 pm 04:55 PM

写在前面&笔者的个人理解这篇论文致力于解决当前多模态大语言模型（MLLMs）在自动驾驶应用中存在的关键挑战，即将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆（AVs）需要针对3D环境做出准确的决策，这一扩展显得尤为重要。3D空间理解对于AV来说至关重要，因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。当前的多模态大语言模型（如LLaVA-1.5）通常仅能处理较低分辨率的图像输入（例如），这是由于视觉编码器的分辨率限制，LLM序列长度的限制。然而，自动驾驶应用需

See all articles

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

GAIA 有什么创新点？

GAIA 效果怎么样？

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题