首页 科技周边 人工智能 14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

Dec 27, 2023 pm 06:35 PM
工程 fairy

Meta的视频合成新框架给我们带来了一些惊喜


就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。

生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。

基于图像的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「时间维度」,从而实现轻松而富有创意的视频编辑。

一种直接策略是使用图像模型逐帧处理视频,然而,生成式图像编辑本身就具有高变异性—即使根据相同的文本提示,也存在无数种编辑给定图像的方法。如果每一帧都独立编辑,很难保持时间上的一致性。

在最近的一篇论文中,来自Meta GenAI团队的研究者提出了 Fairy——通过对图像编辑扩散模型进行「简单的改编」,大大增强了AI在视频编辑上的表现。

以下是Fairy的编辑视频效果展示:

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

Fairy 生成 120 帧 512×384 视频(4 秒时长,30 FPS)的时间仅为 14 秒,比之前的方法至少快 44 倍。一项涉及 1000 个生成样本的全面用户研究证实,该方法生成质量上乘,明显优于现有方法。

怎么做到的?

据论文介绍,Fairy以基于锚点的跨帧注意力概念为核心,这种机制可隐性地跨帧传播扩散特征,确保了时间一致和高保真的合成效果。Fairy 不仅解决了以往模型在内存和处理速度等方面的局限性,还通过独特的数据增强策略提高了时间一致性,这种策略使模型等价于源图像和目标图像的仿射变换。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

  • 论文地址:https://arxiv.org/pdf/2312.13834.pdf
  • 项目主页:https://fairy-video2video.github.io/

方法

Fairy在扩散模型特征的背景下对以前的跟踪-传播(tracking-and-propagation)范式进行了重新审视。特别是,该研究用对应估计( correspondence estimation)架起了跨帧注意之间的桥梁,使得模型在扩散模型内可以跟踪和传播中间特征。

跨帧的注意力图可以解释为一种相似性度量,用来评估各个帧中token之间的对应关系,其中一个语义区域的特征会将更高的注意力分配给其他帧中的相似语义区域,如下图3所示 。

因此,当前的特征表示通过注意力帧间相似区域的加权和进行细化和传播,从而有效地最小化帧之间的特征差异。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

一系列操作下来产生了基于锚点的模型,这是 Fairy 的核心组件。

为了确保生成视频的时间一致性,该研究采样了K个锚点帧,从而提取扩散特征,并且提取的特征被定义为一组要传播到连续帧的全局特征。当生成每个新帧时,该研究针对锚点帧的缓存特征将自注意力层替换为跨帧注意力。通过跨帧注意力,每个帧中的 token都采用锚点帧中表现出类似语义内容的特征,从而增强一致性。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

实验评估

在实验部分,研究者主要基于指令型图像编辑模型来实现Fairy,并使用跨帧注意力替换模型的自注意力。他们将锚帧的数量设置为3。模型可以接受不同长宽比的输入,并将较长尺寸的输入分辨率重新扩展为512,并保持长宽比不变。研究者对输入视频的所有帧进行编辑,而不进行下采样。所有计算在8块A100 GPU上分配完成。

定性评估

研究者首先展示了Fairy的定性结果,如下图5所示,Fairy可以对不同的主题进行编辑。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

在下图6中,研究者展示了Fairy可以按照文本指令来进行不同类型的编辑,包括风格化、角色变化、局部编辑、属性编辑等。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

下图9展示了Fairy可以根据指令将源角色转换为不同的目标角色。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

定量评估

研究者在下图7中展示了整体质量比较结果,其中Fairy生成的视频更受欢迎。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

下图10展示了与基线模型的视觉比较结果。

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

更多技术细节和实验结果参阅原论文。

以上是14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1662
14
CakePHP 教程
1419
52
Laravel 教程
1313
25
PHP教程
1262
29
C# 教程
1235
24
ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

LLM用于时序预测真的不行,连推理能力都没用到 LLM用于时序预测真的不行,连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

See all articles