目录
方法介绍
实验结果
团队介绍
首页 科技周边 人工智能 时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

Jun 15, 2023 am 08:28 AM
视频 阿里巴巴

在 AI 绘画领域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引领了可控图像生成的理论发展。但是,业界在可控视频生成上的探索依旧处于相对空白的状态。

相比于图像生成,可控的视频更加复杂,因为除了视频内容的空间的可控性之外,还需要满足时间维度的可控性。基于此,阿里巴巴和蚂蚁集团的研究团队率先做出尝试并提出了 VideoComposer,即通过组合式生成范式同时实现视频在时间和空间两个维度上的可控性。

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

  • 论文地址:https://arxiv.org/abs/2306.02018
  • 项目主页:https://videocomposer.github.io

前段时间,阿里巴巴在魔搭社区和 Hugging Face 低调开源了文生视频大模型,意外地受到国内外开发者的广泛关注,该模型生成的视频甚至得到马斯克本尊的回应,模型在魔搭社区上连续多天获得单日上万次国际访问量。

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了


时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

Text-to-Video 在推特

VideoComposer 作为该研究团队的最新成果,又一次受到了国际社区的广泛关注。


时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了


时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了


时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

VideoComposer 在推特

事实上,可控性已经成为视觉内容创作的更高基准,其在定制化的图像生成方面取得了显着进步,但在视频生成领域仍然具有三大挑战:

  • 复杂的数据结构,生成的视频需同时满足时间维度上的动态变化的多样性和时空维度的内容一致性;
  • 复杂的引导条件,已存在的可控的视频生成需要复杂的条件是无法人为手动构建的。比如 Runway 提出的 Gen-1/2 需要依赖深度序列作条件,其能较好的实现视频间的结构迁移,但不能很好的解决可控性问题;
  • 缺乏运动可控性,运动模式是视频即复杂又抽象的属性,运动可控性是解决视频生成可控性的必要条件。

在此之前,阿里巴巴提出的 Composer 已经证明了组合性对图像生成可控性的提升具有极大的帮助,而 VideoComposer 这项研究同样是基于组合式生成范式,在解决以上三大挑战的同时提高视频生成的灵活性。具体是将视频分解成三种引导条件,即文本条件、空间条件、和视频特有的时序条件,然后基于此训练 Video LDM (Video Latent Diffusion Model)。特别地,其将高效的 Motion Vector 作为重要的显式的时序条件以学习视频的运动模式,并设计了一个简单有效的时空条件编码器 STC-encoder,保证条件驱动视频的时空连续性。在推理阶段,则可以随机组合不同的条件来控制视频内容。

实验结果表明,VideoComposer 能够灵活控制视频的时间和空间的模式,比如通过单张图、手绘图等生成特定的视频,甚至可以通过简单的手绘方向轻松控制目标的运动风格。该研究在 9 个不同的经典任务上直接测试 VideoComposer 的性能,均获得满意的结果,证明了 VideoComposer 通用性。

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

图 (a-c)VideoComposer 能够生成符合文本、空间和时间条件或其子集的视频;(d)VideoComposer 可以仅仅利用两笔画来生成满足梵高风格的视频,同时满足预期运动模式(红色笔画)和形状模式(白色笔画)

方法介绍

Video LDM

隐空间。Video LDM 首先引入预训练的编码器将输入的视频时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了映射到隐空间表达,其中

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

。然后,在用预先训练的解码器 D 将隐空间映射到像素空间上去时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了。在 VideoComposer 中,参数设置

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了


扩散模型。为了学习实际的视频内容分布

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

,扩散模型学习从正态分布噪声中逐步去噪来恢复真实的视觉内容,该过程实际上是在模拟可逆的长度为 T=1000 的马尔可夫链。为了在隐空间中进行可逆过程,Video LDM 将噪声注入到

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

中,得到噪声注入的隐变量

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

。然后其通过用去噪函数

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

作用在

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

和输入条件 c 上,那么其优化目标如下:

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

为了充分探索利用空间局部的归纳偏置和序列的时间归纳偏置进行去噪,VideoComposer 将

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

实例化为一个 3D UNet,同时使用时序卷积算子和交叉注意机制。

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

VideoComposer

组合条件。VideoComposer 将视频分解为三种不同类型的条件,即文本条件、空间条件和关键的时序条件,它们可以共同确定视频中的空间和时间模式。VideoComposer 是一个通用的组合式视频生成框架,因此,可以根据下游应用程序将更多的定制条件纳入 VideoComposer,不限于下述列出的条件:

  • 文本条件:文本 (Text) 描述以粗略的视觉内容和运动方面提供视频的直观指示,这也是常用的 T2V 常用的条件;


  • 空间条件:
  • 单张图 (Single Image),选择给定视频的第一帧作为空间条件来进行图像到视频的生成,以表达该视频的内容和结构;
  • 单张早图 (Single Sketch),使用 PiDiNet 提取第一个视频帧的草图作为第二个空间条件;
  • 风格(Style),为了进一步将单张图像的风格转移到合成的视频中,选择图像嵌入作为风格指导;


  • 时序条件:
  • 运动矢量(Motion Vector),运动矢量作为视频特有的元素表示为二维向量,即水平和垂直方向。它明确地编码了相邻两帧之间的逐像素移动。由于运动矢量的自然属性,将此条件视为时间平滑合成的运动控制信号,其从压缩视频中提取标准 MPEG-4 格式的运动矢量;
  • 深度序列(Depth Sequence),为了引入视频级别的深度信息,利用 PiDiNet 中的预训练模型提取视频帧的深度图;
  • 掩膜序列(Mask Sequence),引入管状掩膜来屏蔽局部时空内容,并强制模型根据可观察到的信息预测被屏蔽的区域;
  • 草图序列(Sketch Sequnce),与单个草图相比,草图序列可以提供更多的控制细节,从而实现精确的定制合成。

时空条件编码器。序列条件包含丰富而复杂的时空依赖关系,对可控的指示带来了较大挑战。为了增强输入条件的时序感知,该研究设计了一个时空条件编码器(STC-encoder)来纳入空时关系。具体而言,首先应用一个轻量级的空间结构,包括两个 2D 卷积和一个 avgPooling,用于提取局部空间信息,然后将得到的条件序列被输入到一个时序 Transformer 层进行时间建模。这样,STC-encoder 可以促进时间提示的显式嵌入,为多样化的输入提供统一的条件植入入口,从而增强帧间一致性。另外,该研究在时间维度上重复单个图像和单个草图的空间条件,以确保它们与时间条件的一致性,从而方便条件植入过程。

通过 STC-encoder 处理条件后,最终的条件序列具有与相同的空间形状,然后通过元素加法融合。最后,沿通道维度将合并后的条件序列与连接起来作为控制信号。对于文本和风格条件,利用交叉注意力机制注入文本和风格指导。

训练和推理

两阶段训练策略。虽然 VideoComposer 可以通过图像 LDM 的预训练进行初始化,其能够在一定程度上缓解训练难度,但模型难以同时具有时序动态感知的能力和多条件生成的能力,这个会增加训练组合视频生成的难度。因此,该研究采用了两阶段优化策略,第一阶段通过 T2V 训练的方法,让模型初步具有时序建模能力;第二阶段在通过组合式训练来优化 VideoComposer,以达到比较好的性能。

推理。在推理过程中,采用 DDIM 来提高推理效率。并采用无分类器指导来确保生成结果符合指定条件。生成过程可以形式化如下:

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

其中,ω 是指导比例;c1 和 c2 是两组条件。这种指导机制在两条件集合判断,可以通过强度控制来让模型具有更加灵活的控制。

实验结果

在实验探索中,该研究证明作为 VideoComposer 作为统一模型具有通用生成框架,并在 9 项经典任务上验证 VideoComposer 的能力。

该研究的部分结果如下,在静态图片到视频生成(图 4)、视频 Inpainting(图 5)、静态草图生成生视频(图 6)、手绘运动控制视频(图 8)、运动迁移(图 A12)均能体现可控视频生成的优势。

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了


时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

团队介绍

公开信息显示,阿里巴巴在视觉基础模型上的研究主要围绕视觉表征大模型、视觉生成式大模型及其下游应用的研究,并在相关领域已经发表 CCF-A 类论文 60 余篇以及在多项行业竞赛中获得 10 余项国际冠军,比如可控图像生成方法 Composer、图文预训练方法 RA-CLIP 和 RLEG、未裁剪长视频自监督学习 HiCo/HiCo++、说话人脸生成方法 LipFormer 等均出自该团队。

以上是时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

抖音发布他人视频侵权吗?它怎样剪辑视频不算侵权? 抖音发布他人视频侵权吗?它怎样剪辑视频不算侵权? Mar 21, 2024 pm 05:57 PM

随着短视频平台的兴起,抖音成为了大家日常生活中不可或缺的一部分。在抖音上,我们可以看到来自世界各地的有趣视频。有些人喜欢发布他人的视频,这就引发了一个问题:抖音发布他人视频侵权吗?本文将围绕这个问题展开讨论,告诉大家怎样剪辑视频不算侵权,以及如何避免侵权问题。一、抖音发布他人视频侵权吗?根据我国《著作权法》的规定,未经著作权人许可,擅自使用其作品,属于侵权行为。因此,在抖音上发布他人视频,如果未经原作者或著作权人许可,就属于侵权行为。二、怎样剪辑视频不算侵权?1.使用公共领域或已授权的内容:公共

从 iPhone 上的视频中删除慢动作的 2 种方法 从 iPhone 上的视频中删除慢动作的 2 种方法 Mar 04, 2024 am 10:46 AM

在iOS设备上,“相机”应用程序允许您拍摄慢动作视频,如果您使用的是最新款的iPhone,甚至可以以每秒240帧的速度录制视频。这种功能让您能够捕捉到丰富细节的高速动作。但有时候,您可能希望将慢动作视频以正常速度播放,这样可以更好地欣赏视频中的细节和动作。在这篇文章中,我们将解释从iPhone上的现有视频中删除慢动作的所有方法。如何从iPhone上的视频中删除慢动作[2种方法]您可以使用“照片”App或iMovie剪辑App从设备上的视频中删除慢动作。方法1:使用“照片”应用在iPhone上打开

抖音发布视频如何赚收益?新手小白怎么在抖音上赚钱啊? 抖音发布视频如何赚收益?新手小白怎么在抖音上赚钱啊? Mar 21, 2024 pm 08:17 PM

抖音,这个全民短视频平台,不仅让我们在闲暇时间享受到各种有趣、新奇的短视频,同时也给了我们一个展示自我、实现价值的舞台。那么,如何在抖音发布视频赚取收益呢?本文将详细解答这个问题,帮助你在抖音上赚取更多的收益。一、抖音发布视频如何赚收益?发布视频在抖音上获得一定的播放量后,可以有机会参与广告分成计划。这一收益方式是抖音用户最为熟悉的之一,也是许多创作者主要的收入来源。抖音根据账号权重、视频内容以及观众反馈等多种因素来决定是否提供广告分成的机会。抖音平台允许观众通过发送礼物来支持自己喜欢的创作者,

如何发布小红书视频作品?发视频要注意什么? 如何发布小红书视频作品?发视频要注意什么? Mar 23, 2024 pm 08:50 PM

随着短视频平台的兴起,小红书成为了许多人分享生活、表达自我、获取流量的平台。在这个平台上,发布视频作品是一种非常受欢迎的互动方式。那么,如何发布小红书视频作品呢?一、如何发布小红书视频作品?首先,确保准备好一段适合分享的视频内容。你可以利用手机或其他摄像设备进行拍摄,需要注意画质和声音的清晰度。2.剪辑视频:为了让作品更具吸引力,可以对视频进行剪辑。可以使用专业的视频剪辑软件,如抖音、快手等,添加滤镜、音乐、字幕等元素。3.选择封面:封面是吸引用户点击的关键,选择一张清晰、有趣的图片作为封面,让

阿里巴巴id在哪里看 阿里巴巴id在哪里看 Mar 08, 2024 pm 09:49 PM

在阿里巴巴软件中,一旦您成功注册一个账号,系统就会为您分配一个独特的ID,这个ID将作为您在平台上的身份标识。但是对于许多用户来说,他们会想要查询自己的ID,但是却不知道该如何操作。那么本站小编带来下文中,就将为大家带来详细的攻略步骤介绍,希望能帮助到大家!阿里巴巴id在哪里看答案:【阿里巴巴】-【我的】。1、首先打开阿里巴巴软件,进入到首页中后我们需要点击右下角的【我的】;2、然后来到我的页面中后我们在页面的上方就可以看到【id】了;阿里巴巴id和淘宝一样吗阿里巴巴id和淘宝id不一样,但是二

阿里巴巴杭州全球总部 5 月 10 日投入使用 阿里巴巴杭州全球总部 5 月 10 日投入使用 May 07, 2024 pm 02:43 PM

本站5月7日消息,5月10日,位于杭州未来科技城的阿里巴巴全球总部(西溪C区)将正式投入使用,同时阿里巴巴北京朝阳科技园也将启用。这标志着阿里巴巴公司在全球范围内的总部办公楼已达到四座。▲阿里巴巴全球总部(西溪C区)5月10日也是阿里巴巴第20个“阿里日”,每年的这一天,公司都会有庆祝活动,两座新园区将向阿里亲友、校友们开放。西溪C区是阿里目前最大的自有园区,能容纳3万人办公。▲阿里北京朝阳科技园阿里巴巴全球总部位于杭州未来科技城,文一西路以北、高教路以东,总建筑面积98.45万平方米,其中,地

微博发视频怎么不压缩画质_微博发视频不压缩画质方法 微博发视频怎么不压缩画质_微博发视频不压缩画质方法 Mar 30, 2024 pm 12:26 PM

1、首先打开手机微博,点击右下角【我】(如图所示)。2、接着点击右上角【齿轮】打开设置(如图所示)。3、然后找到并打开【通用设置】(如图所示)。4、随后进入【视频随着】选项(如图所示)。5、再打开【视频上传清晰度】设置(如图所示)。6、最后选择【原画质】就能不压缩了(如图所示)。

达摩院公布 2024 阿里巴巴全球数学竞赛决赛试题:五个赛道、8 月出成绩 达摩院公布 2024 阿里巴巴全球数学竞赛决赛试题:五个赛道、8 月出成绩 Jun 23, 2024 pm 06:36 PM

本站6月23日消息,本站从达摩院DAMO微信公众号获悉,北京时间6月22日24时,2024阿里巴巴全球数学竞赛决赛正式结束。本届决赛共有来自全球17个国家和地区的800多名选手入围。接下来将进入专家组独立阅卷阶段。阅卷包括初评、交叉复审、最终核验等流程。决赛的五个赛道将按成绩分别评出金奖1名、银奖2名、铜奖4名以及优秀奖10名。总共85人获奖选手名单将于8月公布。阿里达摩院还公布数学决赛题目,决赛分为五个赛道,分别为:1、代数与数论;2、几何与拓扑;3、分析与方程;4、组合与概率;5、应用与计算

See all articles