目录
实验
首页 科技周边 人工智能 生成视频如此简单,给句提示就行,还能在线试玩

生成视频如此简单,给句提示就行,还能在线试玩

May 20, 2023 pm 05:16 PM
视频 开发

你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。

近年来,生成式人工智能在计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。

最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展到文本到视频生成和编辑的任务。虽然这样的方法取得了可喜的成果,但大部分方法需要使用大量标记数据进行大量训练,这可能对许多用户来讲太过昂贵。

为了使视频生成更加廉价,Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一种机制,可以将 Stable Diffusion (SD) 模型应用到视频领域。只需要调整一个视频,从而让训练工作量大大减少。虽然这比以前的方法效率提升很多,但仍需要进行优化。此外,Tune-A-Video 的生成能力仅限于 text-guided 的视频编辑应用,而从头开始合成视频仍然超出了它的能力范围。

本文中,来自 Picsart AI Resarch (PAIR) 、得克萨斯大学奥斯汀分校等机构的研究者在 zero-shot 以及无需训练的情况下,在文本到视频合成的新问题方向上向前迈进了一步,即无需任何优化或微调的情况下根据文本提示生成视频。

生成视频如此简单,给句提示就行,还能在线试玩

  • 论文地址:https://arxiv.org/pdf/2303.13439.pdf
  • 项目地址:https://github.com/Picsart-AI-Research/Text2Video-Zero
  • 试用地址:https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我们看看效果如何。例如一只熊猫在冲浪;一只熊在时代广场上跳舞:

生成视频如此简单,给句提示就行,还能在线试玩

该研究还能根据目标生成动作:

生成视频如此简单,给句提示就行,还能在线试玩

此外,还能进行边缘检测:

生成视频如此简单,给句提示就行,还能在线试玩

本文提出的方法的一个关键概念是修改预训练的文本到图像模型(例如 Stable Diffusion),通过时间一致的生成来丰富它。通过建立在已经训练好的文本到图像模型的基础上,本文的方法利用它们出色的图像生成质量,增强了它们在视频领域的适用性,而无需进行额外的训练。

为了加强时间一致性,本文提出两个创新修改:(1)首先用运动信息丰富生成帧的潜在编码,以保持全局场景和背景时间一致;(2) 然后使用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份。实验表明,这些简单的修改可以生成高质量和时间一致的视频(如图 1 所示)。

生成视频如此简单,给句提示就行,还能在线试玩

尽管其他人的工作是在大规模视频数据上进行训练,但本文的方法实现了相似甚至有时更好的性能(如图 8、9 所示)。

生成视频如此简单,给句提示就行,还能在线试玩

生成视频如此简单,给句提示就行,还能在线试玩

本文的方法不仅限于文本到视频的合成,还适用于有条件的(见图 6、5)和专门的视频生成(见图 7),以及 instruction-guided 的视频编辑,可以称其为由 Instruct-Pix2Pix 驱动的 Video Instruct-Pix2Pix(见图 9)。

生成视频如此简单,给句提示就行,还能在线试玩

生成视频如此简单,给句提示就行,还能在线试玩

在这篇论文中,本文利用 Stable Diffusion (SD)的文本到图像合成能力来处理 zero-shot 情况下文本到视频的任务。针对视频生成而非图像生成的需求,SD 应专注于潜在代码序列的操作。朴素的方法是从标准高斯分布独立采样 m 个潜在代码,即

生成视频如此简单,给句提示就行,还能在线试玩

 N (0, I) ,并应用 DDIM 采样以获得相应的张量

生成视频如此简单,给句提示就行,还能在线试玩

,其中 k = 1,…,m,然后解码以获得生成的视频序列

生成视频如此简单,给句提示就行,还能在线试玩

生成视频如此简单,给句提示就行,还能在线试玩

。然而,如图 10 的第一行所示,这会导致完全随机的图像生成,仅共享

生成视频如此简单,给句提示就行,还能在线试玩

所描述的语义,而不具有物体外观或运动的一致性。

生成视频如此简单,给句提示就行,还能在线试玩

为了解决这个问题,本文建议采用以下两种方法:(i)在潜在编码

生成视频如此简单,给句提示就行,还能在线试玩

之间引入运动动态,以保持全局场景的时间一致性;(ii)使用跨帧注意力机制来保留前景对象的外观和身份。下面详细描述了本文使用的方法的每个组成部分,该方法的概述可以在图 2 中找到。

注意,为了简化符号,本文将整个潜在代码序列表示为:

生成视频如此简单,给句提示就行,还能在线试玩

实验

定性结果

Text2Video-Zero 的所有应用都表明它成功生成了视频,其中全局场景和背景具有时间一致性,前景对象的上下文、外观和身份在整个序列中得到了保持。

在文本转视频的情况下,可以观察到它生成与文本提示良好对齐的高质量视频(见图 3)。例如,绘制的熊猫可以自然地在街上行走。同样,使用额外的边缘或姿势指导 (见图 5、图 6 和图 7),生成了与 Prompt 和指导相匹配的高质量视频,显示出良好的时间一致性和身份保持。

生成视频如此简单,给句提示就行,还能在线试玩

在 Video Instruct-Pix2Pix(见图 1)的情况下,生成的视频相对于输入视频具有高保真,同时严格遵循指令。

与 Baseline 比较

本文将其方法与两个公开可用的 baseline 进行比较:CogVideo 和 Tune-A-Video。由于 CogVideo 是一种文本到视频的方法,本文在纯文本引导的视频合成场景中与它进行了比较;使用 Video Instruct-Pix2Pix 与 Tune-A-Video 进行比较。

为了进行定量对比,本文使用 CLIP 分数对模型评估,CLIP 分数表示视频文本对齐程度。通过随机获取 CogVideo 生成的 25 个视频,并根据本文的方法使用相同的提示合成相应的视频。本文的方法和 CogVideo 的 CLIP 分数分别为 31.19 和 29.63。因此,本文的方法略优于 CogVideo,尽管后者有 94 亿个参数并且需要对视频进行大规模训练。

图 8 展示了本文提出的方法的几个结果,并提供了与 CogVideo 的定性比较。这两种方法在整个序列中都显示出良好的时间一致性,保留了对象的身份以及背景。本文的方法显示出更好的文本 - 视频对齐能力。例如,本文的方法在图 8 (b) 中正确生成了一个人在阳光下骑自行车的视频,而 CogVideo 将背景设置为月光。同样在图 8 (a) 中,本文的方法正确地显示了一个人在雪地里奔跑,而 CogVideo 生成的视频中雪地和奔跑的人是看不清楚的。

Video Instruct-Pix2Pix 的定性结果以及与 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在视觉上的比较如图 9 所示。虽然 Instruct-Pix2Pix 每帧显示出良好的编辑性能,但它缺乏时间一致性。这在描绘滑雪者的视频中尤其明显,视频中的雪和天空使用不同的样式和颜色绘制。使用 Video Instruct-Pix2Pix 方法解决了这些问题,从而在整个序列中实现了时间上一致的视频编辑。

虽然 Tune-A-Video 创建了时间一致的视频生成,但与本文的方法相比,它与指令指导的一致性较差,难以创建本地编辑,并丢失了输入序列的细节。当看到图 9 左侧中描绘的舞者视频的编辑时,这一点变得显而易见。与 Tune-A-Video 相比,本文的方法将整件衣服画得更亮,同时更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video 绘制了一堵经过严重变形的墙。此外,本文的方法更忠实于输入细节,例如,与 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿势绘制舞者(图 9 左),并显示输入视频中出现的所有滑雪人员(如图 9 右侧的最后一帧所示)。Tune-A-Video 的所有上述弱点也可以在图 23、24 中观察到。

生成视频如此简单,给句提示就行,还能在线试玩

生成视频如此简单,给句提示就行,还能在线试玩

以上是生成视频如此简单,给句提示就行,还能在线试玩的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

抖音发布他人视频侵权吗?它怎样剪辑视频不算侵权? 抖音发布他人视频侵权吗?它怎样剪辑视频不算侵权? Mar 21, 2024 pm 05:57 PM

随着短视频平台的兴起,抖音成为了大家日常生活中不可或缺的一部分。在抖音上,我们可以看到来自世界各地的有趣视频。有些人喜欢发布他人的视频,这就引发了一个问题:抖音发布他人视频侵权吗?本文将围绕这个问题展开讨论,告诉大家怎样剪辑视频不算侵权,以及如何避免侵权问题。一、抖音发布他人视频侵权吗?根据我国《著作权法》的规定,未经著作权人许可,擅自使用其作品,属于侵权行为。因此,在抖音上发布他人视频,如果未经原作者或著作权人许可,就属于侵权行为。二、怎样剪辑视频不算侵权?1.使用公共领域或已授权的内容:公共

抖音发布视频如何赚收益?新手小白怎么在抖音上赚钱啊? 抖音发布视频如何赚收益?新手小白怎么在抖音上赚钱啊? Mar 21, 2024 pm 08:17 PM

抖音,这个全民短视频平台,不仅让我们在闲暇时间享受到各种有趣、新奇的短视频,同时也给了我们一个展示自我、实现价值的舞台。那么,如何在抖音发布视频赚取收益呢?本文将详细解答这个问题,帮助你在抖音上赚取更多的收益。一、抖音发布视频如何赚收益?发布视频在抖音上获得一定的播放量后,可以有机会参与广告分成计划。这一收益方式是抖音用户最为熟悉的之一,也是许多创作者主要的收入来源。抖音根据账号权重、视频内容以及观众反馈等多种因素来决定是否提供广告分成的机会。抖音平台允许观众通过发送礼物来支持自己喜欢的创作者,

四款值得推荐的AI辅助编程工具 四款值得推荐的AI辅助编程工具 Apr 22, 2024 pm 05:34 PM

这个AI辅助编程工具在这个AI迅速发展的阶段,挖掘出了一大批好用的AI辅助编程工具。AI辅助编程工具能够提高开发效率、改善代码质量、降低bug率,是现代软件开发过程中的重要助手。今天大姚给大家分享4款AI辅助编程工具(并且都支持C#语言),希望对大家有所帮助。https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot是一款AI编码助手,可帮助你更快、更省力地编写代码,从而将更多精力集中在问题解决和协作上。Git

如何发布小红书视频作品?发视频要注意什么? 如何发布小红书视频作品?发视频要注意什么? Mar 23, 2024 pm 08:50 PM

随着短视频平台的兴起,小红书成为了许多人分享生活、表达自我、获取流量的平台。在这个平台上,发布视频作品是一种非常受欢迎的互动方式。那么,如何发布小红书视频作品呢?一、如何发布小红书视频作品?首先,确保准备好一段适合分享的视频内容。你可以利用手机或其他摄像设备进行拍摄,需要注意画质和声音的清晰度。2.剪辑视频:为了让作品更具吸引力,可以对视频进行剪辑。可以使用专业的视频剪辑软件,如抖音、快手等,添加滤镜、音乐、字幕等元素。3.选择封面:封面是吸引用户点击的关键,选择一张清晰、有趣的图片作为封面,让

微博发视频怎么不压缩画质_微博发视频不压缩画质方法 微博发视频怎么不压缩画质_微博发视频不压缩画质方法 Mar 30, 2024 pm 12:26 PM

1、首先打开手机微博,点击右下角【我】(如图所示)。2、接着点击右上角【齿轮】打开设置(如图所示)。3、然后找到并打开【通用设置】(如图所示)。4、随后进入【视频随着】选项(如图所示)。5、再打开【视频上传清晰度】设置(如图所示)。6、最后选择【原画质】就能不压缩了(如图所示)。

AI程序员哪家强?探索Devin、通义灵码和SWE-agent的潜力 AI程序员哪家强?探索Devin、通义灵码和SWE-agent的潜力 Apr 07, 2024 am 09:10 AM

2022年3月3日,距世界首个AI程序员Devin诞生不足一个月,普林斯顿大学的NLP团队开发了一个开源AI程序员SWE-agent。它利用GPT-4模型在GitHub存储库中自动解决问题。SWE-agent在SWE-bench测试集上的表现与Devin相似,平均耗时93秒,解决了12.29%的问题。SWE-agent通过与专用终端交互,可以打开、搜索文件内容,使用自动语法检查、编辑特定行,以及编写和执行测试。(注:以上内容为原内容微调,但保留了原文中的关键信息,未超过指定字数限制。)SWE-A

分享edge浏览器网页视频没有声音的两种解决办法 分享edge浏览器网页视频没有声音的两种解决办法 Mar 14, 2024 pm 02:22 PM

  很多用户都喜欢在浏览器上看视频,如果在edge浏览器上看网页视频发现没有声音,要如何解决?这个问题并不是很难,接下来就让小编告诉大家如何修复edge浏览器网页视频没有声音问题的办法。  edge浏览器网页视频没有声音?  方法一:  1、首先,查看edge浏览器顶部标签页。  2、在标签页左边有一个“声音按钮”,确认它没有静音。  方法二:  1、如果确认没有静音,那么可能是声音设置问题。  2、可以右键右下角的声音设备,选择“打开音量合成器”  3、打

抖音15秒太短想延长怎么延长?15秒以上视频怎么弄? 抖音15秒太短想延长怎么延长?15秒以上视频怎么弄? Mar 22, 2024 pm 08:11 PM

随着抖音的火爆,越来越多的人喜欢在这个平台上分享自己的生活、才艺和创意。抖音的15秒时长限制让许多用户觉得不够过瘾,希望能够延长视频时长。那么,如何才能在抖音上实现视频时长的延长呢?一、抖音15秒太短想延长怎么延长?1.拍摄多个视频拼接最便捷的方式是录制多个15秒的视频,接着利用抖音的编辑功能将它们组合在一起。在录制时,确保每段视频的开头和结尾都留有一些空白,以便后续拼接。拼接后的视频时长可以达到几分钟,但这可能会导致视频画面切换过于频繁,影响观看体验。2.利用抖音特效和贴纸抖音提供了一系列特效

See all articles