加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样-人工智能-PHP中文网

论文细节

方法

实验

首页

科技周边

人工智能

加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

PHPz

Apr 12, 2023 pm 11:46 PM

图像特殊技能

相信很多人已经领会过生成式 AI 技术的魅力，特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图像生成技术一度风靡全球，无数用户涌入，借助 AI 之笔表达自己的艺术想象……

相比于图像编辑，视频编辑是一个更具有挑战性的议题，它需要合成新的动作，而不仅仅是修改视觉外观，此外还需要保持时间上的一致性。

在这条赛道上探索的公司也不少。前段时间，谷歌发布的 Dreamix 以将文本条件视频扩散模型（video diffusion model, VDM）应用于视频编辑。

近日，曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」，该模型通过应用文本 prompt 或参考图像指定的任何风格，可将现有视频转化为新视频。

论文链接：https://arxiv.org/pdf/2302.03011.pdf

项目主页：https://research.runwayml.com/gen1

2021 年，Runway 与慕尼黑大学的研究人员合作，建立了 Stable Diffusion 的第一个版本。随后英国的一家初创公司 Stability AI 介入，资助了在更多数据上训练模型所需的计算费用。2022 年，Stability AI 将 Stable Diffusion 纳入主流，将其从一个研究项目转变为一个全球现象。

Runway 表示，希望 Gen-1 能像 Stable Diffusion 在图像上所做的那样为视频服务。

「我们已经看到图像生成模型的大爆炸，」Runway 首席执行官兼联合创始人 Cristóbal Valenzuela 说。「我真的相信，2023 年将是视频之年。」

具体来说，Gen-1 支持几种编辑模式：

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt，将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果，释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中，展示了 Gen-1 如何丝滑地更改视频风格，来看几个示例。

比如将「街道上的人」变成「粘土木偶」，只需要一行 prompt：

或者将「堆放在桌上的书」变成「夜晚的城市景观」：

从「雪地上的奔跑」到「月球漫步」：

年轻女孩，竟然秒变古代先哲：

论文细节

视觉特效和视频编辑在当代媒体领域无处不在。随着以视频为中心的平台的普及，对更直观、性能更强的视频编辑工具的需求也在增加。然而，由于视频数据的时间性，在这种格式下的编辑仍然是复杂和耗时的。最先进的机器学习模型在改善编辑过程方面显示出了巨大的前景，但很多方法不得不在时间一致性和空间细节之间取得平衡。

由于引入了在大规模数据集上训练的扩散模型，用于图像合成的生成方法最近在质量和受欢迎程度上经历了一个快速增长阶段。一些文本条件模型，如 DALL-E 2 和 Stable Diffusion，使新手只需输入一个文本 prompt 就能生成详细的图像。潜在扩散模型提供了有效的方法，通过在感知压缩的空间中进行合成来生成图像。

在本论文中，研究者提出了一个可控的结构和内容感知的视频扩散模型，该模型是在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练的。研究者选择用单目深度估计来表征结构，用预训练的神经网络预测的嵌入来表征内容。

该方法在其生成过程中提供了几种强大的控制模式：首先，与图像合成模型类似，研究者训练模型使推断出的视频内容，如其外观或风格，与用户提供的图像或文本 prompt 相匹配（图 1）。其次，受扩散过程的启发，研究者对结构表征应用了一个信息掩蔽过程，以便能够选择模型对给定结构的支持程度。最后，研究者通过一个自定义的指导方法来调整推理过程，该方法受到无分类指导的启发，以实现对生成片段的时间一致性的控制。

总体来说，本研究的亮点如下：

通过在预训练图像模型中引入时间层，并在图像和视频上进行联合训练，将潜在扩散模型扩展到了视频生成领域；
提出了一个结构和内容感知的模型，在样本图像或文本的指导下修改视频。编辑工作完全是在推理时间内进行的，不需要额外对每个视频进行训练或预处理；
展示了对时间、内容和结构一致性的完全控制。该研究首次表明，对图像和视频数据的联合训练能够让推理时间控制时间的一致性。对于结构的一致性，在表征中不同的细节水平上进行训练，可以在推理过程中选择所需的设置；
在一项用户研究中，本文的方法比其他几种方法更受欢迎；
通过对一小部分图像进行微调，可以进一步定制训练过的模型，以生成更准确的特定主体的视频。

方法

就研究目的而言，从内容和结构的角度来考虑一个视频将是有帮助的。对于结构，此处指的是描述其几何和动态的特征，比如主体的形状和位置，以及它们的时间变化。对于内容，此处将其定义为描述视频的外观和语义的特征，比如物体的颜色和风格以及场景的照明。Gen-1 模型的目标是编辑视频的内容，同时保留其结构。

为了实现这一目标，研究者学习了视频 x 的生成模型 p (x|s, c)，其条件是结构表征（用 s 表示）和内容表征（用 c 表示）。他们从输入视频推断出形状表征 s，并根据描述编辑的文本 prompt c 对其进行修改。首先，描述了对生成模型的实现，作为一个条件潜在的视频扩散模型，然后，描述了对形状和内容表征的选择。最后，讨论了模型的优化过程。

模型结构如图 2 所示。

实验

为了评估该方法，研究者采用了 DAVIS 的视频和各种素材。为了自动创建编辑 prompt，研究者首先运行了一个字幕模型来获得原始视频内容的描述，然后使用 GPT-3 来生成编辑 prompt。

定性研究

如图 5 所示，结果证明，本文的方法在一些不同的输入上表现良好。

用户研究

研究者还使用 Amazon Mechanical Turk（AMT）对 35 个有代表性的视频编辑 prompt 的评估集进行了用户研究。对于每个样本，均要求 5 个注解者在基线方法和本文方法之间对比对视频编辑 prompt 的忠实度（「哪个视频更好地代表了所提供的编辑过的字幕？」），然后以随机顺序呈现，并使用多数票来决定最终结果。

结果如图 7 所示：

定量评估

图 6 展示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型（即，在图的右上角位置较高）。研究者还注意到，在基线模型中增加强度参数会有轻微的 tradeoff：更大的强度缩放意味着更高的 prompt 一致性，代价是更低的框架一致性。同时他们还观察到，增加结构缩放会导致更高的 prompt 一致性，因为内容变得不再由输入结构决定。

定制化

图 10 展示了一个具有不同数量的定制步骤和不同水平的结构依附性 ts 的例子。研究者观察到，定制化提高了对人物风格和外观的保真度，因此，尽管使用具有不同特征的人物的驱动视频，但结合较高的 ts 值，还是可以实现精确的动画效果。

以上是加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7564

CakePHP 教程

1386

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

100

显示更多

Related knowledge

如何在 Windows 11 中清除桌面背景最近的图像历史记录 Apr 14, 2023 pm 01:37 PM

Windows 11 改进了系统中的个性化功能，这使用户可以查看之前所做的桌面背景更改的近期历史记录。当您进入windows系统设置应用程序中的个性化部分时，您可以看到各种选项，更改背景壁纸也是其中之一。但是现在可以看到您系统上设置的背景壁纸的最新历史。如果您不喜欢看到此内容并想清除或删除此最近的历史记录，请继续阅读这篇文章，它将帮助您详细了解如何使用注册表编辑器进行操作。如何使用注册表编辑

如何在电脑上下载 Windows 聚光灯壁纸图像 Aug 23, 2023 pm 02:06 PM

窗户从来不是一个忽视美学的人。从XP的田园绿场到Windows11的蓝色漩涡设计，默认桌面壁纸多年来一直是用户愉悦的源泉。借助WindowsSpotlight，您现在每天都可以直接访问锁屏和桌面壁纸的美丽、令人敬畏的图像。不幸的是，这些图像并没有闲逛。如果您爱上了Windows聚光灯图像之一，那么您将想知道如何下载它们，以便将它们作为背景保留一段时间。以下是您需要了解的所有信息。什么是WindowsSpotlight？窗口聚光灯是一个自动壁纸更新程序，可以从“设置”应用中的“个性化&gt

如何在Python中使用图像语义分割技术？ Jun 06, 2023 am 08:03 AM

随着人工智能技术的不断发展，图像语义分割技术已经成为图像分析领域的热门研究方向。在图像语义分割中，我们将一张图像中的不同区域进行分割，并对每个区域进行分类，从而达到对这张图像的全面理解。Python是一种著名的编程语言，其强大的数据分析和数据可视化能力使其成为了人工智能技术研究领域的首选。本文将介绍如何在Python中使用图像语义分割技术。一、前置知识在深入

iOS 17：如何在照片中使用一键裁剪 Sep 20, 2023 pm 08:45 PM

借助iOS17照片应用，Apple可以更轻松地根据您的规格裁剪照片。继续阅读以了解如何操作。以前在iOS16中，在“照片”应用程序中裁剪图像涉及几个步骤：点击编辑界面，选择裁剪工具，然后通过捏合缩放手势或拖动裁剪工具的角来调整裁剪。在iOS17中，值得庆幸的是，苹果简化了这个过程，这样当你放大照片库中任何选定的照片时，一个新的“裁剪”按钮会自动出现在屏幕的右上角。点击它会弹出完整的裁剪界面，其中包含您选择的缩放级别，因此您可以裁剪到您喜欢的图像部分，旋转图像，反转图像，或应用屏幕比例，或使用标记

2D图像脑补3D人体，衣服随便搭，还能改动作 Apr 11, 2023 pm 02:31 PM

得益于 NeRF 提供的可微渲染，近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上，三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达，实现了高分辨率（512x256）的三维人体生成，并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案，代码已开源。论文名称：EVA3D: Compositional 3D Human Generation from 2D image Collections论文地址：http

新视角图像生成：讨论基于NeRF的泛化方法 Apr 09, 2023 pm 05:31 PM

新视角图像生成（NVS）是计算机视觉的一个应用领域，在1998年SuperBowl的比赛，CMU的RI曾展示过给定多摄像头立体视觉（MVS）的NVS，当时这个技术曾转让给美国一家体育电视台，但最终没有商业化；英国BBC广播公司为此做过研发投入，但是没有真正产品化。在基于图像渲染（IBR）领域，NVS应用有一个分支，即基于深度图像的渲染（DBIR）。另外，在2010年曾很火的3D TV，也是需要从单目视频中得到双目立体，但是由于技术的不成熟，最终没有流行起来。当时基于机器学习的方法已经开始研究，比

如何在Windows上使用PowerToys批量调整图像大小 Aug 23, 2023 pm 07:49 PM

那些必须每天处理图像文件的人经常不得不调整它们的大小以适应他们的项目和工作的需求。但是，如果要处理的图像太多，则单独调整它们的大小会消耗大量时间和精力。在这种情况下，像PowerToys这样的工具可以派上用场，除其他外，可以使用其图像调整大小器实用程序批量调整图像文件的大小。以下是设置图像调整器设置并开始使用PowerToys批量调整图像大小的方法。如何使用PowerToys批量调整图像大小PowerToys是一个多合一的程序，具有各种实用程序和功能，可帮助您加快日常任务。它的实用程序之一是图像

一键抹去瑕疵、褶皱：深入解读达摩院高清人像美肤模型ABPN Apr 12, 2023 pm 12:25 PM

随着数字文化产业的蓬勃发展，人工智能技术开始广泛应用于图像编辑和美化领域。其中，人像美肤无疑是应用最广、需求最大的技术之一。传统美颜算法利用基于滤波的图像编辑技术，实现了自动化的磨皮去瑕疵效果，在社交、直播等场景取得了广泛的应用。然而，在门槛较高的专业摄影行业，由于对图像分辨率以及质量标准的较高要求，人工修图师还是作为人像美肤修图的主要生产力，完成包括匀肤、去瑕疵、美白等一系列工作。通常，一位专业修图师对一张高清人像进行美肤操作的平均处理时间为 1-2 分钟，在精度要求更高的广告、影视等领域，该

See all articles

加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

论文细节

方法

实验

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题