推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」
10毫秒生成一张图像,1分钟6000张图像,这是什么概念?
下图中,就可以深刻感受到AI的超能力。
图片
甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。
图片
如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学等研究人员提出StreamDiffusion带来的结果。
这个全新的解决方案是一种扩散模型流程,能够以超过100fps的速度,实现实时交互式图像生成。
图片
论文地址:https://arxiv.org/abs/2312.12491
StreamDiffusion开源后直接霸榜GitHub,狂揽3.7k星。
图片
StreamDiffusion创新性采用了批处理策略,而非序列去噪,比传统方法快大约1.5倍。而且作者提出的新型剩余无分类器引导(RCFG)算法能够比传统无分类引导快2.05倍。
最值得一提的是,新方法在RTX 4090上,图像到图像的生成速度可达91.07fps。
图片
未来,在元宇宙、视频游戏图形渲染、直播视频流等不同场景中,StreamDiffusion快速生成能够满足这些应用的高吞吐量的需求。
尤其,实时的图像生成,能够为那些游戏开发、视频渲染的打工人们,提供了强大的编辑和创作能力。
图片
专为实时图像生成设计
目前,在各个领域中,扩散模型的应用需要具备高吞吐量和低延迟的扩散管道,以确保人机交互的高效性
一个典型的例子是,用扩散模型创建虚拟角色VTuber——能够对用户的输入做出流畅的反应。
图片
为了提高高吞吐量和实时交互能力,目前研究的方向主要集中在,减少去噪迭代次数,比如从50次迭代减少到几次,甚至一次。
常见的策略是将多步扩散模型提炼成几个步骤,用神经常微分方程(ODE)重新构建扩散过程。为提高效率,也有人对扩散模型进行了量化。
最新论文中,研究人员从正交方向(orthogonal direction)开始,引入了StreamDiffusion——一种实时扩散管道,专为互动式图像生成的高吞吐量而设计。
现有的模型设计工作可以与StreamDiffusion集成,同时还可以使用N步去噪扩散模型,以保持高吞吐量,并为用户提供更灵活的选择
图片
实时图像生成|第一列和第二列:AI辅助实时绘图的示例,第三列:从3D头像实时渲染2D插图。第四列和第五列:实时相机滤镜。 实时图像生成|第一列和第二列展示了AI辅助实时绘图的示例,第三列展示了通过实时渲染3D头像生成2D插图的过程。第四列和第五列展示了实时相机滤镜的效果
具体是如何实现的?
StreamDiffusion架构
StreamDiffusion是一种新的扩散管道,旨在提高吞吐量。
它由若干关键部分组成:
流批处理策略、剩余无分类器引导(RCFG)、输入输出队列、随机相似滤波(Stochastic Similarity Filter)、预计算程序、微型自动编码器的模型加速工具。
批处理去噪
在扩散模型中,去噪步骤是按顺序进行的,这就导致了U-Net的处理时间,与步骤数成比例增加。
然而,为了生成高保真的图像,就不得不增加步数。
为了解决交互式扩散中的高延迟生成的问题,研究人员提出了一种叫做Stream Batch的方法。
如下图所示,在最新的方法中,在处理下一个输入图像之前,不会等待单个图像完全去噪,而是在每个去噪步骤后接受下一个输入图像。
这样就形成了一个去噪批次,每个图像的去噪步骤交错进行。
通过将这些交错的去噪步骤串联成一个批次,研究人员就能使用U-Net高效地处理连续输入的批次。
在时间步t处编码的输入图像在时间步t+n处生成并解码,其中n是去噪步骤的数目。
图片
剩余无分类器引导(RCFG)
常见的无分类器指导(CFG)是一种,通过在无条件或否定条件项和原条件项之间执行向量计算。来增强原条件的效果的算法。
图片
这可以带来诸如加强提示的效果之类的好处。
然而,为了计算负条件剩余噪声,需要将每个输入潜变量与负条件嵌入配对,并在每个推理时间将其传递给U-Net。
为了解决这个问题,作者引入了一种创新的剩余无分类器引导(RCFG)
这种方法利用虚拟剩余噪声来逼近负条件,使得我们只需要在过程的初始阶段就能够计算负条件噪声,从而显著降低了负条件嵌入时额外的U-Net推理计算成本
输入输出队列
将输入图像转换为管道可管理的张量数据格式,反过来,将解码后的张量转换回输出图像,都需要不可忽略的额外处理时间。
为了避免将这些图像处理时间添加到神经网络推理流程中,我们将图像预处理和后处理分离到不同的线程中,从而实现并行处理。
此外,通过使用输入张量队列,还能应对因设备故障或通信错误造成的输入图像临时中断,从而实现流畅的流式传输。
图片
随机相似滤波(Stochastic Similarity Filter)
如下图是,核心扩散推理管道,包含VAE和U-Net。
通过引入去噪批处理和预先计算的提示嵌入缓存、采样噪声缓存和调度器值缓存,提高了推理流水线的速度,实现了实时图像生成。
随机相似滤波(SSF)是为了节省GPU功耗而设计的,可以动态关闭扩散模型管道,进而实现了快速高效的实时推理。
图片
预计算
U-Net架构既需要输入潜在变量,也需要条件嵌入。
通常情况下,条件嵌入来源于「提示嵌入」,在不同帧之间保持不变。
为了优化这一点,研究人员预先计算提示嵌入,并将其存储在缓存中。在交互或流模式下,这个预先计算的提示嵌入缓存会被召回。
在U-Net中,每一帧的键和值的计算是基于预先计算的提示嵌入实现的
因此,研究人员对U-Net进行修改,以存储这些键和值对,使其可以重复使用。每当输入提示更新时,研究人员都会在U-Net内重新计算和更新这些键和值对。
模型加速和微型自动编码器
为了优化速度,我们将系统配置为使用静态批大小和固定输入大小(高度和宽度)。
这种方法确保计算图和内存分配针对特定的输入大小进行优化,从而加快处理速度。
然而,这意味着如果需要处理不同形状的图像(即不同的高度和宽度),使用不同的批大小(包括去噪步骤的批次大小)。
实验评估
去噪批的定量评估
图8展示了批量去噪和原始顺序U-Net循环的效率比较
在实施批去噪策略时,研究人员发现处理时间有了显著改善。与顺序去噪步骤的传统U-Net循环相比,减少了一半的时间。
即使应用了神经模块加速工具TensorRT,研究人员提出的流批处理在不同的去噪步骤中仍能大幅提高原始顺序扩散管道的效率。
图片
此外,研究人员还将最新方法与Huggingface Diffusers开发的AutoPipeline-ForImage2Image管道进行了比较。
平均推理时间比较见表1,最新管道显示速度有了大幅提升。
在使用TensorRT时,StreamDiffusion能够在运行10个去噪步骤时实现13倍的速度提升。而在只涉及单个去噪步骤的情况下,速度提升可达59.6倍
即使没有TensorRT,StreamDiffusion在使用单步去噪时也比AutoPipeline提高了29.7倍,在使用10步去噪时提高了8.3倍。
图片
表2比较了使用RCFG和常规CFG的流扩散管道的推理时间。
在单步去噪的情况下,Onetime-Negative RCFG和传统CFG的推理时间几乎相同。
所以One-time RCFG和传统CFG在单步去噪时推理时间差不多。但是随着去噪步骤增加,从传统CFG到RCFG的推理速度提升变得更明显。
在第5步去噪时,Self-Negative RCFG比传统CFG快2.05倍,Onetime-Negative RCFG比传统CFG快1.79倍。
图片
图片
在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到
这些图展示了在输入视频中应用SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式
对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显着降低GPU的使用率。
图片
消融研究
不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。
图片
定性结果
在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程
生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。
相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。
图片
最后,标准文本到图像生成结果的质量如图11所示。
使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。
当在GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。
图片
网友上手,一大波二次元小姐姐来了
最新项目的代码已经开源,在Github已经收揽3.7k星。
图片
项目地址:https://github.com/cumulo-autumn/StreamDiffusion
许多网友已经开始生成自己的二次元老婆了。
图片
还有真人变实时动画。
图片
10倍速手绘生成。
图片
图片
图片
感兴趣的童鞋们,不如自己动手吧。
参考资料:
https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be
https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133
以上是推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在2020年3月31日这天初音未来与曾经那位花费了数百万迎娶她的日本宅男正式“离婚”了,距今差不多也有快4年的时间了。其实当初两人结婚的时候,许多人并不看好他们这一对,毕竟一个生活在三次元的人要和二次元的纸片人结婚,想想都觉得非常离谱。不过面对网友们的口诛笔伐,这位日本宅男近藤显彦并没有退缩,最终他还是与初音未来举办了婚礼,从结婚后近藤显彦时不时晒出的照片来看,他与初音未来的生活过得还是挺不错的,可惜两人婚姻并没有维持太长的时间,随着初代初音模型的Gatebox版权到期,近藤显彦的老婆初音未来也

通用矩阵乘法(GeneralMatrixMultiplication,GEMM)是许多应用程序和算法中至关重要的一部分,也是评估计算机硬件性能的重要指标之一。通过深入研究和优化GEMM的实现,可以帮助我们更好地理解高性能计算以及软硬件系统之间的关系。在计算机科学中,对GEMM进行有效的优化可以提高计算速度并节省资源,这对于提高计算机系统的整体性能至关重要。深入了解GEMM的工作原理和优化方法,有助于我们更好地利用现代计算硬件的潜力,并为各种复杂计算任务提供更高效的解决方案。通过对GEMM性能的优

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为干昆ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。 8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为干昆ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

我们在使用淘宝的过程中会经常被推荐一些可能认识的好友,下面为大家介绍一下关闭此功能的方法,感兴趣的朋友一起来看看吧。在手机上打开“淘宝”APP后,点击页面右下角的“我的淘宝”,进入个人中心页面,然后再点击右上方的“设置”功能即可进入设置页面。2.来到设置页面后,在其中找到“隐私”,并在这一项上面点击进入。3.在隐私页面里有一个“向我推荐好友”,在它的后面显示目前的状态为“开启”时,在上面点击进入去关闭。4.最后在弹出的窗口里“向我推荐好友”的后面会显示有一个开关按钮,在上面点击把按钮设置为灰白色

苹果16系统中版本最好的是iOS16.1.4,iOS16系统的最佳版本可能因人而异添加和日常使用体验的提升也受到了很多用户的好评。苹果16系统哪个版本最好答:iOS16.1.4iOS16系统的最佳版本可能因人而异。根据公开的消息,2022年推出的iOS16被认为是一个非常稳定且性能优越的版本,用户对其整体体验也相当满意。此外,iOS16中新功能的添加和日常使用体验的提升也受到了很多用户的好评。特别是在更新后的电池续航能力、信号表现和发热控制方面,用户的反馈都比较积极。然而,考虑到iPhone14

4月11日,华为官方首次宣布HarmonyOS4.2百机升级计划,此次共有180余款设备参与升级,品类覆盖手机、平板、手表、耳机、智慧屏等设备。过去一个月,随着HarmonyOS4.2百机升级计划的稳步推进,包括华为Pocket2、华为MateX5系列、nova12系列、华为Pura系列等多款热门机型也已纷纷展开升级适配,这意味着会有更多华为机型用户享受到HarmonyOS带来的常用常新体验。从用户反馈来看,华为Mate60系列机型在升级HarmonyOS4.2之后,体验全方位跃升。尤其是华为M

从初学者到专家:五个必备的C语言编译器推荐随着计算机科学的发展,越来越多的人对编程语言充满了兴趣。而C语言作为一门广泛应用于系统级编程的高级语言,一直受到了程序员们的喜爱。为了写出高效、稳定的代码,选择一款适合自己的C语言编译器是很重要的。本文将介绍五个必备的C语言编译器,供初学者和专家们参考选择。GCCGCC,即GNU编译器集合,是最常用的C语言编译器之一

黄泉光锥能够在战斗中有效的提高角色的爆击伤害和攻击力,黄泉推荐的光锥分别是行于流逝的岸、晚安与睡颜、雨一直下、只需等待、决心如汗珠般闪耀,下面小编会为大家带来崩坏星穹铁道黄泉光锥推荐。黄泉光锥推荐一、行于流逝的岸1、黄泉专武可以提升爆伤,攻击敌方可使敌方陷入泡影负面状态,造成的伤害提高,终结技伤害额外提高,既有负面状态还有伤害提高,不得不说是专武。2、专属光锥在众多虚无光锥里很独特直接对直伤进行加成,有高额的伤害和对暴伤属性的提升。3、不仅如此,光锥还提供了一个负面状态效果,可以使得黄泉自身有反
