目录
模型优化
采样优化
实验与应用
总结
首页 科技周边 人工智能 手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

Dec 04, 2023 am 08:44 AM
谷歌 论文

在手机等移动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一,其中生成速度是主要的制约因素。

近日,来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手机端最快文生图,在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队,在打造超小扩散模型的同时, 采用当前大火的 Diffusion GAN 技术路线做采样加速。

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

请点击以下链接查看论文:https://arxiv.org/abs/2311.16567

下面是 MobileDiffusion 一步生成的结果。

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

那么,MobileDiffusion 是如何优化得到的呢?

首先,让我们从问题出发,探讨为何优化是必要的

目前最热门的文本到图像生成技术都是基于扩散模型实现的。由于其预先训练的模型具有极强的基本图像生成能力和在下游微调任务上的稳健性质,因此我们看到了扩散模型在图像编辑、可控生成、个性化生成以及视频生成等领域的出色表现

然而,作为基础模型,其不足之处也很明显,主要包括两个方面:一是扩散模型的大量参数导致计算速度慢,尤其是在资源有限的情况下;二是扩散模型需要多步才能进行采样,这进一步导致推理速度缓慢。以备受瞩目的 Stable Diffusion 1.5(SD)为例,其基础模型包含近10亿个参数,我们在iPhone 15 Pro上对模型进行量化后进行推理,50步采样需要接近80秒。如此昂贵的资源需求和迟缓的用户体验极大地限制了其在移动端的应用场景

为了解决以上问题,MobileDiffusion 点对点地进行优化。(1) 针对模型体积庞大的问题,我们主要对其核心组件 UNet 进行了大量试验及优化,包括了将计算昂贵的卷积精简和注意力运算放在了较低的层上,以及针对 Mobile Devices 的操作优化,诸如激活函数等。(2)针对扩散模型需要多步采样的问题, MobileDiffusion 探索并实践了像 Progressive Distillation 和当前最先进的 UFOGen 的一步推理技术。

模型优化

MobileDiffusion 基于当下开源社区里最火的 SD 1.5 UNet 进行优化。在每次的优化操作后, 会同时衡量相对于原始 UNet 模型的性能的损失,测量指标包括 FID 和 CLIP 两个常用 metric。

整体规划

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

在图上的左侧是原始 UNet 的设计示意,可以看出它基本上包括了卷积和Transformer,而Transformer又包括了自注意力机制和交叉注意力机制

MobileDiffusion 对 UNet 优化的核心思路分为两点:1)精简 Convolution, 众所周知,在高分辨率的特征空间上进行了 Convolution 是十分耗时的, 而且参数量很大,这里指的是 Full Convolution;2)提高 Attention 效率。和 Convolution 一样,高 Attention 需要对整个特征空间的长度进行运算,Self-Attention 复杂度和特征空间展平后长度成平方关系,Cross-Attention 也要和空间长度成正比。

经过实验证明,将整个UNet的16个Transformer移动到特征分辨率最低的内层,并且每一层都剪掉一个卷积,对性能没有明显影响。所达到的效果是:MobileDiffusion将原本的22个卷积和16个Transformer精简到了只有11个卷积和大约12个Transformer,并且这些注意力都是在低分辨率特征图上进行的。这样做的效率大大提高,带来了40%的效率提升和40%的参数剪切。最终的模型如右图所示。下面是与其他模型的对比:

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

需要进行重新编写的内容是:微观设计

这里将只介绍几种新颖的设计,有兴趣的读者可以阅读正文, 会有更详细的介绍。

解耦自注意力和交叉注意力

传统 UNet 里 Transformer 同时包含 Self-Attention 和 Cross-Attention,MobileDiffusion 将 Self-Attention 全部放在了最低分辨率特征图,但是保留一个 Cross-Attention 在中间层,发现这种设计既提高了运算效率又保证了模型出图质量

Finetune softmax into relu

众所周知,在大部分未优化的情况下,softmax函数很难进行并行处理,效率较低。MobileDiffusion提出了一种新的方法,即将softmax函数直接调整(finetune)为relu函数,因为relu函数对于每个数据点的激活更加高效。令人惊讶的是,仅需大约一万步的微调,模型的度量指标反而提高了,并且生成的图像质量也得到了保证。因此,相比于softmax函数,relu函数的优势显而易见

Separable Convolution (可分离卷积)

MobileDiffuison 精简参数的关键还在采用了 Seprable Convolution。这种技术已经被 MobileNet 等工作证实是极为有效的,特别是移动端,但是一般在生成模型上很少采用。MobileDiffusion 实验发现 Separable Convolution 对减少参数是很有效的,尤其是将其放在 UNet 最内层,模型质量经分析证明是没有损失的。

采样优化

目前最流行的采样优化方法包括渐进蒸馏(Progressive Distillation)和UFOGen,它们分别可以实现8步和1步。为了证明即使在模型经过极致简化后,这些采样方法仍然有效,MobileDiffusion对这两种方法进行了实验验证

优化后的采样与基准模型进行了比较,可以看出采样优化后的 8 步和 1 步模型的指标都有显著的提升

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

实验与应用

移动端基准测试

在 iPhone 15 Pro 上,MobileDiffusion 可以以当前最快的速度进行出图,只需 0.2 秒!

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

下游任务测试

MobileDiffusion 探索了包括 ControlNet/Plugin 和 LoRA Finetune 的下游任务。从下图可以看出,经过模型和采样优化后,MobileDiffusion 依然保持了优秀的模型微调能力。

手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion

总结

MobileDiffusion对多种模型和采样优化方法进行了探索,最终实现了在移动端亚秒级的图像生成能力,同时保证了下游微调应用的稳定性。我们相信这将对未来高效的扩散模型设计产生影响,并拓展移动端应用的实际应用案例

以上是手机上图像0.2秒即可呈现,谷歌构建最快的移动扩散模型MobileDiffusion的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

deepseek怎么评论 deepseek怎么评论 Feb 19, 2025 pm 05:42 PM

DeepSeek是一款功能强大的信息检索工具,其优势在于能够深入挖掘信息,但缺点是速度较慢、结果呈现方式较简单且数据库覆盖范围有限,需要根据具体需求权衡其利弊。

deepseek怎么搜索 deepseek怎么搜索 Feb 19, 2025 pm 05:39 PM

DeepSeek是一个专有搜索引擎,仅在特定数据库或系统中搜索,速度更快,准确性更高。使用时,建议用户阅读文档、尝试不同的搜索策略、寻求帮助和反馈使用体验,以便充分利用其优势。

芝麻开门交易所网页注册链接 gate交易app注册网址最新 芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所(Gate.io)网页版和Gate交易App的注册流程。 无论是网页注册还是App注册,都需要访问官方网站或应用商店下载正版App,然后填写用户名、密码、邮箱和手机号等信息,并完成邮箱或手机验证。

Bybit交易所链接为什么不能直接下载安装? Bybit交易所链接为什么不能直接下载安装? Feb 21, 2025 pm 10:57 PM

为什么Bybit交易所链接无法直接下载安装?Bybit是一个加密货币交易所,为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载,原因如下:1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求,因为它们涉及金融服务,需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区,与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定,Bybit应用程序只能通过官方网站或其他授权渠

芝麻开门交易平台下载手机版 gateio交易平台下载地址 芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App,保障您的账户安全至关重要。

gate.io交易所官方注册入口 gate.io交易所官方注册入口 Feb 20, 2025 pm 04:27 PM

Gate.io 是一个领先的加密货币交易所,提供广泛的加密资产和交易对。注册 Gate.io 非常简单,只需访问其官方网站或下载 app,点击“注册”,填写注册表,验证邮箱,设置双重验证(2FA),即可完成注册。通过 Gate.io,用户可以享受安全、便捷的加密货币交易体验。

加密数字资产交易APP推荐top10(2025全球排名) 加密数字资产交易APP推荐top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能着称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

币安binance官网最新版登录入口 币安binance官网最新版登录入口 Feb 21, 2025 pm 05:42 PM

访问币安官方网站最新版登录入口,只需遵循这些简单步骤。前往官方网址,点击右上角的“登录”按钮。选择您现有的登录方式,如果是新用户,请“注册”。输入您的注册手机号或邮箱和密码,并完成身份验证(例如手机验证码或谷歌身份验证器)。成功验证后,即可访问币安官方网站的最新版登录入口。

See all articles