目录
1、闪电般的图片生成
2、模型效果
3、回馈社区,开放模型
4、关于技术细节
5、SDXL-Lightning 之外
首页 科技周边 人工智能 1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Feb 24, 2024 pm 12:37 PM
生成式 ai

模型|https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

论文|https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


1、闪电般的图片生成

生成式 AI 正凭借其根据文本提示(text prompts)创造出惊艳图像乃至视频的能力,赢得全球的瞩目。当前最先进的生成模型依赖于扩散过程(diffusion),这是一个将噪声逐步转化为图像样本的迭代过程。这个过程需要耗费巨大的计算资源并且速度较慢,在生成高质量图像样本的过程中,单张图像的处理时间约为 5 秒,其中通常需要多次(20 到 40 次)调用庞大的神经网络。这样的速度限制了有快速、实时生成需求的应用场景。如何在提升生成质量的同时加快速度,是当前研究的热点领域,也是我们工作的核心目标。

SDXL-Lightning 通过一种创新技术——渐进式对抗蒸馏(Progressive Adversarial Distillation)——突破了这一障碍,实现了前所未有的生成速度。该模型能够在短短 2 步或 4 步内生成极高质量和分辨率的图像,将计算成本和时间降低十倍。我们的方法甚至可以在 1 步内为超时敏感的应用生成图像,虽然可能会稍微牺牲一些质量。

SDXL-Lightning 不仅具有速度优势,而且在图像质量方面表现出色,在评估中超越了先前的加速技术。它能够实现更高的分辨率和更丰富的细节,同时保持良好的多样性和图文匹配度。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

速度对比示意

原始模型(20 步),SDXL-Lightning 模型(2 步)


2、模型效果

SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多,图像质量越好。

以下是 4 步生成结果——


1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A girl smiling 

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A pickup truck going up a mountain switchback

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A fish on a bicycle, colorful art

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A close-up of an Asian lady with sunglasses

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A beautiful cup

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Mona Lisa, sketch

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A panda swimming

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A pickup truck going up a mountain switchback

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

House in the desert, surreal landscapes

以下是2 步生成结果——

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Furniture design for a living room

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A cinematic shot of a baby raccoon wearing an intricate Italian priest robe

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A dog with soft fur and bright eyes jumping after a toy, in a cozy living room

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A tea cup containing clouds

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A family, medium shot

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Baby playing with toys in the snow

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

An old man and a dog are walking in the park

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Dragon driving a car

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A monkey making latte art

与以前的方法(Turbo 和LCM)相比,我们的方法生成的图像在细节上有显着改进,并且更忠实于原始生成模型的风格和布局。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


3、回馈社区,开放模型

开源开放的浪潮已经成为推动人工智能迅猛发展的关键力量,字节跳动也自豪地成为这股浪潮的一部分。我们的模型基于目前最流行的文字生成图像开放模型 SDXL,该模型已经拥有一个繁荣的生态系统。现在,我们决定将 SDXL-Lightning 开放给全球的开发者、研究人员和创意从业者,以便他们能访问并运用这一模型,进一步推动整个行业的创新和协作。

在设计 SDXL-Lightning 时,我们就考虑到与开放模型社区的兼容。社区中已有众多艺术家和开发者创建了各种各样的风格化图像生成模型,例如卡通和动漫风格等。为了支持这些模型,我们提供 SDXL-Lightning 作为一个增速插件,它可以无缝地整合到这些多样风格的 SDXL 模型中,为各种不同模型加快图像生成的速度。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相结合,实现极速可控的图片生成。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning 模型也支持开源社区里目前最流行的生成软件 ComfyUI,模型可以被直接加载来使用:

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


4、关于技术细节

从理论上来说,图像生成是一个由噪声到清晰图像的逐步转化过程。在这一过程中,神经网络学习在这个转化流(flow)中各个位置上的梯度。

生成图像的具体步骤是这样的:

首先我们在流的起点,随机采样一个噪声样本,接着用神经网络计算出梯度。根据当前位置上的梯度,我们对样本进行微小的调整,然后不断重复这一过程。每一次迭代,样本都会更接近最终的图像分布,直至获得一张清晰的图像。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

图:生成流程(图片来自:https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

由于生成流复杂且非直线,生成过程必须一次只走一小步以减少梯度误差累积,所以需要神经网络的频繁计算,这就是计算量大的原因。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

图:曲线流程(图片来自:https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

为了减少生成图像所需的步骤数量,许多研究致力于寻找解决方案。一些研究提出了能减少误差的采样方法,而其他研究则试图使生成流更加直线化。尽管这些方法有所进展,但它们仍然需要超过 10 个推理步骤来生成图像。

另一种方法是模型蒸馏,它能够在少于 10 个推理步骤的情况下生成高质量图像。不同于计算当前流位置下的梯度,模型蒸馏改变模型预测的目标,直接让其预测下一个更远的流位置。具体来说,我们训练一个学生网络直接预测老师网络完成了多步推理后的结果。这样的策略可以大幅减少所需的推理步骤数量。通过反复应用这个过程,我们可以进一步降低推理步骤的数量。这种方法被先前的研究称之为渐进式蒸馏。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

图:渐进式蒸馏,学生网络预测老师网络多步后的结果


在实际操作中,学生网络往往难以精确预测未来的流位置。误差随着每一步的累积而放大,导致在少于 8 步推理的情况下,模型产生的图像开始变得模糊不清。

为了解决这个问题,我们的策略是不强求学生网络精确匹配教师网络的预测,而是让学生网络在概率分布上与教师网络保持一致。换言之,学生网络被训练来预测一个概率上可能的位置,即使这个位置并不完全准确,我们也不会对它进行惩罚。这个目标是通过对抗训练来实现的,引入了一个额外的判别网络来帮助实现学生网络和教师网络输出的分布匹配。

这是我们研究方法的简要概述。在技术论文(https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452)中,我们提供了更深入的理论分析、训练策略以及模型的具体公式化细节。

5、SDXL-Lightning 之外

尽管本研究主要探讨了如何利用 SDXL-Lightning 技术进行图像生成,但我们所提出的渐进式对抗蒸馏方法的应用潜力不局限于静态图像的范畴。这一创新技术也可以被运用于快速且高质量生成视频、音频以及其他多模态内容。我们诚挚邀请您在 HuggingFace 平台上体验 SDXL-Lightning,并期待您宝贵的意见和反馈。

模型:https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

论文:https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

以上是1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

我尝试了使用光标AI编码的Vibe编码,这太神奇了! 我尝试了使用光标AI编码的Vibe编码,这太神奇了! Mar 20, 2025 pm 03:34 PM

Vibe编码通过让我们使用自然语言而不是无尽的代码行创建应用程序来重塑软件开发的世界。受Andrej Karpathy等有远见的人的启发,这种创新的方法使Dev

2025年2月的Genai推出前5名:GPT-4.5,Grok-3等! 2025年2月的Genai推出前5名:GPT-4.5,Grok-3等! Mar 22, 2025 am 10:58 AM

2025年2月,Generative AI又是一个改变游戏规则的月份,为我们带来了一些最令人期待的模型升级和开创性的新功能。从Xai的Grok 3和Anthropic的Claude 3.7十四行诗到Openai的G

如何使用Yolo V12进行对象检测? 如何使用Yolo V12进行对象检测? Mar 22, 2025 am 11:07 AM

Yolo(您只看一次)一直是领先的实时对象检测框架,每次迭代都在以前的版本上改善。最新版本Yolo V12引入了进步,可显着提高准确性

Chatgpt 4 o可用吗? Chatgpt 4 o可用吗? Mar 28, 2025 pm 05:29 PM

Chatgpt 4当前可用并广泛使用,与诸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

Google的Gencast:Gencast Mini Demo的天气预报 Google的Gencast:Gencast Mini Demo的天气预报 Mar 16, 2025 pm 01:46 PM

Google DeepMind的Gencast:天气预报的革命性AI 天气预报经历了巨大的转变,从基本观察到复杂的AI驱动预测。 Google DeepMind的Gencast,开创性

哪个AI比Chatgpt更好? 哪个AI比Chatgpt更好? Mar 18, 2025 pm 06:05 PM

本文讨论了AI模型超过Chatgpt,例如Lamda,Llama和Grok,突出了它们在准确性,理解和行业影响方面的优势。(159个字符)

最佳AI艺术生成器(免费付款)创意项目 最佳AI艺术生成器(免费付款)创意项目 Apr 02, 2025 pm 06:10 PM

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

O1 vs GPT-4O:OpenAI的新型号比GPT-4O好吗? O1 vs GPT-4O:OpenAI的新型号比GPT-4O好吗? Mar 16, 2025 am 11:47 AM

Openai的O1:为期12天的礼物狂欢始于他们迄今为止最强大的模型 12月的到来带来了全球放缓,世界某些地区的雪花放缓,但Openai才刚刚开始。 山姆·奥特曼(Sam Altman)和他的团队正在推出12天的礼物前

See all articles