简化文生图prompt,LLM模型生成高质量图像
扩散模型已经成为主流的文本到图像生成模型,它可以通过文本提示来引导生成高质量且内容丰富的图像
如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,这将导致生成的图像质量明显下降
中山大学HCP实验室的林倞团队提出了一种名为SUR-adapter的简单而有效的微调方法,旨在提高模型对叙述性提示的理解能力。该方法是一种语义理解和推理适配器,适用于预训练的扩散模型,并具有参数高效的特点
请点击以下链接查看论文:https://arxiv.org/abs/2305.05189
开源地址:https://github.com/Qrange-group/SUR-adapter
为了达到这个目标,研究人员首先收集并标注了一个名为SURD的数据集。这个数据集包含了超过5.7万个多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示以及一张高质量的图像
研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。然后,他们将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成
我们通过集成多个LLM和预训练扩散模型进行实验,发现该方法能够有效地使扩散模型理解和推理简洁的自然语言描述,同时不会降低图像质量
这种方法可以使得文本到图像的扩散模型更易于使用,提供更好的用户体验,进一步推动用户友好的文本到图像生成模型的发展,并弥补简单叙事提示和基于关键字提示之间的语义差距
背景介绍
目前,以稳定扩散为代表的文本到图像预训练模型已经成为人工智能生成内容领域最重要的基础模型之一,在图像编辑、视频生成、3D对象生成等任务中起着重要作用
目前,这些预训练的扩散模型的语义能力主要取决于文本编码器(如CLIP),其语义理解能力直接影响到扩散模型的生成效果
本文首先通过构造视觉问答任务(VQA)中常见的问题类别,如"计数"、"颜色"和"动作",来测试Stable diffusion的图文匹配准确度。我们将人工统计并进行测试
以下是构造各种提示的示例,详见下表
根据下表所示的结果,文章揭示了目前的文生图预训练扩散模型存在严重的语义理解问题。大量问题的图文匹配准确度不足50%,甚至在某些问题下,准确度仅为0%
为了获得符合文本生成条件的图像,我们需要找到方法来增强预训练扩散模型中本文编码器的语义能力
方法概述
重写后的内容:1. 数据预处理
首先,我们可以从常用的扩散模型在线网站lexica.art、civitai.com和stablediffusionweb中获取大量的图片文本对。然后,我们需要对这些数据进行清洗和筛选,以获得超过57000张高质量的三元组数据(包括复杂提示、简单提示和图片),并将其构成SURD数据集
在下图中所示,复杂提示是指生成图像时扩散模型所需的文本提示条件,通常这些提示具有复杂的格式和描述。简单提示是通过BLIP对图像生成的文本描述,它采用符合人类描述的语言格式
一般来说,符合正常人类语言描述的简单提示很难让扩散模型生成足够符合语义的图像,而复杂提示(用户戏称为扩散模型的“咒语”)则可以达到令人满意的效果
需要进行重新编写的内容是:2. 大型语言模型的语义蒸馏
本文介绍了一种使用Transformer结构的Adapter来蒸馏大型语言模型在特定隐藏层中的语义特征的方法,并通过将Adapter引导的大型语言模型信息与原始文本编码器输出的语义特征进行线性组合,得到最终的语义特征
大语言模型选用的是不同大小的LLaMA模型,而扩散模型的UNet部分在整个训练过程中的参数都是冻结的
需要进行重写的内容是:3. 图像质量恢复
为了保持原意不变,需要将内容改写为中文: 由于本文结构在预训练大模型推理过程引入了可学习模块,一定程度破坏了预训练模型的原图生成质量,因此需要将图像生成的质量拉回原预训练模型的生成质量水平
本文使用SURD数据集中的三元组,在训练过程中引入了相应的质量损失函数,以恢复图像生成的质量。具体而言,本文希望通过新模块后获得的语义特征能够与复杂提示的语义特征尽可能地对齐
下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构
实验结果
对于SUR-adapter的性能,本文从语义匹配和图像质量两个方面进行了分析
一方面,根据下表显示,SUR-adapter能够有效地解决文生图扩散模型中常见的语义不匹配问题,适用于不同的实验设置。在不同类别的语义准则下,准确度也有一定的提升
另一方面,本文利用常用的BRISQUE等常用的图像质量评价指标下,对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验,我们可以发现两者没有显著的差异。
我们还进行了一项人类偏好的调查问卷测试
通过以上分析,可以得出结论,所提出的方法能够在保持图像生成质量的同时,缓解预训练文本到图像的固有图文不匹配问题
我们还可以通过以下图像生成的示例来定性展示,更详细的分析和细节请参阅本文和开源仓库
需要进行改写的内容是:
HCP实验室简介
林倞教授于2010年创办了中山大学人机物智能融合实验室(HCP Lab)。近年来,该实验室在多模态内容理解、因果及认知推理、具身智能等领域取得了丰富的学术成果。实验室多次荣获国内外科技奖项和最佳论文奖,并致力于开发产品级的人工智能技术和平台
以上是简化文生图prompt,LLM模型生成高质量图像的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本文介绍如何在Debian系统上自定义Apache的日志格式。以下步骤将指导您完成配置过程:第一步:访问Apache配置文件Debian系统的Apache主配置文件通常位于/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root权限打开配置文件:sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步:定义自定义日志格式找到或

Tomcat日志是诊断内存泄漏问题的关键。通过分析Tomcat日志,您可以深入了解内存使用情况和垃圾回收(GC)行为,从而有效定位和解决内存泄漏。以下是如何利用Tomcat日志排查内存泄漏:1.GC日志分析首先,启用详细的GC日志记录。在Tomcat启动参数中添加以下JVM选项:-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log这些参数会生成详细的GC日志(gc.log),包含GC类型、回收对象大小和时间等信息。分析gc.log

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

本文介绍如何在Debian系统中使用iptables或ufw配置防火墙规则,并利用Syslog记录防火墙活动。方法一:使用iptablesiptables是Debian系统中功能强大的命令行防火墙工具。查看现有规则:使用以下命令查看当前的iptables规则:sudoiptables-L-n-v允许特定IP访问:例如,允许IP地址192.168.1.100访问80端口:sudoiptables-AINPUT-ptcp--dport80-s192.16

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务,它帮助管理员监控和分析系统活动,从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括:集中收集和管理日志消息;支持多种日志输出格式和目标位置(例如文件或网络);提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装:sudoaptupdatesud
