目录
模型与方法
实验结果
首页 科技周边 人工智能 论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

Jun 27, 2023 pm 05:46 PM
ai 论文

生成式 AI 已经风靡了人工智能社区,无论是个人还是企业,都开始热衷于创建相关的模态转换应用,比如文生图、文生视频、文生音乐等等。

最近呢,来自 ServiceNow Research、LIVIA 等科研机构的几位研究者尝试基于文本描述生成论文中的图表。为此,他们提出了一种 FigGen 的新方法,相关论文还被 ICLR 2023 收录为了 Tiny Paper。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收图片

论文地址:https://arxiv.org/pdf/2306.00800.pdf

也许有人会问了,生成论文中的图表有什么难的呢?这样做对于科研又有哪些帮助呢?

科研图表生成有助于以简洁易懂的方式传播研究结果,而自动生成图表可以为研究者带来很多优势,比如节省时间和精力,不用花大力气从头开始设计图表。此外设计出具有视觉吸引力且易理解的图表能使更多的人访问论文。

然而生成图表也面临一些挑战,它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同,论文图表中的概念可能有不同的表示形式,需要细粒度的理解,例如生成一个神经网络图会涉及到高方差的不适定问题。

因此,本文研究者在一个论文图表对数据集上训练了一个生成式模型,捕获图表组件与论文中对应文本之间的关系。这就需要处理不同长度和高技术性文本描述、不同图表样式、图像长宽比以及文本渲染字体、大小和方向问题。

在具体实现过程中,研究者受到了最近文本到图像成果的启发,利用扩散模型来生成图表,提出了一种从文本描述生成科研图表的潜在扩散模型 ——FigGen。

这个扩散模型有哪些独到之处呢?我们接着往下看细节。

模型与方法

研究者从头开始训练了一个潜在扩散模型。

首先学习一个图像自动编码器,用来将图像映射为压缩的潜在表示。图像编码器使用 KL 损失和 OCR 感知损失。调节所用的文本编码器在该扩散模型的训练中端到端进行学习。下表 3 为图像自动编码器架构的详细参数。

然后,该扩散模型直接在潜在空间中进行交互,执行数据损坏的前向调度,同时学习利用时间和文本条件去噪 U-Net 来恢复该过程。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

至于数据集,研究者使用了 Paper2Fig100k,它由论文中的图表文本对组成,包含了 81,194 个训练样本和 21,259 个验证样本。下图 1 为 Paper2Fig100k 测试集中使用文本描述生成的图表示例。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

模型细节

首先是图像编码器。第一阶段,图像自动编码器学习一个从像素空间到压缩潜在表示的映射,使扩散模型训练更快。图像编码器还需要学习将潜在图像映射回像素空间,同时不丢失图表重要细节(如文本渲染质量)。

为此,研究者定义了一个具有瓶颈的卷积编解码器,在因子 f=8 时对图像进行下采样。编码器经过训练可以最小化具有高斯分布的 KL 损失、VGG 感知损失和 OCR 感知损失。

其次是文本编码器。研究者发现通用文本编码器不太适合生成图表任务。因此他们定义了一个在扩散过程中从头开始训练的 Bert transformer,其中使用大小为 512 的嵌入通道,这也是调节 U-Net 的跨注意力层的嵌入大小。研究者还探索了不同设置下(8、32 和 128)的 transformer 层数量的变化。

最后是潜在扩散模型。下表 2 展示了 U-Net 的网络架构。研究者在感知上等效的图像潜在表示中执行扩散过程,其中该图像的输入大小被压缩到了 64x64x4,使扩散模型更快。他们定义了 1,000 个扩散步骤和线性噪声调度。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

训练细节

为了训练图像自动编码器,研究者使用了一个 Adam 优化器,它的有效批大小为 4 个样本、学习率为 4.5e−6,期间使用了 4 个 12GB 的英伟达 V100 显卡。为了实现训练稳定性,他们在 50k 次迭代中 warmup 模型,而不使用判别器。

对于训练潜在扩散模型,研究者也使用 Adam 优化器,它的有效批大小为 32,学习率为 1e−4。在 Paper2Fig100k 数据集上训练该模型时,他们用到了 8 块 80GB 的英伟达 A100 显卡。

实验结果

在生成过程中,研究者采用了具有 200 步的 DDIM 采样器,并且为每个模型生成了 12,000 个样本来计算 FID, IS, KID 以及 OCR-SIM1。稳重使用无分类器指导(CFG)来测试超调节。

下表 1 展示了不同文本编码器的结果。可见,大型文本编码器产生了最好的定性结果,并且可以通过增加 CFG 的规模来改进条件生成。虽然定性样本没有足够的质量来解决问题,但 FigGen 已经掌握了文本和图像之间的关系。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

下图 2 展示了调整无分类器指导(CFG)参数时生成的额外 FigGen 样本。研究者观察到增加 CFG 的规模(这在定量上也得到了体现)可以带来图像质量的改善。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收图片

下图 3 展示了 FigGen 的更多生成示例。要注意样本之间长度的变化,以及文本描述的技术水平,这会密切影响到模型正确生成可理解图像的难度。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收图片

不过研究者也承认,尽管现在这些生成的图表不能为论文作者提供实际帮助,但仍不失为一个有前景的探索方向。

更多研究细节请参阅原论文。

以上是论文插图也能自动生成了,用到了扩散模型,还被ICLR接收的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

SQL 如何添加新列 SQL 如何添加新列 Apr 09, 2025 pm 02:09 PM

SQL 中通过使用 ALTER TABLE 语句为现有表添加新列。具体步骤包括:确定表名称和列信息、编写 ALTER TABLE 语句、执行语句。例如,为 Customers 表添加 email 列(VARCHAR(50)):ALTER TABLE Customers ADD email VARCHAR(50);

SQL 添加列的语法是什么 SQL 添加列的语法是什么 Apr 09, 2025 pm 02:51 PM

SQL 中添加列的语法为 ALTER TABLE table_name ADD column_name data_type [NOT NULL] [DEFAULT default_value]; 其中,table_name 是表名,column_name 是新列名,data_type 是数据类型,NOT NULL 指定是否允许空值,DEFAULT default_value 指定默认值。

SQL 清空表:性能优化技巧 SQL 清空表:性能优化技巧 Apr 09, 2025 pm 02:54 PM

提高 SQL 清空表性能的技巧:使用 TRUNCATE TABLE 代替 DELETE,释放空间并重置标识列。禁用外键约束,防止级联删除。使用事务封装操作,保证数据一致性。批量删除大数据,通过 LIMIT 限制行数。清空后重建索引,提高查询效率。

SQL 添加列时如何设置默认值 SQL 添加列时如何设置默认值 Apr 09, 2025 pm 02:45 PM

为新添加的列设置默认值,使用 ALTER TABLE 语句:指定添加列并设置默认值:ALTER TABLE table_name ADD column_name data_type DEFAULT default_value;使用 CONSTRAINT 子句指定默认值:ALTER TABLE table_name ADD COLUMN column_name data_type CONSTRAINT default_constraint DEFAULT default_value;

使用 DELETE 语句清空 SQL 表 使用 DELETE 语句清空 SQL 表 Apr 09, 2025 pm 03:00 PM

是的,DELETE 语句可用于清空 SQL 表,步骤如下:使用 DELETE 语句:DELETE FROM table_name;替换 table_name 为要清空的表的名称。

Redis内存碎片如何处理? Redis内存碎片如何处理? Apr 10, 2025 pm 02:24 PM

Redis内存碎片是指分配的内存中存在无法再分配的小块空闲区域。应对策略包括:重启Redis:彻底清空内存,但会中断服务。优化数据结构:使用更适合Redis的结构,减少内存分配和释放次数。调整配置参数:使用策略淘汰最近最少使用的键值对。使用持久化机制:定期备份数据,重启Redis清理碎片。监控内存使用情况:及时发现问题并采取措施。

phpmyadmin建立数据表 phpmyadmin建立数据表 Apr 10, 2025 pm 11:00 PM

要使用 phpMyAdmin 创建数据表,以下步骤必不可少:连接到数据库并单击“新建”标签。为表命名并选择存储引擎(推荐 InnoDB)。通过单击“添加列”按钮添加列详细信息,包括列名、数据类型、是否允许空值以及其他属性。选择一个或多个列作为主键。单击“保存”按钮创建表和列。

使用 Redis Exporter 服务监控 Redis Droplet 使用 Redis Exporter 服务监控 Redis Droplet Apr 10, 2025 pm 01:36 PM

有效监控 Redis 数据库对于保持最佳性能、识别潜在瓶颈和确保整体系统可靠性至关重要。 Redis Exporter Service 是一个强大的实用程序,旨在使用 Prometheus 监控 Redis 数据库。 本教程将指导您完成 Redis Exporter Service 的完整设置和配置,确保您无缝建立监控解决方案。通过学习本教程,您将实现完全可操作的监控设置

See all articles