谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
识别和生成是人工智能领域中的两大核心任务,如果能将二者合并到一个统一的系统中,这两个任务应该能实现互补。事实上,在自然语言处理中,像 BERT [1] 这样的模型不仅能够生成高质量的文本,还能够提取文本中的特征。
然而,在计算机视觉领域,目前的图像生成模型和识别模型大多是分开进行训练,没有充分利用这两个任务的协同作用。这主要是由于图像生成和图像识别的模型通常具有本质上的结构差异:图像生成的输入是低维度的特征或噪声,而输出是高维度的原始图像;与之相反,图像识别的输入是高维度的原始图像,而输出是低维度的特征。
最近,来自 MIT 和 Google Research 的研究人员提出了一种基于图像语义符掩码的表征学习方法,首次在一个统一的框架中实现了图像生成和表征学习,并在多个数据集上取得了 SOTA 表现。研究论文已被 CVPR 2023 接收,相关代码与预训练模型已开源。
- 论文地址:https://arxiv.org/abs/2211.09117
- 代码地址:https://github.com/LTH14/mage
在 CVPR 2022 上,MAE [2] 提出了一种基于图像掩码(MIM)的表征学习方法,并在多个子任务上取得了非常好的效果。在高达 75% 的掩码率下,MAE 可以重构出与原图语义十分贴合的图像,并借此让网络能够自监督地学习图像中的特征。然而,如图 1 所示, MAE 重建的图像虽然具有与原始图像相似的语义信息,但会出现严重的模糊与失真问题。类似的问题也出现在所有基于 MIM 的表征学习方法中。同时,目前的生成模型,不管是扩散模型还是 GAN,都缺乏提取高质量图像特征的能力。
图 1:MAE 与 MAGE 重构对比
方法概述
针对上述问题,本文作者提出了 MAGE(Masked Generative Encoder),首次实现了统一的图像生成和特征提取模型。与MIM直接作用于图像的掩码方法不同,MAGE 提出了基于图像语义符的 masked image token modeling 方法。如图所示,MAGE 首先使用 VQGAN [3] 编码器将原始图像转换为离散的语义符。之后,MAGE 对其进行随机掩码,并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构,重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率,MAGE 可以同时进行生成模型(接近 100% 掩码率)和表征学习(50%-80% 掩码率)的训练。如图 1 所示,MAGE 重建出的图像不仅具有与原始图像一致的语义信息,还能够同时保证生成图像的多样性与真实性。
图 2:MAGE 结构图
实验结果
MAGE 在多个图像生成与图像识别任务上都达到或超过了 SOTA。
在 ImageNet 的无监督图像生成任务中,MAGE 的 FID 从之前的 > 20 降至 7.04,甚至达到了有监督图像生成的水准(有监督 Latent Diffusion 在 ImageNet 上的 FID 为 3.60):
图3:MAGE 无监督图像生成样例
MAGE 还能够进行各类图像编辑工作,包括 image inpainting、outpainting、uncropping:
图 4:MAGE 图像编辑样例
在表征学习方面,MAGE 在 ImageNet linear probing、少样本学习、迁移学习等任务中,相较于目前的 MIM 方法有了大幅提升,并且可以达到或超过目前最优的自监督学习方法的水平。
结语
本文旨在将图像生成与表征学习统一起来。为此,本文作者提出了 MAGE,一种基于图像语义符掩码的自监督学习框架。该框架简洁、高效,并首次在图像生成和表征学习上都达到或超越了 SOTA 的表现。感兴趣的读者可以查看论文原文,以了解更多研究细节。
以上是谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DeepSeek是一款功能强大的信息检索工具,其优势在于能够深入挖掘信息,但缺点是速度较慢、结果呈现方式较简单且数据库覆盖范围有限,需要根据具体需求权衡其利弊。

DeepSeek是一个专有搜索引擎,仅在特定数据库或系统中搜索,速度更快,准确性更高。使用时,建议用户阅读文档、尝试不同的搜索策略、寻求帮助和反馈使用体验,以便充分利用其优势。

本文详细介绍了芝麻开门交易所(Gate.io)网页版和Gate交易App的注册流程。 无论是网页注册还是App注册,都需要访问官方网站或应用商店下载正版App,然后填写用户名、密码、邮箱和手机号等信息,并完成邮箱或手机验证。

为什么Bybit交易所链接无法直接下载安装?Bybit是一个加密货币交易所,为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载,原因如下:1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求,因为它们涉及金融服务,需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区,与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定,Bybit应用程序只能通过官方网站或其他授权渠

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能着称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

访问币安官方网站最新版登录入口,只需遵循这些简单步骤。前往官方网址,点击右上角的“登录”按钮。选择您现有的登录方式,如果是新用户,请“注册”。输入您的注册手机号或邮箱和密码,并完成身份验证(例如手机验证码或谷歌身份验证器)。成功验证后,即可访问币安官方网站的最新版登录入口。

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤,适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息,包括官网、App Store 和 Google Play,并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App,包括应用商店、官网 APK 下载和官网跳转,并完成注册、身份验证和安全设置。此外,指南还涵盖了常见问题和注意事项,例如
