目录
开端(2012-2015)
GAN的五年(2015-2020)
AI Photoshop(2022年至今)
首页 科技周边 人工智能 Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

May 15, 2023 pm 07:04 PM
ai 图像

现在,已是2022年底。

深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

十年来,我们是如何走到今天这一步的?

在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。

一切,都要从十年前的那个夏天说起。

开端(2012-2015)

深度神经网络面世之后,人们意识到:它将彻底改变图像分类。

同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么?

这就是「人工智能之夏」诞生的伊始。

2012 年 12 月

一切发端于此。

这一年,论文《深度卷积神经网络的ImageNet分类》横空出世。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文作者之一,就是「AI三巨头」之一的Hinton。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集(ImageNet)结合在一起。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2014 年 12 月

Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。

GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。

最终,只有「生成器」被保留在系统之外,并用于图像合成。

Hello World!来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除

2015 年 11 月

具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?

GAN的五年(2015-2020)

这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。

期间,GAN架构的论文开始爆炸式井喷。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

项目地址:https://github.com/nightrome/really-awesome-gan

与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。

第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

与此同时,transformer架构彻底改变了NLP。

在不久的将来,这件事会对图像合成产生重大影响。

2017 年 6 月

《Attention Is All You Need》论文发布。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2018 年 7 月

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。

2018-20年

NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在《使用有限数据训练生成对抗网络》这篇论文中,介绍了最新的StyleGAN2-ada。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

GAN 生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点

2020 年 5 月

论文《语言模型是小样本学习者》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2020 年 12 月

论文《用于高分辨率图像合成的Taming transformers》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

ViT表明,Transformer架构可用于图像。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。

2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。

因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。

Transformer的时代(2020-2022)

Transformer架构的出现,彻底改写了图像合成的历史。

从此,图像合成领域开始抛下GAN。

「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。

《从自然语言监督中学习可迁移视觉模型》这篇论文中,提出了CLIP 架构。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文中的CLIP架构

2021 年 1 月

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文《零样本文本到图像生成》发表(另请参阅OpenAI 的博客文章),其中介绍了即将轰动全世界的DALL-E的第一个版本。

这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。

该模型只是「continues」the「sentence」。

数据(250M 图像)包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。

CLIP为图像合成的「多模态」方法奠定了基础。

2021 年 1 月

论文《从自然语言监督学习可迁移视觉模型》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。

模型在论文附录A.1中列出的大量数据集上进行训练。

2021 年 6 月

论文《扩散模型的发布在图像合成方面击败了GAN》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

扩散模型引入了一种不同于GAN方法的图像合成方法。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

研究者通过从人工添加的噪声中重建图像来学习。

它们与变分自动编码器 (VAE) 相关。

2021 年 7 月

DALL-E mini发布。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

它是DALL-E的复制品(体积更小,对架构和数据的调整很少)。

数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。

因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。

2021-2022

Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验)。

就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。

2022 年 4 月

论文《具有 CLIP 潜能的分层文本条件图像生成》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

该论文介绍了DALL-E 2。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字


它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。

根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案

2022 年 5-6 月

5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这两篇论文中,介绍了Imagegen和Parti。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字


以及谷歌对DALL-E 2的回答。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop(2022年至今)

虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。

用户仍继续尝试DALL-E mini等较小的模型。

紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。

可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化

2022 年 8 月

Stability.ai发布Stable Diffusion模型。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这个模型可以实现与DALL-E 2同等的照片级真实感。

除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。

2022 年 8 月

谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

DreamBooth提供了对扩散模型越来越细粒度的控制。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。

2022 年 10 月

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。

以上是Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

centos关机命令行 centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown,语法为 shutdown [选项] 时间 [信息]。选项包括:-h 立即停止系统;-P 关机后关电源;-r 重新启动;-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

CentOS上GitLab的备份方法有哪些 CentOS上GitLab的备份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系统下GitLab的备份与恢复策略为了保障数据安全和可恢复性,CentOS上的GitLab提供了多种备份方法。本文将详细介绍几种常见的备份方法、配置参数以及恢复流程,帮助您建立完善的GitLab备份与恢复策略。一、手动备份利用gitlab-rakegitlab:backup:create命令即可执行手动备份。此命令会备份GitLab仓库、数据库、用户、用户组、密钥和权限等关键信息。默认备份文件存储于/var/opt/gitlab/backups目录,您可通过修改/etc/gitlab

如何检查CentOS HDFS配置 如何检查CentOS HDFS配置 Apr 14, 2025 pm 07:21 PM

检查CentOS系统中HDFS配置的完整指南本文将指导您如何有效地检查CentOS系统上HDFS的配置和运行状态。以下步骤将帮助您全面了解HDFS的设置和运行情况。验证Hadoop环境变量:首先,确认Hadoop环境变量已正确设置。在终端执行以下命令,验证Hadoop是否已正确安装并配置:hadoopversion检查HDFS配置文件:HDFS的核心配置文件位于/etc/hadoop/conf/目录下,其中core-site.xml和hdfs-site.xml至关重要。使用

CentOS上Zookeeper性能调优有哪些方法 CentOS上Zookeeper性能调优有哪些方法 Apr 14, 2025 pm 03:18 PM

在CentOS上对Zookeeper进行性能调优,可以从多个方面入手,包括硬件配置、操作系统优化、配置参数调整以及监控与维护等。以下是一些具体的调优方法:硬件配置建议使用SSD硬盘:由于Zookeeper的数据写入磁盘,强烈建议使用SSD以提高I/O性能。足够的内存:为Zookeeper分配足够的内存资源,避免频繁的磁盘读写。多核CPU:使用多核CPU,确保Zookeeper可以并行处理请

CentOS上如何进行PyTorch模型训练 CentOS上如何进行PyTorch模型训练 Apr 14, 2025 pm 03:03 PM

在CentOS系统上高效训练PyTorch模型,需要分步骤进行,本文将提供详细指南。一、环境准备:Python及依赖项安装:CentOS系统通常预装Python,但版本可能较旧。建议使用yum或dnf安装Python3并升级pip:sudoyumupdatepython3(或sudodnfupdatepython3),pip3install--upgradepip。CUDA与cuDNN(GPU加速):如果使用NVIDIAGPU,需安装CUDATool

CentOS上PyTorch的GPU支持情况如何 CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

在CentOS系统上启用PyTorchGPU加速,需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程:CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如,您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网,根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

docker原理详解 docker原理详解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux内核特性,提供高效、隔离的应用运行环境。其工作原理如下:1. 镜像作为只读模板,包含运行应用所需的一切;2. 联合文件系统(UnionFS)层叠多个文件系统,只存储差异部分,节省空间并加快速度;3. 守护进程管理镜像和容器,客户端用于交互;4. Namespaces和cgroups实现容器隔离和资源限制;5. 多种网络模式支持容器互联。理解这些核心概念,才能更好地利用Docker。

CentOS下PyTorch版本怎么选 CentOS下PyTorch版本怎么选 Apr 14, 2025 pm 02:51 PM

在CentOS下选择PyTorch版本时,需要考虑以下几个关键因素:1.CUDA版本兼容性GPU支持:如果你有NVIDIAGPU并且希望利用GPU加速,需要选择支持相应CUDA版本的PyTorch。可以通过运行nvidia-smi命令查看你的显卡支持的CUDA版本。CPU版本:如果没有GPU或不想使用GPU,可以选择CPU版本的PyTorch。2.Python版本PyTorch

See all articles