Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字-人工智能-PHP中文网

开端（2012-2015）

GAN的五年（2015-2020）

AI Photoshop（2022年至今）

首页

科技周边

人工智能

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 15, 2023 pm 07:04 PM

ai 图像

现在，已是2022年底。

深度学习模型在生成图像上的表现，已经如此出色。很显然，它在未来会给我们更多的惊喜。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

十年来，我们是如何走到今天这一步的？

在下面的时间线里，我们会追溯一些里程碑式的时刻，也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。

一切，都要从十年前的那个夏天说起。

开端（2012-2015）

深度神经网络面世之后，人们意识到：它将彻底改变图像分类。

同时，研究人员开始探索相反的方向，如果使用一些对分类非常有效的技术（例如卷积层）来制作图像，会发生什么？

这就是「人工智能之夏」诞生的伊始。

2012 年 12 月

一切发端于此。

这一年，论文《深度卷积神经网络的ImageNet分类》横空出世。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

论文作者之一，就是「AI三巨头」之一的Hinton。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集（ImageNet）结合在一起。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

2014 年 12 月

Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。

GAN是第一个致力于图像合成而非分析的现代神经网络架构（「现代」的定义即2012年后）。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

它引入了一种基于博弈论的独特学习方法，由两个子网络“生成器”和“鉴别器”进行竞争。

最终，只有「生成器」被保留在系统之外，并用于图像合成。

Hello World！来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的，该数据集已从网络上删除

2015 年 11 月

具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

在这篇论文中，作者描述了第一个实际可用的GAN 架构 (DCGAN)。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向？

GAN的五年（2015-2020）

这五年间，GAN被应用于各种图像处理任务，例如风格转换、修复、去噪和超分辨率。

期间，GAN架构的论文开始爆炸式井喷。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

项目地址：https://github.com/nightrome/really-awesome-gan

与此同时，GAN的艺术实验开始兴起，Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。

第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像，这副肖像成为第一幅在佳士得被拍卖的AI画像。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

与此同时，transformer架构彻底改变了NLP。

在不久的将来，这件事会对图像合成产生重大影响。

2017 年 6 月

《Attention Is All You Need》论文发布。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里，也有详实的解释。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

自此，Transformer架构（以BERT等预训练模型的形式）彻底改变了自然语言处理 (NLP) 领域。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

2018 年 7 月

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

《概念性标注：用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。

2018-20年

NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

在《使用有限数据训练生成对抗网络》这篇论文中，介绍了最新的StyleGAN2-ada。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

GAN 生成的图像第一次变得与自然图像无法区分，至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表，其中生成模型的非写实性是艺术探索的重点

2020 年 5 月

论文《语言模型是小样本学习者》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

OpenAI的LLM Generative Pre-trained Transformer 3（GPT-3）展示了变压器架构的强大功能。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

2020 年 12 月

论文《用于高分辨率图像合成的Taming transformers》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

ViT表明，Transformer架构可用于图像。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。

2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估，对于更多异构数据集的效果很有限。

因此，在学术/工业和艺术实验中，人脸仍然是一个重要的参考点。

Transformer的时代（2020-2022）

Transformer架构的出现，彻底改写了图像合成的历史。

从此，图像合成领域开始抛下GAN。

「多模态」深度学习整合了NLP和计算机视觉的技术，「即时工程」取代了模型训练和调整，成为图像合成的艺术方法。

《从自然语言监督中学习可迁移视觉模型》这篇论文中，提出了CLIP 架构。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

可以说，当前的图像合成热潮，是由CLIP首次引入的多模态功能推动的。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

论文中的CLIP架构

2021 年 1 月

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

论文《零样本文本到图像生成》发表（另请参阅OpenAI 的博客文章），其中介绍了即将轰动全世界的DALL-E的第一个版本。

这个版本通过将文本和图像（由VAE压缩为「TOKEN」）组合在单个数据流中来工作。

该模型只是「continues」the「sentence」。

数据（250M 图像）包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。

CLIP为图像合成的「多模态」方法奠定了基础。

2021 年 1 月

论文《从自然语言监督学习可迁移视觉模型》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

论文中介绍了CLIP，这是一种结合了ViT和普通Transformer的多模态模型。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

CLIP会学习图像和标题的「共享潜在空间」，因此可以标记图像。

模型在论文附录A.1中列出的大量数据集上进行训练。

2021 年 6 月

论文《扩散模型的发布在图像合成方面击败了GAN》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

扩散模型引入了一种不同于GAN方法的图像合成方法。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

研究者通过从人工添加的噪声中重建图像来学习。

它们与变分自动编码器 (VAE) 相关。

2021 年 7 月

DALL-E mini发布。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

它是DALL-E的复制品（体积更小，对架构和数据的调整很少）。

数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。

因为没有任何内容过滤器或 API 限制，DALL-E mini为创造性探索提供了巨大的潜力，并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。

2021-2022

Katherine Crowson发布了一系列CoLab笔记，探索制作 CLIP 引导生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP（Open domain image generation and editing with natural language guidance，仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验）。

就像在早期的GAN时代一样，艺术家和开发者以非常有限的手段对现有架构进行重大改进，然后由公司简化，最后由wombo.ai等「初创公司」商业化。

2022 年 4 月

论文《具有 CLIP 潜能的分层文本条件图像生成》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

该论文介绍了DALL-E 2。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

它建立在仅几周前发布的 GLIDE论文（《 GLIDE：使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

同时，由于 DALL-E 2 的访问受限和有意限制，人们对DALL-E mini重新产生了兴趣。

根据模型卡，数据包括「公开可用资源和我们许可的资源的组合」，以及根据该论文的完整CLIP和 DALL-E数据集。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

「金发女郎的人像照片，用数码单反相机拍摄，中性背景，高分辨率」，使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构（如 StyleGAN 2）的真实感相匹配，但允许创建广泛的各种主题和图案

2022 年 5-6 月

5月，论文《具有深度语言理解的真实感文本到图像扩散模型》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

6月，论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

这两篇论文中，介绍了Imagegen和Parti。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

以及谷歌对DALL-E 2的回答。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

「你知道我今天为什么阻止你吗？」由DALL-E 2生成，「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop（2022年至今）

虽然DALL-E 2为图像模型设定了新标准，但它迅速商业化，也意味着在使用上从一开始就受到限制。

用户仍继续尝试DALL-E mini等较小的模型。

紧接着，随着石破天惊的Stable Diffusion的发布，所有这一切都发生了变化。

可以说，Stable Diffusion标志着图像合成「Photoshop时代」的开始。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

「有四串葡萄的静物，试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez，1636 年，马德里普拉多的葡萄一样栩栩如生的葡萄」，Stable Diffusion产生的六种变化

2022 年 8 月

Stability.ai发布Stable Diffusion模型。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

在论文《具有潜在扩散模型的高分辨率图像合成》中，Stability.ai隆重推出了Stable Diffusion。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

这个模型可以实现与DALL-E 2同等的照片级真实感。

除了DALL-E 2，模型几乎立即向公众开放，并且可以在CoLab和Huggingface平台上运行。

2022 年 8 月

谷歌发表论文《DreamBooth：为主题驱动生成微调文本到图像扩散模型》。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

DreamBooth提供了对扩散模型越来越细粒度的控制。

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

然而，即使没有此类额外的技术干预，使用像 Photoshop 这样的生成模型也变得可行，从草图开始，逐层添加生成的修改。

2022 年 10 月

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像，可以预计，图库市场将受到Stable Diffusion等生成模型的严重影响。

以上是Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7552

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown，语法为 shutdown [选项] 时间 [信息]。选项包括：-h 立即停止系统；-P 关机后关电源；-r 重新启动；-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

CentOS上GitLab的备份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系统下GitLab的备份与恢复策略为了保障数据安全和可恢复性，CentOS上的GitLab提供了多种备份方法。本文将详细介绍几种常见的备份方法、配置参数以及恢复流程，帮助您建立完善的GitLab备份与恢复策略。一、手动备份利用gitlab-rakegitlab:backup:create命令即可执行手动备份。此命令会备份GitLab仓库、数据库、用户、用户组、密钥和权限等关键信息。默认备份文件存储于/var/opt/gitlab/backups目录，您可通过修改/etc/gitlab

如何检查CentOS HDFS配置 Apr 14, 2025 pm 07:21 PM

检查CentOS系统中HDFS配置的完整指南本文将指导您如何有效地检查CentOS系统上HDFS的配置和运行状态。以下步骤将帮助您全面了解HDFS的设置和运行情况。验证Hadoop环境变量:首先，确认Hadoop环境变量已正确设置。在终端执行以下命令，验证Hadoop是否已正确安装并配置：hadoopversion检查HDFS配置文件:HDFS的核心配置文件位于/etc/hadoop/conf/目录下，其中core-site.xml和hdfs-site.xml至关重要。使用

CentOS上Zookeeper性能调优有哪些方法 Apr 14, 2025 pm 03:18 PM

在CentOS上对Zookeeper进行性能调优，可以从多个方面入手，包括硬件配置、操作系统优化、配置参数调整以及监控与维护等。以下是一些具体的调优方法：硬件配置建议使用SSD硬盘：由于Zookeeper的数据写入磁盘，强烈建议使用SSD以提高I/O性能。足够的内存：为Zookeeper分配足够的内存资源，避免频繁的磁盘读写。多核CPU：使用多核CPU，确保Zookeeper可以并行处理请

CentOS上如何进行PyTorch模型训练 Apr 14, 2025 pm 03:03 PM

在CentOS系统上高效训练PyTorch模型，需要分步骤进行，本文将提供详细指南。一、环境准备：Python及依赖项安装:CentOS系统通常预装Python，但版本可能较旧。建议使用yum或dnf安装Python3并升级pip：sudoyumupdatepython3(或sudodnfupdatepython3)，pip3install--upgradepip。CUDA与cuDNN(GPU加速):如果使用NVIDIAGPU，需安装CUDATool

CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

在CentOS系统上启用PyTorchGPU加速，需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程：CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如，您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网，根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

docker原理详解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux内核特性，提供高效、隔离的应用运行环境。其工作原理如下：1. 镜像作为只读模板，包含运行应用所需的一切；2. 联合文件系统（UnionFS）层叠多个文件系统，只存储差异部分，节省空间并加快速度；3. 守护进程管理镜像和容器，客户端用于交互；4. Namespaces和cgroups实现容器隔离和资源限制；5. 多种网络模式支持容器互联。理解这些核心概念，才能更好地利用Docker。

CentOS下PyTorch版本怎么选 Apr 14, 2025 pm 02:51 PM

在CentOS下选择PyTorch版本时，需要考虑以下几个关键因素：1.CUDA版本兼容性GPU支持：如果你有NVIDIAGPU并且希望利用GPU加速，需要选择支持相应CUDA版本的PyTorch。可以通过运行nvidia-smi命令查看你的显卡支持的CUDA版本。CPU版本：如果没有GPU或不想使用GPU，可以选择CPU版本的PyTorch。2.Python版本PyTorch

See all articles

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

开端（2012-2015）

GAN的五年（2015-2020）

AI Photoshop（2022年至今）

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题