目錄
開端(2012-2015)
GAN的五年(2015-2020)
首頁 科技週邊 人工智慧 Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

May 15, 2023 pm 07:04 PM
ai 影像

現在,已是2022年底。

深度學習模型在生成影像上的表現,已經如此出色。很顯然,它在未來會給我們更多的驚喜。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

十年來,我們是如何走到今天這一步的?

在下面的時間軸裡,我們會追溯一些里程碑式的時刻,也就是那些影響了AI圖像合成的論文、架構、模型、資料集、實驗登場的時候。

一切,都要從十年前的夏天說起。

開端(2012-2015)

深度神經網路問世之後,人們意識到:它將徹底改變影像分類。

同時,研究人員開始探索相反的方向,如果使用一些對分類非常有效的技術(例如卷積層)來製作圖像,會發生什麼?

這就是「人工智慧之夏」誕生的伊始。

2012 年 12 月

一切發端於此。

這一年,論文《深度卷積神經網路的ImageNet分類》橫空出世。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

論文作者之一,就是「AI三巨頭」之一的Hinton。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

它首次將深度卷積神經網路 (CNN)、GPU和龐大的網路來源資料集(ImageNet)結合在一起。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

2014 年12 月

Ian Goodfellow等AI巨佬發表了史詩性論文鉅作《生成式對抗網絡》。

GAN是第一個致力於影像合成而非分析的現代神經網路架構(「現代」的定義即2012年後)。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

它引入了一種基於賽局理論的獨特學習方法,由兩個子網路「生成器」和「鑑別器」進行競爭。

最終,只有「生成器」被保留在系統之外,並用於影像合成。

Hello World!來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces資料集上訓練的,該資料集已從網路上刪除

#2015 年11 月

#具有重大意義的論文《使用深度卷積生成對抗網路進行無監督代表學習》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

在這篇論文中,作者描述了第一個實際可用的GAN 架構 (DCGAN)。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這篇論文也首次提出了潛在空間操弄的問題──概念是否映射到潛在空間方向?

GAN的五年(2015-2020)

#這五年間,GAN被應用於各種影像處理任務,例如風格轉換、修復、去噪和超解析度。

期間,GAN架構的論文開始爆炸式井噴。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

#專案網址:https://github.com/nightrome/really-awesome-gan

同時,GAN的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。

第一個「AI 藝術」醜聞發生在2018年。三位法國學生使用「借來」的程式碼產生一副AI肖像,這副肖像成為第一幅在佳士得被拍賣的AI畫像。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

同時,transformer架構徹底改變了NLP。

在不久的將來,這件事會對影像合成產生重大影響。

2017 年 6 月

《Attention Is All You Need》論文發布。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》裡,也有詳實的解釋。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

自此,Transformer架構(以BERT等預訓練模型的形式)徹底改變了自然語言處理 (NLP) 領域。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

2018 年7 月

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

《概念性標註:用於自動圖像字幕的清理、上位化、圖像替代文字資料集》論文發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這個和其他多模態資料集對於 CLIP 和 DALL-E 等模型將變得極為重要。

2018-20年

#NVIDIA的研究人員對GAN 架構進行了一系列徹底改進。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

在《使用有限資料訓練生成對抗網路》這篇論文中,介紹了最新的StyleGAN2-ada。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

GAN 產生的影像第一次變得與自然影像無法區分,至少對於像Flickr-Faces-HQ (FFHQ)這樣高度最佳化的資料集來說是這樣。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區AI藝術的典型代表,其中生成模型的非寫實性是藝術探索的重點

2020 年5 月

##論文《語言模型是小樣本學習者》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構的強大功能。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

2020 年12 月

論文《用於高解析度影像合成的Taming transformers》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

ViT表明,Transformer架構可用於映像。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

本文介紹的方法VQGAN在基準測試中產生了SOTA結果。

2010年代後期的GAN架構的品質主要根據對齊的臉部影像進行評估,對於更多異質資料集的效果很有限。

因此,在學術/工業和藝術實驗中,人臉仍然是一個重要的參考點。

Transformer的時代(2020-2022)

#Transformer架構的出現,徹底改寫了影像合成的歷史。

從此,影​​像合成領域開始拋下GAN。

「多模態」深度學習整合了NLP和電腦視覺的技術,「即時工程」取代了模型訓練和調整,成為影像合成的藝術方法。

《從自然語言監督中學習可遷移視覺模型》這篇論文中,提出了CLIP 架構。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

可以說,目前的影像合成熱潮,是由CLIP首次引入的多模態功能所推動的。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

論文中的CLIP架構

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

########################### 2021 年1 月#####################

論文《零樣本文字到圖像生成》發表(另請參閱OpenAI 的部落格文章),其中介紹了即將轟動全世界的DALL-E的第一個版本。

這個版本透過將文字和圖像(由VAE壓縮為「TOKEN」)組合在單一資料流中來運作。

該模型只是「continues」the“sentence”。

資料(250M 圖片)包括來自維基百科的文字圖像對、概念說明和YFCM100M的篩選子集。

CLIP為影像合成的「多模態」方法奠定了基礎。

2021 年1 月

論文《從自然語言監督學習可遷移視覺模型》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

論文中介紹了CLIP,結合了ViT和普通Transformer的多模態模型。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

CLIP會學習圖像和標題的「共享潛在空間」,因此可以標記圖像。

模型在論文附錄A.1中列出的大量資料集上進行訓練。

2021 年6 月

#論文《擴散模型的發佈在影像合成方面擊敗了GAN》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

擴散模型引入了一種不同於GAN方法的影像合成方法。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

研究者透過從人工添加的雜訊重建影像來學習。

它們與變分自動編碼器 (VAE) 相關。

2021 年 7 月

DALL-E mini發布。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

它是DALL-E的複製品(體積更小,對架構和資料的調整很少)。

資料包括Conceptual 12M、Conceptual Captions以及 OpenAI 用於原始 DALL-E 模型的YFCM100M相同過濾子集。

因為沒有任何內容過濾器或API 限制,DALL-E mini為創意探索提供了巨大的潛力,並導致推特上「怪異的DALL-E」圖像爆炸式增長。

2021-2022

Katherine Crowson發布了一系列CoLab筆記,探索製作CLIP 引導生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,僅在2022年作為預印本發布但VQGAN一發布就出現了公共實驗)。

就像在早期的GAN時代一樣,藝術家和開發者以非常有限的手段對現有架構進行重大改進,然後由公司簡化,最後由wombo.ai等「新創公司」商業化。

2022 年4 月

#論文《具有CLIP 潛能的分層文字條件圖像生成》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

該論文介紹了DALL-E 2。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字


#它建立在僅幾週前發布的GLIDE論文(《 GLIDE :使用文字引導擴散模型實現逼真圖像生成和編輯》的基礎上。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

同時,由於DALL-E 2 的訪問受限和有意限制,人們對DALL-E mini重新產生了興趣。

根據模型卡,數據包括“公開可用資源和我們許可的資源的組合”,以及根據論文的完整CLIP和DALL-E資料集。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

#「金髮女郎的人像照片,用數位單眼相機拍攝,中性背景,高解析度」,使用DALL-E 2 生成。基於Transformer 的生成模型與後來的GAN 架構(如StyleGAN 2)的真實感相匹配,但允許創建廣泛的各種主題和圖案

2022 年5-6 月

#5月,論文《具有深度語言理解的真實感文本到圖像擴散模型”發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

#6月,論文《用於內容豐富的文本到圖像生成的縮放自回歸模型》發表。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這兩篇論文中,介紹了Imagegen和Parti。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字


以及Google對DALL-E 2的回答。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

# #「你知道我今天為什麼阻止你嗎?」由DALL-E 2生成,「prompt engineering」從此成為藝術圖像合成的主要方法

AI Photoshop(2022年至今)

雖然DALL-E 2為圖像模型設定了新標準,但它迅速商業化,也意味著在使用上從一開始就受到限制。

#用戶仍繼續嘗試DALL-E mini等較小的模型。

緊接著,隨著石破天驚的Stable Diffusion的發布,所有這一切都發生了變化。

可以說,Stable Diffusion標誌著影像合成「Photoshop時代」的開始。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

「有四串葡萄的靜物,試圖創造出像古代畫家Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion產生的六種變化

2022 年8 月

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

Stability.ai發表Stable Diffusion模型。

在論文《具有潛在擴散模型的高解析度影像合成》中,Stability.ai隆重推出了Stable Diffusion。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

這個模型可以實現與DALL-E 2同等的照片級真實感。

Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

除了DALL-E 2,模型幾乎立即向公眾開放,並且可以在CoLab和Huggingface平台上運行。

2022 年8 月

#Google發表論文《DreamBooth:為主題驅動生成微調文字到影像擴散模型》。 Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字

###DreamBooth提供了對擴散模型越來越細粒度的控制。 #####################然而,即使沒有此類額外的技術幹預,使用像Photoshop 這樣的生成模型也變得可行,從草圖開始,逐層新增生成的修改。 ##################2022 年10 月###########################最大的圖庫公司之一Shutterstock宣布與OpenAI 合作提供/許可生成圖像,可以預計,圖庫市場將受到Stable Diffusion等生成模型的嚴重影響。 ######

以上是Hinton上榜!盤點AI圖像合成10年史,那些值得被記住的論文和名字的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

比特幣今日價格行情 比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響,投資者需關注技術和基本面分析以做出明智決策。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

See all articles