Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat-AI-php.cn

Kini, sudah penghujung tahun 2022.

Prestasi model pembelajaran mendalam dalam menjana imej sudah begitu baik. Jelas sekali, ia akan memberi kita lebih banyak kejutan pada masa hadapan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Bagaimana kita sampai ke tahap sekarang dalam tempoh sepuluh tahun?

Dalam garis masa di bawah, kami akan mengesan beberapa detik penting, iaitu, apabila kertas kerja, seni bina, model, set data dan eksperimen yang mempengaruhi sintesis imej AI dilancarkan.

Semuanya bermula dari musim panas itu sepuluh tahun yang lalu.

Permulaan (2012-2015)

Selepas kemunculan rangkaian neural dalam, orang ramai menyedari bahawa ia akan mengubah klasifikasi imej sepenuhnya.

Pada masa yang sama, penyelidik mula meneroka arah yang bertentangan, apakah yang akan berlaku jika imej dihasilkan menggunakan beberapa teknik yang sangat berkesan untuk pengelasan, seperti lapisan konvolusi?

Ini adalah permulaan "Musim Panas Kepintaran Buatan".

Disember 2012

Di sinilah semuanya bermula.

Tahun ini, kertas kerja "ImageNet Classification of Deep Convolutional Neural Networks" telah diterbitkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Salah seorang pengarang kertas kerja ialah Hinton, salah seorang daripada "Tiga Besar" AI.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Buat pertama kali, ia menggabungkan rangkaian neural convolutional mendalam (CNN), GPU dan set data sumber internet yang besar (ImageNet).

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Disember 2014

Ian Goodfellow dan gergasi AI lain menerbitkan kertas kerja epik "Rangkaian Adversarial Generatif".

GAN ialah seni bina rangkaian saraf moden pertama yang dikhususkan untuk sintesis imej dan bukannya analisis (takrifan "moden" adalah selepas 2012).

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Ia memperkenalkan kaedah pembelajaran unik berdasarkan teori permainan, dengan dua sub-rangkaian "Generator" dan "Discriminator" bersaing.

Akhirnya, hanya "penjana" disimpan di luar sistem dan digunakan untuk sintesis imej.

Hello Dunia! GAN menjana sampel muka daripada kertas 2014 Goodfellow et al. Model ini dilatih pada set data Toronto Faces, yang telah dialih keluar daripada web

November 2015

Kertas penting "Pembelajaran Wakil Tanpa Pengawasan Menggunakan Rangkaian Adversarial Generatif Konvolusi Dalam" telah diterbitkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Dalam kertas kerja ini, penulis menerangkan seni bina GAN yang boleh digunakan secara praktikal (DCGAN) pertama.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Kertas kerja ini juga menimbulkan persoalan manipulasi ruang terpendam buat kali pertama - adakah konsep memetakan arah ruang terpendam?

Lima tahun GAN (2015-2020)

Sepanjang lima tahun ini, GAN telah digunakan untuk pelbagai tugas pemprosesan imej, seperti pemindahan gaya, pemulihan, denoising dan resolusi super. Semasa

, kertas kerja mengenai seni bina GAN mula meletup.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Alamat projek: https://github.com/nightrome/really-awesome-gan

Pada masa yang sama, eksperimen artistik dengan GAN mula muncul, dan karya pertama Mike Tyka, Mario Klingenmann, Anna Ridler, Helena Sarin dan lain-lain muncul.

Skandal “seni AI” pertama berlaku pada 2018. Tiga pelajar Perancis menggunakan kod "pinjaman" untuk menghasilkan potret AI, yang menjadi potret AI pertama yang dilelong di Christie's.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Pada masa yang sama, seni bina transformer merevolusikan NLP.

Perkara ini akan memberi kesan yang ketara kepada sintesis imej dalam masa terdekat.

Jun 2017

Kertas "Perhatian Adalah Semua yang Anda Perlukan" telah dikeluarkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Terdapat juga penjelasan terperinci dalam "Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5".

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Sejak itu, seni bina Transformer (dalam bentuk model pra-latihan seperti BERT) telah merevolusikan bidang pemprosesan bahasa semula jadi (NLP) .

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Julai 2018

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Kertas "Anotasi Konseptual: Pembersihan, Superpositioning dan Set Data Teks Alternatif Imej untuk Kapsyen Imej Automatik" telah diterbitkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Ini dan set data multimodal lain akan menjadi sangat penting untuk model seperti CLIP dan DALL-E.

Pada 2018-20

Penyelidik NVIDIA menjalankan kajian tentang seni bina GAN. Siri dirombak sepenuhnya.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Dalam kertas kerja "Melatih Rangkaian Musuh Penjanaan Menggunakan Data Terhad", StyleGAN2-ada terbaru diperkenalkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Buat pertama kali, imej yang dijana GAN menjadi tidak dapat dibezakan daripada imej semula jadi, sekurang-kurangnya untuk set data yang sangat dioptimumkan seperti Flickr-Faces-HQ (FFHQ) jadi.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Mario Klingenmann, Memories of Passerby I, 2018. Wajah baconesque adalah tipikal seni AI di rantau ini, di mana sifat tidak realistik model generatif Ia menjadi tumpuan penerokaan artistik

Mei 2020

Kertas kerja "Model Bahasa ialah Pelajar Sampel Kecil" diterbitkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Transformer Pra-latihan LLM Generatif OpenAI 3 (GPT-3) menunjukkan kuasa seni bina transformer.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Disember 2020

Kertas "Taming transformer untuk sintesis imej resolusi tinggi" diterbitkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

ViT menunjukkan bahawa seni bina Transformer boleh digunakan untuk imej.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Kaedah yang dibentangkan dalam artikel ini, VQGAN, menghasilkan keputusan SOTA dalam ujian penanda aras.

Kualiti seni bina GAN dari akhir 2010-an dinilai terutamanya berdasarkan imej muka yang dijajarkan, dengan hasil terhad untuk set data yang lebih heterogen.

Oleh itu, wajah manusia kekal sebagai titik rujukan penting dalam eksperimen akademik/perindustrian dan seni.

Era Transformer (2020-2022)

Kemunculan seni bina Transformer telah menulis semula sepenuhnya sejarah sintesis imej.

Sejak itu, bidang sintesis imej telah mula meninggalkan GAN.

Pembelajaran mendalam "Multi-modal" menyepadukan NLP dan teknologi penglihatan komputer "Kejuruteraan tepat dalam masa" menggantikan latihan dan pelarasan model dan menjadi kaedah artistik sintesis imej.

Dalam kertas kerja "Learning Transferable Vision Models from Natural Language Supervision", seni bina CLIP dicadangkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Boleh dikatakan kegilaan sintesis imej semasa didorong oleh fungsi multi-modal yang diperkenalkan buat pertama kali oleh CLIP.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

CIP seni bina dalam kertas

Januari 2021

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Kertas "Teks Sampel Sifar kepada Penjanaan Imej" telah diterbitkan (lihat juga catatan blog OpenAI), yang memperkenalkan versi pertama DALL-E yang bakal melanda dunia.

Versi ini berfungsi dengan menggabungkan teks dan imej (dimampatkan oleh VAE menjadi "TOKEN") dalam satu aliran data.

Model ini hanya "meneruskan" "ayat".

Data (imej 250J) termasuk pasangan imej teks daripada Wikipedia, penerangan konsep dan subset ditapis YFCM100M.

CLIP meletakkan asas bagi pendekatan "multi-modal" kepada sintesis imej.

Januari 2021

Kertas "Pembelajaran Visi Boleh Dipindah dari Model Penyeliaan Bahasa Semulajadi" diterbitkan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Makalah ini memperkenalkan CLIP, model pelbagai mod yang menggabungkan ViT dan Transformer biasa.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

KLIP akan mempelajari "ruang pendam kongsi" imej dan kapsyen, supaya ia boleh melabelkan imej.

Model ini dilatih pada sejumlah besar set data yang disenaraikan dalam Lampiran A.1 kertas. GAN "diterbitkan.

Model resapan memperkenalkan kaedah sintesis imej yang berbeza daripada kaedah GAN.

Penyelidik belajar dengan membina semula imej daripada bunyi yang ditambah secara buatan.

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Ia berkaitan dengan pengekod auto variasi (VAE).

Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

Julai 2021

DALL-E mini dikeluarkan.

Ia adalah salinan DALL-E (lebih kecil, dengan sedikit pelarasan pada seni bina dan data).

Data termasuk 12M Konseptual, Kapsyen Konseptual dan subset ditapis yang sama bagi YFCM100M yang digunakan oleh OpenAI untuk model DALL-E asal.

Tanpa penapis kandungan atau sekatan API, DALL-E mini menawarkan potensi besar untuk penerokaan kreatif dan menghasilkan letupan imej "DALL-E yang pelik" pada pertumbuhan Twitter. Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat

2021-2022

Katherine Crowson mengeluarkan satu siri nota CoLab meneroka pembuatan CLIP membimbing penjanaan model.

Sebagai contoh, resapan berpandukan 512x512CLIP dan VQGAN-CLIP (Penjanaan imej domain terbuka dan pengeditan dengan panduan bahasa semula jadi, hanya akan dikeluarkan sebagai pracetak pada tahun 2022 tetapi percubaan awam muncul sebaik sahaja VQGAN telah dikeluarkan).

Sama seperti pada era awal GAN, artis dan pembangun membuat penambahbaikan yang ketara pada seni bina sedia ada dengan cara yang sangat terhad, yang kemudiannya dipermudahkan oleh syarikat dan akhirnya dikomersialkan oleh "startups" seperti wombo.ai.

April 2022

Tesis "Keadaan teks hierarki dengan potensi CLIP" Penjanaan Imej" diterbitkan.

Kertas kerja ini memperkenalkan DALL-E 2.

Ia dibina di atas kertas GLIDE yang diterbitkan hanya beberapa minggu lalu (" GLIDE : Berdasarkan Penjanaan Imej Realistik dan Penyuntingan Menggunakan Model Resapan Berpandukan Teks》Pada masa yang sama, disebabkan oleh akses DALL-E 2. Terhad dan sengaja dihadkan, terdapat minat baharu dalam DALL-E mini

Menurut kad model, data itu termasuk "gabungan sumber awam dan sumber berlesen kami," dan mengikut dataset lengkap dan Dall-E dalam kertas ini. , dijana menggunakan DALL-E 2. Model generatif berasaskan Transformer sepadan dengan realisme seni bina GAN kemudiannya seperti StyleGAN 2, tetapi membenarkan penciptaan pelbagai jenis tema dan corak

Mei-Jun 2022

Pada bulan Mei, kertas kerja "Dengan Pemahaman Bahasa Mendalam" "Resapan Teks-ke-Imej Realistik Model" diterbitkan pada bulan Jun, kertas kerja "Scaling Autoregression for Rich Text-to-Image Generation."

Dalam dua kertas ini, Imagegen dan Parti telah diperkenalkan. 🎜> dan jawapan Google kepada DALL-E 2. >"Adakah anda tahu mengapa saya menghalang anda hari ini?" kejuruteraan segera" telah menjadi kaedah utama sintesis imej artistik

AI Photoshop (2022 hingga sekarang)

Walaupun DALL-E 2 menetapkan standard baharu untuk pemodelan imej, pengkomersilan pantasnya juga bermakna penggunaannya terhad dari awal >Pengguna terus mencuba model yang lebih kecil seperti DALL-E mini

Kemudian semua itu berubah dengan keluaran Stable Diffusion yang hebat

Boleh dikatakan Stable Diffusion menandakan permulaan "era Photoshop" sintesis imej.

"Masih hidup dengan empat tandan anggur, cuba mencipta sesuatu seperti pelukis purba Zeuxis Juan El Labrador Fernandez, 1636, Prado , Madrid "Anggur seakan hidup seperti anggur", enam perubahan yang dihasilkan oleh Stable Diffusion

Ogos 2022

Stability.ai mengeluarkan model Stable Diffusion.

Dalam kertas kerja "Sintesis Imej Resolusi Tinggi dengan Model Resapan Terpendam", Stability.ai dengan hebatnya melancarkan Resapan Stabil.

Model ini boleh mencapai fotorealisme yang sama seperti DALL-E 2.

Selain DALL-E 2, model tersedia kepada orang ramai dengan segera dan boleh dijalankan pada platform CoLab dan Huggingface.

Ogos 2022

Google menerbitkan makalah "DreamBooth: Generating for theme-driven Penalaan halus model resapan teks ke imej.

DreamBooth menyediakan kawalan yang semakin halus ke atas model resapan.

Walau bagaimanapun, walaupun tanpa campur tangan teknikal tambahan sedemikian, ia menjadi sesuai untuk menggunakan model generatif seperti Photoshop, bermula dari lakaran dan bekerja lapisan demi lapisan Tambah pengubahsuaian yang terhasil.

Oktober 2022

Maks , salah satu syarikat galeri foto, mengumumkan bahawa ia bekerjasama dengan OpenAI untuk menyediakan/memberi lesen imej yang dihasilkan Ia boleh dijangka bahawa pasaran galeri foto akan terjejas dengan serius oleh model generatif seperti Stable Diffusion.

Atas ialah kandungan terperinci Hinton ada dalam senarai! Mengambil kira sejarah 10 tahun sintesis imej AI, kertas kerja dan nama yang patut diingat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!