Jetzt ist das Jahr 2022 zu Ende.
Die Leistung von Deep-Learning-Modellen bei der Generierung von Bildern ist bereits so gut. Offensichtlich wird es uns in Zukunft noch mehr Überraschungen bereiten.
Wie sind wir in zehn Jahren dorthin gekommen, wo wir heute sind?
In der Zeitleiste unten werden wir einige Meilensteine nachzeichnen, nämlich die Zeit, in der die Papiere, Architekturen, Modelle, Datensätze und Experimente veröffentlicht wurden, die die KI-Bildsynthese beeinflusst haben.
Alles beginnt mit dem Sommer vor zehn Jahren.
Nach dem Aufkommen tiefer neuronaler Netze erkannten die Menschen, dass sie die Bildklassifizierung revolutionieren würden.
Gleichzeitig begannen Forscher, die entgegengesetzte Richtung zu erforschen: Was würde passieren, wenn die Bilder mit einigen Techniken erstellt würden, die für die Klassifizierung sehr effektiv sind, wie zum Beispiel Faltungsschichten?
Dies ist der Beginn des „Sommers der Künstlichen Intelligenz“.
Dezember 2012
Hier begann alles.
In diesem Jahr wurde der Artikel „ImageNet Classification of Deep Convolutional Neural Networks“ veröffentlicht.
Einer der Autoren des Papiers ist Hinton, einer der „Großen Drei“ der KI.
Es kombiniert zum ersten Mal Deep Convolutional Neural Networks (CNN), GPU und einen riesigen Datensatz aus dem Internet (ImageNet).
Im Dezember 2014
Ian Goodfellow und andere KI-Giganten veröffentlichten das epische Papier „Generative Adversarial Networks“.
GAN ist die erste moderne neuronale Netzwerkarchitektur, die sich eher der Bildsynthese als der Analyse widmet (die Definition von „modern“ stammt aus dem Jahr 2012).
Es stellt eine einzigartige, auf Spieltheorie basierende Lernmethode vor, bei der zwei Subnetzwerke „Generator“ und „Diskriminator“ konkurrieren.
Am Ende bleibt nur der „Generator“ außerhalb des Systems und wird für die Bildsynthese verwendet.
Hallo Welt! GAN generierte Gesichtsproben aus der Arbeit von Goodfellow et al. aus dem Jahr 2014. Das Modell wurde anhand des Toronto Faces-Datensatzes trainiert, der aus dem Internet entfernt wurde
November 2015
Der bahnbrechende Artikel „Using Deep Convolutional Generative Adversarial Networks“ Unsupervised Representative Learning“ wurde veröffentlicht.
In diesem Artikel beschreiben die Autoren die erste praktische GAN-Architektur (DCGAN).
Dieser Artikel wirft auch zum ersten Mal die Frage der Manipulation des latenten Raums auf – lassen sich Konzepte auf Richtungen des latenten Raums abbilden?
Während dieser fünf Jahre wurde GAN auf verschiedene Bildverarbeitungsaufgaben angewendet, wie z. B. Stilübertragung, Wiederherstellung, Rauschunterdrückung und Superauflösung. Während
begann die Zahl der Veröffentlichungen zur GAN-Architektur zu explodieren.
Projektadresse: https://github.com/nightrome/really-awesome-gan
Zur gleichen Zeit begannen die künstlerischen Experimente von GAN zu steigen, Mike Tyka, Mario Klingenmann, Anna Ridler, Helena Sarin und andere traten auf.
Der erste „KI-Kunst“-Skandal ereignete sich im Jahr 2018. Drei französische Studenten verwendeten „geliehenen“ Code, um ein KI-Porträt zu erstellen, das das erste KI-Porträt war, das bei Christie's versteigert wurde.
Gleichzeitig revolutionierte die Transformer-Architektur das NLP.
Dieses Ding wird in naher Zukunft einen großen Einfluss auf die Bildsynthese haben.
Juni 2017
Papier „Attention Is All You Need“ veröffentlicht.
Eine ausführliche Erklärung finden Sie auch in „Transformers, erklärt: Verstehen Sie das Modell hinter GPT-3, BERT und T5“.
Seitdem hat die Transformer-Architektur (in Form vorab trainierter Modelle wie BERT) den Bereich der Verarbeitung natürlicher Sprache (NLP) revolutioniert.
Juli 2018
Der Artikel „Conceptual Annotation: Cleaning, Superpositioning, and Image Alt Text Dataset for Automatic Image Captioning“ wurde veröffentlicht.
Dieser und andere multimodale Datensätze werden für Modelle wie CLIP und DALL-E äußerst wichtig werden.
In den Jahren 2018-2020
NVIDIA-Forscher haben eine Reihe gründlicher Verbesserungen an der GAN-Architektur vorgenommen.
In dem Artikel „Training Generative Adversarial Networks Using Limited Data“ wird die neueste StyleGAN2-ada vorgestellt.
Zum ersten Mal sindGAN-generierte Bilder nicht mehr von natürlichen Bildern zu unterscheiden, zumindest für hochoptimierte Datensätze wie Flickr-Faces-HQ (FFHQ).
Mario Klingenmann, Memories of Passerby I, 2018. Die speckigen Gesichter sind typisch für die KI-Kunst in der Region, wo der Nichtrealismus generativer Modelle im Mittelpunkt der künstlerischen Auseinandersetzung steht
2020 5 Monate
Der Artikel „Language Model is a Small Sample Learner“ wurde veröffentlicht.
OpenAIs LLM Generative Pre-trained Transformer 3 (GPT-3) demonstriert die Leistungsfähigkeit der Transformer-Architektur.
Dezember 2020
Der Artikel „Taming Transformers for High-Resolution Image Synthesis“ wurde veröffentlicht.
ViT zeigt, dass die Transformer-Architektur für Bilder verwendet werden kann.
Die in diesem Artikel vorgestellte Methode VQGAN lieferte SOTA-Ergebnisse in Benchmark-Tests.
Die Qualität von GAN-Architekturen aus den späten 2010er Jahren wurde hauptsächlich anhand ausgerichteter Gesichtsbilder bewertet, wobei für heterogenere Datensätze nur begrenzte Ergebnisse erzielt wurden.
Das menschliche Gesicht bleibt daher ein wichtiger Bezugspunkt in akademischen/industriellen und künstlerischen Experimenten.
Die Ära von Transformer (2020-2022)
Das Aufkommen der Transformer-Architektur hat die Geschichte der Bildsynthese völlig neu geschrieben.
Seitdem hat der Bereich der Bildsynthese begonnen, GAN hinter sich zu lassen.
„Multimodales“ Deep Learning integriert NLP- und Computer-Vision-Technologien. „Just-in-Time-Engineering“ ersetzt Modelltraining und -anpassung und wird zu einer künstlerischen Methode der Bildsynthese.
In dem Artikel „Learning Transferable Visual Models from Natural Language Supervision“ wird die CLIP-Architektur vorgeschlagen.
Man kann sagen, dass der aktuelle Trend zur Bildsynthese auf die erstmals von CLIP eingeführte multimodale Funktion zurückzuführen ist.
CLIP Architektur in Papier
Januar 2021
Der Artikel „Zero-Sample Text to Image Generation“ wurde veröffentlicht (siehe auch den Blogbeitrag von OpenAI), der die erste Version von DALL-E vorstellte, die kurz vor der Welteinführung steht.
Diese Version kombiniert Text und Bilder (von VAE als „TOKEN“ komprimiert) in einem einzigen Datenstrom.
Dieses Modell „setzt“ den „Satz“ einfach fort.
Die Daten (250 Millionen Bilder) umfassen Text-Bild-Paare aus Wikipedia, Konzeptbeschreibungen und eine gefilterte Teilmenge von YFCM100M.
CLIP legt den Grundstein für den „multimodalen“ Ansatz der Bildsynthese.
Januar 2021
# 🎜 🎜# Der Artikel „Learning Transferable Vision Models from Natural Language Supervision“ wurde veröffentlicht. In dem Artikel wird CLIP vorgestellt, ein multimodales Modell, das ViT und gewöhnlichen Transformer kombiniert.
CLIP lernt den „gemeinsamen latenten Raum“ des Bildes und den Titel, sodass es das Bild beschriften kann .
Das Modell wird anhand eines großen Datensatzes trainiert, der in Anhang A.1 des Dokuments aufgeführt ist.
Juni 2021.
#🎜 🎜# Der Artikel „Die Veröffentlichung des Diffusionsmodells schlägt GAN in der Bildsynthese“ wurde veröffentlicht. Das Diffusionsmodell führt eine Bildsynthesemethode ein, die sich von der GAN-Methode unterscheidet. Forscher lernen, indem sie Bilder aus künstlich hinzugefügtem Rauschen rekonstruieren. Sie hängen mit Variational Autoencodern (VAEs) zusammen.
Juli 2021.
#🎜 🎜# DALL-E mini veröffentlicht.
Es ist eine Kopie von DALL-E (kleiner, mit wenigen Anpassungen an Architektur und Daten).
Die Daten umfassen Conceptual 12M, Conceptual Captions und die gleiche gefilterte Teilmenge von YFCM100M, die von OpenAI für das ursprüngliche DALL-E-Modell verwendet wurde.
Da es keine Inhaltsfilter oder API-Einschränkungen gibt, bietet der DALL-E mini ein enormes Potenzial für kreative Erkundungen, was zu Tweets wie „Weird DALL-E“ führt war eine Explosion von Bildern. 2021-2022
# 🎜🎜 #Katherine Crowson hat eine Reihe von CoLab-Notizen veröffentlicht, in denen Methoden zur Erstellung CLIP-gesteuerter generativer Modelle untersucht werden.
Zum Beispiel werden 512x512CLIP-gesteuerte Diffusion und VQGAN-CLIP (Open-Domain-Bildgenerierung und -bearbeitung mit natürlicher Sprachführung) im Jahr 2022 nur als Vorabdrucke veröffentlicht, VQGAN jedoch schon veröffentlicht werden, sobald es veröffentlicht wird) Öffentliche Experimente entstanden).
Genau wie in der frühen GAN-Ära haben Künstler und Entwickler mit sehr begrenzten Mitteln erhebliche Verbesserungen an bestehenden Architekturen vorgenommen, die dann von Unternehmen vereinfacht und schließlich von „Startups“ wie wombo.ai kommerzialisiert wurden.
April 2022
Der Artikel „Hierarchical Text Conditional Image Generation with CLIP Potential“ wurde veröffentlicht.
Dieses Dokument stellt DALL-E 2 vor.
Es baut auf dem erst vor wenigen Wochen veröffentlichten GLIDE-Papier („GLIDE: Realistic Image Generation and Editing Using Text-Guided Diffusion Models“) auf.
Mittlerweile besteht aufgrund des begrenzten Zugangs und der absichtlichen Einschränkungen des DALL-E 2 erneutes Interesse am DALL-E mini.
Laut Modellkarte umfassen die Daten „eine Kombination aus öffentlich verfügbaren Ressourcen und unseren lizenzierten Ressourcen“. .“ Und die vollständigen CLIP- und DALL-E-Datensätze laut Papier.
„Porträtfoto einer Blondine, aufgenommen mit einer DSLR-Kamera, neutraler Hintergrund, hohe Auflösung“, erstellt mit DALL-E 2.Transformer-basierte generative Modelle entsprechen dem Realismus späterer GAN-Architekturen wie StyleGAN 2, ermöglichen jedoch die Erstellung einer Vielzahl von Themen und Mustern Im Juni wurde das Papier „Realistic Text-to-Image Diffusion Model with Deep Language Understanding“ veröffentlicht
In diesen beiden Artikeln werden Imagegen und Parti vorgestellt
und Googles Antwort auf DALL-E 2.
「Wissen Sie, warum habe ich Sie heute aufgehalten?“ Erstellt von DALL-E 2, „Prompt Engineering“, ist seitdem die Hauptmethode der künstlerischen Bildsynthese Die schnelle Kommerzialisierung führte auch dazu, dass die Verwendung von Anfang an eingeschränkt war.
Benutzer probierten weiterhin kleinere Modelle wie DALL-E mini aus. Mit der bahnbrechenden Veröffentlichung von Stable Diffusion änderte sich dies alles .
Man kann sagen, dass Stable Diffusion den Beginn der „Photoshop-Ära“ der Bildsynthese markiert.
„Stillleben mit vier Weintrauben, bei dem versucht wird, Weintrauben so naturgetreu zu schaffen wie die des antiken Malers Zeuxis Juan El Labrador Fernandez, 1636, Prado, Madrid“ Sechs von Stable Diffusion produzierte Variationen
August 2022
Stability.ai veröffentlicht das Stable Diffusion-Modell.
In dem Artikel „High-Resolution Image Synthesis with Latent Diffusion Model“ stellt Stability.ai stolz Stable Diffusion vor.
Dieses Modell kann den gleichen Fotorealismus wie DALL-E 2 erreichen.
Zusätzlich zu DALL-E 2 stehen Modelle fast sofort der Öffentlichkeit zur Verfügung und können auf den Plattformen CoLab und Huggingface ausgeführt werden.
Im August 2022
Google veröffentlichte das Papier „DreamBooth: Fine-tuning text-to-image diffusion model for topic-driven generation“.
DreamBooth bietet eine zunehmend feinkörnigere Steuerung des Diffusionsmodells.
Aber auch ohne solche zusätzlichen technischen Eingriffe ist es möglich, generative Modelle wie Photoshop zu verwenden, indem man von einer Skizze ausgeht und Schicht für Schicht generative Modifikationen hinzufügt.
Oktober 2022
Shutterstock, eines der größten Stockfoto-Unternehmen, gab seine Zusammenarbeit mit OpenAI zur Bereitstellung/Lizenzierung generierter Bilder bekannt stark von generativen Modellen wie Stable Diffusion beeinflusst.
Das obige ist der detaillierte Inhalt vonHinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!