Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

WBOY
Freigeben: 2023-05-15 19:04:04
nach vorne
941 Leute haben es durchsucht

Jetzt ist das Jahr 2022 zu Ende.

Die Leistung von Deep-Learning-Modellen bei der Generierung von Bildern ist bereits so gut. Offensichtlich wird es uns in Zukunft noch mehr Überraschungen bereiten.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Wie sind wir in zehn Jahren dorthin gekommen, wo wir heute sind?

In der Zeitleiste unten werden wir einige Meilensteine ​​nachzeichnen, nämlich die Zeit, in der die Papiere, Architekturen, Modelle, Datensätze und Experimente veröffentlicht wurden, die die KI-Bildsynthese beeinflusst haben.

Alles beginnt mit dem Sommer vor zehn Jahren.

Der Anfang (2012-2015)

Nach dem Aufkommen tiefer neuronaler Netze erkannten die Menschen, dass sie die Bildklassifizierung revolutionieren würden.

Gleichzeitig begannen Forscher, die entgegengesetzte Richtung zu erforschen: Was würde passieren, wenn die Bilder mit einigen Techniken erstellt würden, die für die Klassifizierung sehr effektiv sind, wie zum Beispiel Faltungsschichten?

Dies ist der Beginn des „Sommers der Künstlichen Intelligenz“.

Dezember 2012

Hier begann alles.

In diesem Jahr wurde der Artikel „ImageNet Classification of Deep Convolutional Neural Networks“ veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Einer der Autoren des Papiers ist Hinton, einer der „Großen Drei“ der KI.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Es kombiniert zum ersten Mal Deep Convolutional Neural Networks (CNN), GPU und einen riesigen Datensatz aus dem Internet (ImageNet).

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Im Dezember 2014

Ian Goodfellow und andere KI-Giganten veröffentlichten das epische Papier „Generative Adversarial Networks“.

GAN ist die erste moderne neuronale Netzwerkarchitektur, die sich eher der Bildsynthese als der Analyse widmet (die Definition von „modern“ stammt aus dem Jahr 2012).

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Es stellt eine einzigartige, auf Spieltheorie basierende Lernmethode vor, bei der zwei Subnetzwerke „Generator“ und „Diskriminator“ konkurrieren.

Am Ende bleibt nur der „Generator“ außerhalb des Systems und wird für die Bildsynthese verwendet.

Hallo Welt! GAN generierte Gesichtsproben aus der Arbeit von Goodfellow et al. aus dem Jahr 2014. Das Modell wurde anhand des Toronto Faces-Datensatzes trainiert, der aus dem Internet entfernt wurde

November 2015

Der bahnbrechende Artikel „Using Deep Convolutional Generative Adversarial Networks“ Unsupervised Representative Learning“ wurde veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

In diesem Artikel beschreiben die Autoren die erste praktische GAN-Architektur (DCGAN).

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Dieser Artikel wirft auch zum ersten Mal die Frage der Manipulation des latenten Raums auf – lassen sich Konzepte auf Richtungen des latenten Raums abbilden?

Fünf Jahre GAN (2015-2020)

Während dieser fünf Jahre wurde GAN auf verschiedene Bildverarbeitungsaufgaben angewendet, wie z. B. Stilübertragung, Wiederherstellung, Rauschunterdrückung und Superauflösung. Während

begann die Zahl der Veröffentlichungen zur GAN-Architektur zu explodieren.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Projektadresse: https://github.com/nightrome/really-awesome-gan

Zur gleichen Zeit begannen die künstlerischen Experimente von GAN zu steigen, Mike Tyka, Mario Klingenmann, Anna Ridler, Helena Sarin und andere traten auf.

Der erste „KI-Kunst“-Skandal ereignete sich im Jahr 2018. Drei französische Studenten verwendeten „geliehenen“ Code, um ein KI-Porträt zu erstellen, das das erste KI-Porträt war, das bei Christie's versteigert wurde.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Gleichzeitig revolutionierte die Transformer-Architektur das NLP.

Dieses Ding wird in naher Zukunft einen großen Einfluss auf die Bildsynthese haben.

Juni 2017

Papier „Attention Is All You Need“ veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Eine ausführliche Erklärung finden Sie auch in „Transformers, erklärt: Verstehen Sie das Modell hinter GPT-3, BERT und T5“.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Seitdem hat die Transformer-Architektur (in Form vorab trainierter Modelle wie BERT) den Bereich der Verarbeitung natürlicher Sprache (NLP) revolutioniert.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Juli 2018

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Der Artikel „Conceptual Annotation: Cleaning, Superpositioning, and Image Alt Text Dataset for Automatic Image Captioning“ wurde veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Dieser und andere multimodale Datensätze werden für Modelle wie CLIP und DALL-E äußerst wichtig werden.

In den Jahren 2018-2020

NVIDIA-Forscher haben eine Reihe gründlicher Verbesserungen an der GAN-Architektur vorgenommen.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

In dem Artikel „Training Generative Adversarial Networks Using Limited Data“ wird die neueste StyleGAN2-ada vorgestellt.

Zum ersten Mal sind

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

GAN-generierte Bilder nicht mehr von natürlichen Bildern zu unterscheiden, zumindest für hochoptimierte Datensätze wie Flickr-Faces-HQ (FFHQ).

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Mario Klingenmann, Memories of Passerby I, 2018. Die speckigen Gesichter sind typisch für die KI-Kunst in der Region, wo der Nichtrealismus generativer Modelle im Mittelpunkt der künstlerischen Auseinandersetzung steht

2020 5 Monate

Der Artikel „Language Model is a Small Sample Learner“ wurde veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

OpenAIs LLM Generative Pre-trained Transformer 3 (GPT-3) demonstriert die Leistungsfähigkeit der Transformer-Architektur.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Dezember 2020

Der Artikel „Taming Transformers for High-Resolution Image Synthesis“ wurde veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

ViT zeigt, dass die Transformer-Architektur für Bilder verwendet werden kann.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Die in diesem Artikel vorgestellte Methode VQGAN lieferte SOTA-Ergebnisse in Benchmark-Tests.

Die Qualität von GAN-Architekturen aus den späten 2010er Jahren wurde hauptsächlich anhand ausgerichteter Gesichtsbilder bewertet, wobei für heterogenere Datensätze nur begrenzte Ergebnisse erzielt wurden.

Das menschliche Gesicht bleibt daher ein wichtiger Bezugspunkt in akademischen/industriellen und künstlerischen Experimenten.

Die Ära von Transformer (2020-2022)

Das Aufkommen der Transformer-Architektur hat die Geschichte der Bildsynthese völlig neu geschrieben.

Seitdem hat der Bereich der Bildsynthese begonnen, GAN hinter sich zu lassen.

„Multimodales“ Deep Learning integriert NLP- und Computer-Vision-Technologien. „Just-in-Time-Engineering“ ersetzt Modelltraining und -anpassung und wird zu einer künstlerischen Methode der Bildsynthese.

In dem Artikel „Learning Transferable Visual Models from Natural Language Supervision“ wird die CLIP-Architektur vorgeschlagen.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Man kann sagen, dass der aktuelle Trend zur Bildsynthese auf die erstmals von CLIP eingeführte multimodale Funktion zurückzuführen ist.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

CLIP Architektur in Papier

Januar 2021

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Der Artikel „Zero-Sample Text to Image Generation“ wurde veröffentlicht (siehe auch den Blogbeitrag von OpenAI), der die erste Version von DALL-E vorstellte, die kurz vor der Welteinführung steht.

Diese Version kombiniert Text und Bilder (von VAE als „TOKEN“ komprimiert) in einem einzigen Datenstrom.

Dieses Modell „setzt“ den „Satz“ einfach fort.

Die Daten (250 Millionen Bilder) umfassen Text-Bild-Paare aus Wikipedia, Konzeptbeschreibungen und eine gefilterte Teilmenge von YFCM100M.

CLIP legt den Grundstein für den „multimodalen“ Ansatz der Bildsynthese.

Januar 2021

# 🎜 🎜# Der Artikel „Learning Transferable Vision Models from Natural Language Supervision“ wurde veröffentlicht. In dem Artikel wird CLIP vorgestellt, ein multimodales Modell, das ViT und gewöhnlichen Transformer kombiniert.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

CLIP lernt den „gemeinsamen latenten Raum“ des Bildes und den Titel, sodass es das Bild beschriften kann .

Das Modell wird anhand eines großen Datensatzes trainiert, der in Anhang A.1 des Dokuments aufgeführt ist. Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Juni 2021.

#🎜 🎜# Der Artikel „Die Veröffentlichung des Diffusionsmodells schlägt GAN in der Bildsynthese“ wurde veröffentlicht. Das Diffusionsmodell führt eine Bildsynthesemethode ein, die sich von der GAN-Methode unterscheidet. Forscher lernen, indem sie Bilder aus künstlich hinzugefügtem Rauschen rekonstruieren. Sie hängen mit Variational Autoencodern (VAEs) zusammen.

Juli 2021.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

#🎜 🎜# DALL-E mini veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Es ist eine Kopie von DALL-E (kleiner, mit wenigen Anpassungen an Architektur und Daten).

Die Daten umfassen Conceptual 12M, Conceptual Captions und die gleiche gefilterte Teilmenge von YFCM100M, die von OpenAI für das ursprüngliche DALL-E-Modell verwendet wurde.

Da es keine Inhaltsfilter oder API-Einschränkungen gibt, bietet der DALL-E mini ein enormes Potenzial für kreative Erkundungen, was zu Tweets wie „Weird DALL-E“ führt war eine Explosion von Bildern. 2021-2022

# 🎜🎜 #Katherine Crowson hat eine Reihe von CoLab-Notizen veröffentlicht, in denen Methoden zur Erstellung CLIP-gesteuerter generativer Modelle untersucht werden.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Zum Beispiel werden 512x512CLIP-gesteuerte Diffusion und VQGAN-CLIP (Open-Domain-Bildgenerierung und -bearbeitung mit natürlicher Sprachführung) im Jahr 2022 nur als Vorabdrucke veröffentlicht, VQGAN jedoch schon veröffentlicht werden, sobald es veröffentlicht wird) Öffentliche Experimente entstanden).

Genau wie in der frühen GAN-Ära haben Künstler und Entwickler mit sehr begrenzten Mitteln erhebliche Verbesserungen an bestehenden Architekturen vorgenommen, die dann von Unternehmen vereinfacht und schließlich von „Startups“ wie wombo.ai kommerzialisiert wurden.

April 2022

Der Artikel „Hierarchical Text Conditional Image Generation with CLIP Potential“ wurde veröffentlicht.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Dieses Dokument stellt DALL-E 2 vor.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte


Es baut auf dem erst vor wenigen Wochen veröffentlichten GLIDE-Papier („GLIDE: Realistic Image Generation and Editing Using Text-Guided Diffusion Models“) auf.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Mittlerweile besteht aufgrund des begrenzten Zugangs und der absichtlichen Einschränkungen des DALL-E 2 erneutes Interesse am DALL-E mini.

Laut Modellkarte umfassen die Daten „eine Kombination aus öffentlich verfügbaren Ressourcen und unseren lizenzierten Ressourcen“. .“ Und die vollständigen CLIP- und DALL-E-Datensätze laut Papier.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

„Porträtfoto einer Blondine, aufgenommen mit einer DSLR-Kamera, neutraler Hintergrund, hohe Auflösung“, erstellt mit DALL-E 2.Transformer-basierte generative Modelle entsprechen dem Realismus späterer GAN-Architekturen wie StyleGAN 2, ermöglichen jedoch die Erstellung einer Vielzahl von Themen und Mustern Im Juni wurde das Papier „Realistic Text-to-Image Diffusion Model with Deep Language Understanding“ veröffentlicht

In diesen beiden Artikeln werden Imagegen und Parti vorgestellt

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte und Googles Antwort auf DALL-E 2.

「Wissen Sie, warum habe ich Sie heute aufgehalten?“ Erstellt von DALL-E 2, „Prompt Engineering“, ist seitdem die Hauptmethode der künstlerischen Bildsynthese Die schnelle Kommerzialisierung führte auch dazu, dass die Verwendung von Anfang an eingeschränkt war.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollteBenutzer probierten weiterhin kleinere Modelle wie DALL-E mini aus. Mit der bahnbrechenden Veröffentlichung von Stable Diffusion änderte sich dies alles .

Man kann sagen, dass Stable Diffusion den Beginn der „Photoshop-Ära“ der Bildsynthese markiert.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

„Stillleben mit vier Weintrauben, bei dem versucht wird, Weintrauben so naturgetreu zu schaffen wie die des antiken Malers Zeuxis Juan El Labrador Fernandez, 1636, Prado, Madrid“ Sechs von Stable Diffusion produzierte Variationen

August 2022

Stability.ai veröffentlicht das Stable Diffusion-Modell.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

In dem Artikel „High-Resolution Image Synthesis with Latent Diffusion Model“ stellt Stability.ai stolz Stable Diffusion vor.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Dieses Modell kann den gleichen Fotorealismus wie DALL-E 2 erreichen.

Zusätzlich zu DALL-E 2 stehen Modelle fast sofort der Öffentlichkeit zur Verfügung und können auf den Plattformen CoLab und Huggingface ausgeführt werden.

Im August 2022

Google veröffentlichte das Papier „DreamBooth: Fine-tuning text-to-image diffusion model for topic-driven generation“.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

DreamBooth bietet eine zunehmend feinkörnigere Steuerung des Diffusionsmodells.

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Aber auch ohne solche zusätzlichen technischen Eingriffe ist es möglich, generative Modelle wie Photoshop zu verwenden, indem man von einer Skizze ausgeht und Schicht für Schicht generative Modifikationen hinzufügt.

Oktober 2022

Hinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte

Shutterstock, eines der größten Stockfoto-Unternehmen, gab seine Zusammenarbeit mit OpenAI zur Bereitstellung/Lizenzierung generierter Bilder bekannt stark von generativen Modellen wie Stable Diffusion beeinflusst.

Das obige ist der detaillierte Inhalt vonHinton ist auf der Liste! Eine Bestandsaufnahme der 10-jährigen Geschichte der KI-Bildsynthese, Artikel und Namen, an die man sich erinnern sollte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!