Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

WBOY
Freigeben: 2023-04-14 20:28:01
nach vorne
1179 Leute haben es durchsucht

Erkennung und Generierung sind die beiden Kernaufgaben im Bereich der künstlichen Intelligenz. Wenn sie zu einem einheitlichen System zusammengeführt werden können, sollten sich diese beiden Aufgaben ergänzen. Tatsächlich sind Modelle wie BERT [1] bei der Verarbeitung natürlicher Sprache nicht nur in der Lage, qualitativ hochwertigen Text zu generieren, sondern auch Merkmale aus dem Text zu extrahieren.

Im Bereich Computer Vision werden jedoch die meisten aktuellen Bilderzeugungsmodelle und Erkennungsmodelle separat trainiert, ohne die Synergie dieser beiden Aufgaben vollständig zu nutzen. Dies ist vor allem darauf zurückzuführen, dass die Modelle der Bilderzeugung und Bilderkennung in der Regel wesentliche strukturelle Unterschiede aufweisen: Die Eingabe der Bilderzeugung besteht aus niedrigdimensionalen Merkmalen oder Rauschen, und die Ausgabe ist im Gegensatz dazu ein hochdimensionales Originalbild Die Eingabe der Bilderkennung ist ein hochdimensionales Originalbild, während die Ausgabe niedrigdimensionale Merkmale ist.

Kürzlich haben Forscher vom MIT und Google Research eine Methode zum Repräsentationslernen vorgeschlagen, die auf der semantischen Bildmaskierung basiert und zum ersten Mal die Bildgenerierung und das Repräsentationslernen in einem einheitlichen Framework ermöglicht und bei mehreren Datensätzen eine gute SOTA-Leistung erzielt. Das Forschungspapier wurde vom CVPR 2023 angenommen und der relevante Code und das vorab trainierte Modell waren Open Source.

Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

  • Papieradresse: https://arxiv.org/abs/2211.09117
  • Codeadresse: https://github.com/LTH14/mage

Auf der CVPR 2022 schlug MAE [2] eine auf Bildmasken (MIM) basierende Repräsentationslernmethode vor und erzielte bei mehreren Teilaufgaben sehr gute Ergebnisse. Mit einer Maskierungsrate von bis zu 75 % kann MAE ein Bild rekonstruieren, das der Semantik des Originalbilds weitgehend entspricht, wodurch das Netzwerk selbstüberwacht Merkmale im Bild lernen kann. Wie in Abbildung 1 dargestellt, treten jedoch schwerwiegende Unschärfe- und Verzerrungsprobleme auf, obwohl das von MAE rekonstruierte Bild ähnliche semantische Informationen wie das Originalbild aufweist. Ähnliche Probleme treten bei allen MIM-basierten Repräsentationslernmethoden auf. Gleichzeitig mangelt es aktuellen generativen Modellen, ob Diffusionsmodelle oder GANs, an der Fähigkeit, qualitativ hochwertige Bildmerkmale zu extrahieren. Abbildung 1: Vergleich der MAE- und MAGE-Rekonstruktion , wodurch ein einheitliches Bilderzeugungs- und Merkmalsextraktionsmodell erreicht wurde. Im Gegensatz zur Maskierungsmethode, bei der MIM direkt auf das Bild einwirkt, schlägt MAGE eine Modellierungsmethode für maskierte Bildtoken vor, die auf bildsemantischen Symbolen basiert. Wie in der Abbildung gezeigt, verwendet MAGE zunächst den VQGAN [3]-Encoder, um das Originalbild in diskrete semantische Symbole umzuwandeln. Danach maskiert MAGE es nach dem Zufallsprinzip und verwendet die transformatorbasierte Encoder-Decoder-Struktur, um die Maske zu rekonstruieren. Die rekonstruierten semantischen Symbole können verwendet werden, um das Originalbild über den VQGAN-Decoder zu generieren. Durch die Verwendung unterschiedlicher Maskierungsraten im Training kann MAGE sowohl generative Modelle (nahezu 100 % Maskierungsrate) als auch Repräsentationslernen (50 %–80 % Maskierungsrate) trainieren. Wie in Abbildung 1 dargestellt, verfügt das von MAGE rekonstruierte Bild nicht nur über semantische Informationen, die mit dem Originalbild übereinstimmen, sondern kann auch die Vielfalt und Authentizität des generierten Bildes sicherstellen. Abbildung 2: MAGE-Strukturdiagramm

Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

In der unbeaufsichtigten Bildgenerierungsaufgabe von ImageNet sank der FID von MAGE von zuvor > 20 auf 7,04 und erreichte sogar das Niveau der überwachten Bildgenerierung (der FID der überwachten latenten Diffusion auf ImageNet beträgt 3,60). :

Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion#🎜. 🎜 ## 🎜🎜#

Abbildung 3: Beispiel für die unbeaufsichtigte MAGE-Bildgenerierung #MAGE kann auch verschiedene Bildbearbeitungsaufgaben ausführen, einschließlich Bild-Inpainting, Outpainting und Uncropping:

#🎜🎜 #

# 🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Abbildung 4: Mage BildbearbeitungsbeispielGoogle und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

#🎜🎜 #

In Bezug auf das Repräsentationslernen hat sich MAGE im Vergleich zur aktuellen MIM-Methode bei Aufgaben wie der linearen ImageNet-Prüfung erheblich verbessert , Wenig-Schuss-Lernen und Transferlernen und kann das aktuelle optimale selbstüberwachte Lernniveau erreichen oder übertreffen. Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion

Fazit

Google und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent DiffusionDieser Artikel soll es sagen das Bild Generierung und Repräsentationslernen vereinen. Zu diesem Zweck schlägt der Autor dieses Artikels MAGE vor, ein selbstüberwachtes Lernframework, das auf bildsemantischer Maskierung basiert. Dieses Framework ist einfach und effizient und erreicht oder übertrifft erstmals die SOTA-Leistung sowohl bei der Bilderzeugung als auch beim Repräsentationslernen. Interessierte Leser können den Originaltext des Artikels einsehen, um weitere Forschungsdetails zu erfahren.

Das obige ist der detaillierte Inhalt vonGoogle und MIT schlagen ein einheitliches Framework MAGE vor: Repräsentationslernen übertrifft MAE und unbeaufsichtigte Bilderzeugung übertrifft Latent Diffusion. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage