Mit der Open Source von Stable Diffusion ist die Verwendung natürlicher Sprache zur Bilderzeugung nach und nach populär geworden, und es wurden auch viele AIGC-Probleme aufgedeckt, wie zum Beispiel, dass KI keine Hände zeichnen, Handlungsbeziehungen nicht verstehen kann und schwer zu kontrollieren ist Position von Objekten usw.
Der Hauptgrund ist, dass die „Eingabeschnittstelle“ nur über natürliche Sprache verfügt und keine feine Steuerung des Bildschirms erreichen kann.
Kürzlich haben Forschungs-Hotspots der University of Wisconsin-Madison, der Columbia University und Microsoft eine brandneue Methode GLIGEN vorgeschlagen, die die Funktionalität des bestehenden „vorab trainierten Text-zu-Bild-Diffusionsmodells“ basierend auf Erdungseingaben erweitert.
Papierlink: https://arxiv.org/pdf/2301.07093.pdf
Projekthomepage: https://gligen.github.io/
Erfahrungslink: https://huggingface.co/spaces/gligen/demo
Um einen großen Teil des konzeptionellen Wissens des vorab trainierten Modells beizubehalten, haben sich die Forscher nicht für eine Feinabstimmung des Modells entschieden , sondern verwendete stattdessen den Gating-Mechanismus, um die Eingabe weiterzugeben. Verschiedene Erdungsbedingungen werden in neue trainierbare Schichten eingefügt, um die Kontrolle über die Bilderzeugung in der offenen Welt zu erreichen.
Derzeit unterstützt GLIGEN vier Eingänge.
(oben links) Textelement + Feld (oben rechts) Bildelement + Feld
(unten links) Bildstil + Text + Feld (unten rechts) Textelement + Schlüssel Punkt
Experimentelle Ergebnisse zeigen auch, dass die Zero-Shot-Leistung von GLIGEN auf COCO und LVIS viel besser ist als die aktuell überwachte Layout-zu-Bild-Basislinie.
Vor dem Diffusionsmodell waren generative kontradiktorische Netzwerke (GANs) immer führend auf dem Gebiet der Bildgenerierung, und ihr latenter Raum und ihre bedingte Eingabe wurden vollständig in Form von „kontrollierbaren Operationen“ implementiert. und „Generationen“-Forschung.
Textbedingte autoregressive Modelle und Diffusionsmodelle zeigen dank ihrer stabileren Lernziele und umfangreichen Schulungen zu Netzwerk-Bild-Text-gepaarten Daten eine erstaunliche Bildqualität und Konzeptabdeckung und verlassen schnell den Kreis und werden zu Hilfsmitteln in Kunstdesign und Kreation.
Bestehende groß angelegte Text-Bild-Generierungsmodelle können jedoch nicht auf andere Eingabemodi „über Text hinaus“ konditioniert werden. Ihnen fehlt die Fähigkeit, Konzepte genau zu lokalisieren oder Referenzbilder zur Steuerung des Generierungsprozesses zu verwenden, was den Ausdruck einschränkt Information.
Zum Beispiel ist es schwierig, die genaue Position eines Objekts mithilfe von Text zu beschreiben, aber Begrenzungsrahmen oder Schlüsselpunkte können leicht erreicht werden.
Einige vorhandene Tools wie Inpainting, Layout2img-Generierung usw. können andere modale Eingaben als Text verwenden, diese Eingaben werden jedoch selten für eine steuerbare Text2img-Generierung kombiniert.
Darüber hinaus werden bisherige generative Modelle in der Regel unabhängig an aufgabenspezifischen Datensätzen trainiert, während im Bereich der Bilderkennung das langjährige Paradigma darin besteht, aus „großflächigen Bilddaten“ oder „Bild-Text-Paaren“ zu lernen „Ein vorab trainiertes Basismodell beginnt mit dem Aufbau eines Modells für eine bestimmte Aufgabe.
Diffusionsmodelle wurden auf Milliarden von Bild-Text-Paaren trainiert. Eine natürliche Frage ist: Können wir auf den vorhandenen vorab trainierten Diffusionsmodellen aufbauen und ihnen neue bedingte Eingaben geben?
Aufgrund des großen Umfangs an konzeptionellem Wissen, über das das vorab trainierte Modell verfügt, ist es möglicherweise möglich, bei anderen Generierungsaufgaben eine bessere Leistung zu erzielen und gleichzeitig eine bessere Steuerbarkeit als bestehende Modelle zur Text-Bild-Generierung zu erlangen.
GLIGEN
Basierend auf den oben genannten Zwecken und Ideen behält das von den Forschern vorgeschlagene GLIGEN-Modell weiterhin den Texttitel als Eingabe bei, ermöglicht aber auch andere Eingabemodalitäten, wie z. B. den Begrenzungsrahmen des Erdungskonzepts, die Erdungsreferenz Bild und der Schlüssel zum Erdungspunkt.Das Hauptproblem hierbei besteht darin, eine große Menge an ursprünglichem konzeptionellem Wissen im vorab trainierten Modell beizubehalten und gleichzeitig zu lernen, neue Grundinformationen einzufügen.
Um Wissensvergessen zu verhindern, schlugen die Forscher vor, die ursprünglichen Modellgewichte einzufrieren und eine neue trainierbare Gated-Transformer-Schicht hinzuzufügen, um die neue Erdungseingabe zu absorbieren Begrenzungsrahmen als Beispiel.
Befehlseingabe#🎜 🎜 #
Jedes Fugentextelement wird als Begrenzungsrahmen dargestellt, der die Koordinaten der oberen linken und unteren rechten Ecke enthält Wert.
Es ist zu beachten, dass bestehende Layout2img-bezogene Arbeiten normalerweise ein Konzeptwörterbuch erfordern und während der Evaluierungsphase nur engmaschige Entitäten (z. B. COCO-Kategorien) verarbeiten können Forscher fanden heraus, dass Positionierungsinformationen im Trainingssatz mithilfe eines Textencoders, der Bildbeschreibungen kodiert, auf andere Konzepte verallgemeinert werden können. #🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜##Trainingsdaten#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜##### 🎜🎜 ## 🎜🎜 #Die zum Generieren von Erdungsbildern verwendeten Trainingsdaten erfordern Text c und Erdungsentität e als Bedingungen. In der Praxis können die Datenanforderungen durch die Berücksichtigung flexiblerer Eingaben gelockert werden.
Es gibt drei Haupttypen von Daten#🎜🎜 #
1. Erdungsdaten
Jedem Bild ist ein Titel zugeordnet, der das gesamte Bild beschreibt; Substantiv-Entitäten werden aus Titeln extrahiert und mit Begrenzungsrahmen gekennzeichnet.
Da Substantiventitäten direkt aus Titeln in natürlicher Sprache übernommen werden, können sie ein umfangreicheres Vokabular abdecken, was für die fundierte Generierung von Open-World-Vokabeln von Vorteil ist.
2. Wählen Sie für definierte nahegelegene Kategorien (z. B. die 80 Objektkategorien in COCO) die Verwendung des leeren Titel-Tokens im klassifikatorfreier Leitfaden als Titel.
Die Anzahl der Erkennungsdaten (Millionen Ebenen) ist größer als die Basisdaten (tausend Ebenen), sodass die gesamten Trainingsdaten erheblich erhöht werden können.
3 Die Substantiv-Entität ist dieselbe wie die Substantiv-Entität in den Erkennungsdaten, und das Bild wird mit einem Texttitel beschrieben allein Es kann Situationen geben, in denen die Substantiv-Entität nicht vollständig mit der Entität im Titel übereinstimmt.
Zum Beispiel gibt der Titel nur eine allgemeine Beschreibung des Wohnzimmers und erwähnt nicht die Objekte in der Szene, während die Erkennungsanmerkung feinere Objekt- Level-Details.
Gesteuerter Aufmerksamkeitsmechanismus
#🎜 🎜#
Ziel der Forscher ist es, bestehenden groß angelegten sprachbildgenerierenden Modellen neue räumlich basierte Fähigkeiten zu verleihen, Großmaßstäbliche Diffusionsmodelle wurden vorab auf Bildtext im Webmaßstab trainiert, um das erforderliche Wissen zu erlangen, um realistische Bilder basierend auf vielfältigen und komplexen Sprachanweisungen zu synthetisieren. Aufgrund der hohen Kosten für die Vorabschulung ist die Leistung auch sehr gut und die Erweiterung neuer Fähigkeiten Es ist wichtig, dieses Wissen in den Modellgewichten beizubehalten, und neue Module können angepasst werden, um sich schrittweise an neue Fähigkeiten anzupassen.
Während des Trainingsprozesses wird der Gating-Mechanismus verwendet, um das Gerät schrittweise zu erden Neue Erdungsinformationen werden in vorab trainierte Modelle verschmolzen, ein Design, das Flexibilität im Sampling-Prozess während der Generierung ermöglicht, um Qualität und Kontrollierbarkeit zu verbessern.
Es wurde im Experiment auch nachgewiesen, dass in der ersten Hälfte des Sampling-Schritts das komplette Modell (alle Schichten) verwendet wird und nur die ursprüngliche Schicht (ohne Gated Transformer) wird in der zweiten Halbschicht verwendet), können die generierten Ergebnisse die Erdungsbedingungen genauer widerspiegeln und eine höhere Bildqualität aufweisen. In der Aufgabe zur Generierung von geerdetem Text mit offenem Satz in Bilder verwenden Sie zunächst nur die Basisanmerkungen von COCO (COCO2014CD) für das Training und bewerten Sie, ob GLIGEN andere Basisentitäten als die COCO-Kategorie generieren kann. Experimenteller Teil
Es ist ersichtlich, dass GLIGEN neue Konzepte wie „blaue Krähe“, „Croissant“ oder neue Objektattribute wie „brauner Holztisch“ lernen kann, diese Informationen jedoch nicht im erscheinen Trainingskategorie Mitte.
Die Forscher glauben, dass dies daran liegt, dass GLIGENs eingeschränkte Selbstaufmerksamkeit gelernt hat, visuelle Merkmale, die geerdeten Entitäten im Titel entsprechen, für die folgende Queraufmerksamkeitsebene neu zu positionieren, und dass der gemeinsame Text im Raum der beiden Ebenen die Fähigkeit zur Generalisierung erlangt hat .
Das Experiment bewertete auch quantitativ die Nullschuss-Generierungsleistung dieses Modells auf LVIS, das 1203 Long-Tail-Objektkategorien enthält. Verwenden Sie GLIP, um Begrenzungsrahmen aus generierten Bildern vorherzusagen und den AP zu berechnen, und vergleichen Sie ihn mit modernsten Modellen, die für die Aufgabe „layout2img“ entwickelt wurden.
Das Modell wird nur auf COCO-Annotationen trainiert, schneidet jedoch viel besser ab als die überwachten Basislinien, wahrscheinlich weil die von Grund auf trainierten Basislinien Schwierigkeiten haben, aus begrenzten Annotationen zu lernen, während das GLIGEN-Modell das umfangreiche konzeptionelle Wissen des vorab trainierten Modells nutzen kann.
Im Allgemeinen:
1. Schlägt eine neue Methode zur Text2img-Generierung vor, die dem bestehenden Text2img-Diffusionsmodell neue Steuerbarkeit verleiht;
2. Durch Beibehaltung von pre Durch das Training von Gewichten und das Erlernen der schrittweisen Integration neuer Positionierungsebenen erreicht dieses Modell eine Open-World-Bounding-Box-Erzeugung und -Eingabe, das heißt, es integriert neue Positionierungskonzepte, die im Training nicht beobachtet wurden Die Leistung bei der Aufgabe „layout2img“ ist deutlich besser als beim vorherigen Stand der Technik, was beweist, dass große vorab trainierte generative Modelle die Leistung nachgelagerter Aufgaben verbessern können
Das obige ist der detaillierte Inhalt vonDiffusion + Zielerkennung = kontrollierbare Bilderzeugung! Das chinesische Team schlug GLIGEN vor, um die räumliche Position von Objekten perfekt zu steuern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!