In den letzten Jahren wurden viele überraschende Durchbrüche im Bereich textgenerierter Bilder erzielt, und viele Modelle sind in der Lage, auf der Grundlage von Textanweisungen hochwertige und vielfältige Bilder zu erstellen. Obwohl die erzeugten Bilder bereits sehr realistisch sind, sind aktuelle Modelle in der Regel gut in der Lage, physische Bilder wie Landschaften und Objekte zu erzeugen, haben jedoch Schwierigkeiten, Bilder mit hochkohärenten Details zu erzeugen, wie etwa Bilder mit komplexem Glyphentext wie chinesischen Schriftzeichen
Um dieses Problem zu lösen Problem, von Forschern von OPPO und anderen Institutionen haben ein universelles Lernframework namens GlyphDraw vorgeschlagen. Das Ziel dieses Frameworks besteht darin, es Modellen zu ermöglichen, Bilder zu generieren, in die kohärenter Text eingebettet ist. Diese Arbeit ist die erste, die das Problem der Generierung chinesischer Schriftzeichen im Bereich der Bildsynthese löst
Link zur Projekt-Homepage: https://1073521013.github.io/glyph-draw.github.io/Fügen Sie kurze Textbeschreibungen zu Bildern hinzu und variieren Sie auch die Textstile
Ein weiteres interessantes und praktisches Beispiel ist das Generieren von Emoticons:
Obwohl die Ergebnisse insgesamt einige Mängel aufweisen Die Forschung hat hervorragende Ergebnisse erbracht. Zu den Hauptbeiträgen dieser Forschung gehören:
Diese Forschung schlägt ein Framework zur Generierung chinesischer Schriftzeichenbilder namens GlyphDraw vor. Während des gesamten Generierungsprozesses kann das Framework mithilfe von Hilfsinformationen wie Glyphen und Positionen chinesischer Schriftzeichen eine feinkörnige Anleitung bereitstellen, sodass die generierten Bilder chinesischer Schriftzeichen nahtlos und mit hoher Qualität in das Bild eingebettet werden können Diese Studie schlägt eine effektive Trainingsstrategie vor, die die starke Leistung des Modells bei der Generierung offener Domänen erfolgreich aufrechterhält, indem sie die Anzahl der trainierbaren Parameter im vorab trainierten Modell begrenzt, um Überanpassung und katastrophales Vergessen zu verhindern, und kann Bilder chinesischer Schriftzeichen genau generierenDiese Studie beschreibt detailliert den Prozess der Erstellung eines Trainingsdatensatzes und schlägt eine neue Basismethode zur Bewertung der Qualität der Bildgenerierung chinesischer Schriftzeichen vor. Unter anderem erreichte die Generierungsgenauigkeit von GlyphDraw 75 %, was deutlich besser ist als bei der vorherigen Bildsynthesemethode . Anschließend wird unter Verwendung des Open-Source-Bildsynthesealgorithmus Stable Diffusion ein allgemeines Lernframework GlyphDraw vorgeschlagen, wie in Abbildung 2 dargestellt. Das allgemeine Trainingsziel der stabilen Diffusion kann als folgende Formel ausgedrückt werden:
Darüber hinaus wird Bedingung C durch die Verwendung eines domänenspezifischen Fusionsmoduls mit gemischt ausgestattet Glyphen- und Textfunktion. Die Einführung von Textmasken- und Glypheninformationen ermöglicht es dem gesamten Trainingsprozess, eine feinkörnige Diffusionskontrolle zu erreichen, die eine Schlüsselkomponente zur Verbesserung der Modellleistung und letztendlich zur Generierung von Bildern mit chinesischem Schriftzeichentext ist
Das Einbetten von Zeichen in natürliche Bildhintergründe erfordert auch die Berücksichtigung eines Schlüsselproblems, nämlich der genauen Steuerung der Erzeugung von Textpixeln, ohne die angrenzenden natürlichen Bildpixel zu beeinträchtigen. Um perfekte chinesische Schriftzeichen auf natürlichen Bildern anzuzeigen, hat der Autor zwei Schlüsselkomponenten entworfen, nämlich Positionskontrolle und Glyphenkontrolle, die in das Diffusionssynthesemodell integriert sind
Im Gegensatz zur globalen bedingten Eingabe anderer Modelle erfordert die Zeichengenerierung mehr Fokus auf bestimmte lokale Bereiche des Bildes, da sich die zugrunde liegende Merkmalsverteilung von Zeichenpixeln stark von der natürlicher Bildpixel unterscheidet. Um zu verhindern, dass das Modelllernen zusammenbricht, schlägt diese Studie innovativ eine feinkörnige Positionsbereichssteuerung vor, um die Verteilung zwischen verschiedenen Bereichen zu entkoppeln . Angesichts der Komplexität und Vielfalt chinesischer Schriftzeichen ist es sehr schwierig, ohne explizite Vorkenntnisse einfach aus einem großen Bild-Text-Datensatz zu lernen. Um chinesische Schriftzeichen genau zu generieren, führt diese Studie explizite Glyphenbilder als zusätzliche bedingte Informationen in den Verbreitungsprozess des Modells ein
Um die ursprüngliche Bedeutung unverändert zu lassen, muss der Inhalt ins Chinesische umgeschrieben werden Nachfolgend der umgeschriebene Inhalt: Forschungsdesign und experimentelle ErgebnisseDa es keinen früheren Datensatz speziell für die Bildgenerierung chinesischer Schriftzeichen gibt, wurde in dieser Studie zunächst ein Benchmark-Datensatz ChineseDrawText für die qualitative und quantitative Bewertung erstellt. Anschließend testeten die Forscher die Generierungsgenauigkeit mehrerer Methoden auf ChineseDrawText und bewerteten sie anhand des OCR-Erkennungsmodells
Das in dieser Studie vorgeschlagene GlyphDraw-Modell erzielte eine durchschnittliche Genauigkeit, indem es die Hilfsglyphen- und Positionsinformationen vollständig nutzte. Der hervorragende Effekt von 75 % beweist die hervorragende Fähigkeit des Modells bei der Generierung von Charakterbildern. Die folgende Abbildung zeigt die visuellen Vergleichsergebnisse mehrerer Methoden
Darüber hinaus kann GlyphDraw auch die Leistung der Bildsynthese im offenen Bereich aufrechterhalten, indem die Trainingsparameter eingeschränkt werden. Auf MS-COCO FID-10k ist der FID der allgemeinen Bildsynthese nur um ein Vielfaches gesunken 2.3
Interessierte Leser können den Originaltext des Artikels lesen, um weitere Forschungsdetails zu erfahren.
Das obige ist der detaillierte Inhalt vonOPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!