Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor-KI-php.cn

Inhaltsverzeichnis

Heim

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

王林

Apr 11, 2023 pm 08:13 PM

ai 图像

In letzter Zeit wurden im Bereich der textgenerierten Bilder viele unerwartete Durchbrüche erzielt, und viele Modelle können die Funktion erfüllen, auf der Grundlage von Textanweisungen hochwertige und vielfältige Bilder zu erstellen. Obwohl die erzeugten Bilder bereits sehr realistisch sind, sind aktuelle Modelle oft gut in der Lage, Bilder von physischen Objekten wie Landschaften und Objekten zu erzeugen, haben jedoch Schwierigkeiten, Bilder mit einem hohen Maß an kohärenten Details zu erzeugen, wie beispielsweise Bilder mit komplexem Glyphentext wie chinesischen Schriftzeichen .

Um dieses Problem zu lösen, haben Forscher von OPPO und anderen Institutionen ein allgemeines Lernframework GlyphDraw vorgeschlagen, das es dem Modell ermöglichen soll, Bilder mit eingebettetem kohärentem Text zu generieren. Dies ist die erste Arbeit auf dem Gebiet der Bilder Synthese zur Lösung des Problems der chinesischen Schriftzeichengenerierung.

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Papieradresse: https://arxiv.org/abs/2303.17870
Projekthomepage: https://1073521013.github.io/glyph-draw.github.io/

Schauen wir uns zunächst den Generierungseffekt an. Generieren Sie beispielsweise einen Warnslogan für die Messehalle:

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Erstellen Sie eine Werbetafel:

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Fügen Sie einen kurzen Text hinzu Beschreibung zum Bild, Text Die Stile können auch variiert werden:

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Das interessanteste und praktischste Beispiel ist auch die Generierung von Emoticons:

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Obwohl die Ergebnisse einige Mängel aufweisen Der Gesamtgenerierungseffekt war sehr gut. Insgesamt gehören zu den Hauptbeiträgen dieser Forschung:

Diese Forschung schlägt das erste Framework zur Generierung von Bildern chinesischer Schriftzeichen, GlyphDraw, vor, das einige Hilfsinformationen, einschließlich Glyphen und Positionen chinesischer Schriftzeichen, verwendet, um während der gesamten Generierung eine feinkörnige Bereitstellung bereitzustellen Prozessführung, wodurch Bilder mit chinesischen Schriftzeichen nahtlos in Bilder mit hoher Qualität eingebettet werden;
Diese Studie schlägt eine effektive Trainingsstrategie vor, die die Anzahl der trainierbaren Parameter im vorab trainierten Modell begrenzt, um eine Überanpassung und katastrophales Vergessen zu verhindern Die leistungsstarke Open-Domain-Generierungsleistung des Modells ermöglicht gleichzeitig eine präzise Bildgenerierung chinesischer Schriftzeichen.
Diese Studie stellt den Konstruktionsprozess des Trainingsdatensatzes vor und schlägt einen neuen Benchmark zur Bewertung der Qualität der Bildgenerierung chinesischer Schriftzeichen mithilfe von OCR-Modellen vor. Unter anderem erreichte GlyphDraw eine Generierungsgenauigkeit von 75 %, was deutlich besser ist als frühere Bildsynthesemethoden.

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Modelleinführung

Diese Studie entwarf zunächst eine komplexe Strategie zur Konstruktion von Bild-Text-Datensätzen und schlug dann ein allgemeines Lernframework GlyphDraw vor, das auf dem Open-Source-Bildsynthesealgorithmus Stable Diffusion basiert, wie in gezeigt Abbildung 2 unten.

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Das allgemeine Trainingsziel der stabilen Diffusion kann als folgende Formel ausgedrückt werden:

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

GlyphDraw basiert auf dem Kreuzaufmerksamkeitsmechanismus in Stable Diffusion, bei dem der ursprüngliche latente Eingabevektor z_t durch eine Verkettung des latenten Bildvektors z_t, der Textmaske l_m und des Glyphenbilds l_g ersetzt wird.

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Darüber hinaus ist Bedingung C durch den Einsatz domänenspezifischer Fusionsmodule mit hybriden Glyphen- und Textfunktionen ausgestattet. Durch die Einführung von Textmasken- und Glypheninformationen kann im gesamten Trainingsprozess eine feinkörnige Diffusionskontrolle erreicht werden, die eine Schlüsselkomponente zur Verbesserung der Modellleistung darstellt und letztendlich Bilder mit chinesischem Schriftzeichentext generiert.

Insbesondere die Pixeldarstellung von Textinformationen, insbesondere komplexer Textformen wie piktografische chinesische Schriftzeichen, unterscheidet sich erheblich von natürlichen Objekten. Beispielsweise besteht das chinesische Wort „Himmel“ aus mehreren Strichen in einer zweidimensionalen Struktur, und sein entsprechendes natürliches Bild ist „blauer Himmel mit weißen Wolken übersät“. Im Gegensatz dazu haben chinesische Schriftzeichen sehr feinkörnige Eigenschaften und selbst kleine Bewegungen oder Verformungen können zu einer fehlerhaften Textwiedergabe führen, wodurch die Bilderzeugung unmöglich wird.

Beim Einbetten von Zeichen in natürliche Bildhintergründe ist außerdem ein wichtiges Problem zu berücksichtigen: Die Erzeugung von Textpixeln genau zu steuern und gleichzeitig zu vermeiden, dass benachbarte natürliche Bildpixel beeinträchtigt werden. Um perfekte chinesische Schriftzeichen auf natürlichen Bildern wiederzugeben, haben die Autoren sorgfältig zwei Schlüsselkomponenten entworfen, die in das Diffusionssynthesemodell integriert sind, nämlich Positionskontrolle und Glyphenkontrolle.

Im Gegensatz zur globalen bedingten Eingabe anderer Modelle muss bei der Zeichengenerierung bestimmten lokalen Bereichen des Bildes mehr Aufmerksamkeit geschenkt werden, da sich die latente Merkmalsverteilung von Zeichenpixeln stark von der natürlicher Bildpixel unterscheidet. Um zu verhindern, dass das Modelllernen zusammenbricht, schlägt diese Studie innovativ eine feinkörnige Standortbereichskontrolle vor, um die Verteilung zwischen verschiedenen Bereichen zu entkoppeln.

Neben der Positionskontrolle ist ein weiteres wichtiges Thema die Feinsteuerung der Strichsynthese chinesischer Schriftzeichen. Angesichts der Komplexität und Vielfalt chinesischer Schriftzeichen ist es äußerst schwierig, ohne explizite Vorkenntnisse einfach aus großen Bild-Text-Datensätzen zu lernen. Um chinesische Schriftzeichen genau zu generieren, bezieht diese Studie explizite Glyphenbilder als zusätzliche bedingte Informationen in den Modelldiffusionsprozess ein.

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Experimente und Ergebnisse

Da es keinen vorherigen Datensatz speziell für die Generierung chinesischer Schriftzeichenbilder gibt, wurde in dieser Studie zunächst ein Benchmark-Datensatz ChineseDrawText für die qualitative und quantitative Bewertung erstellt und dann auf die Genauigkeit der ChineseDrawText-Generierung getestet und verglichen mehrerer Methoden (ausgewertet durch OCR-Erkennungsmodell).

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Das in dieser Studie vorgeschlagene GlyphDraw-Modell erreichte durch die effektive Nutzung von Hilfsglyphen- und Positionsinformationen eine durchschnittliche Genauigkeit von 75 % und demonstrierte damit die hervorragenden Fähigkeiten des Modells zur Zeichenbildgenerierung. Die visuellen Vergleichsergebnisse mehrerer Methoden sind in der folgenden Abbildung dargestellt:

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Darüber hinaus kann GlyphDraw auch die Leistung der Bildsynthese im offenen Bereich aufrechterhalten, indem die Trainingsparameter begrenzt werden. Der FID der allgemeinen Bildsynthese auf MS-COCO FID. 10.000 werden nur um 2,3 gesenkt.

Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor

Interessierte Leser können den Originaltext des Artikels lesen, um weitere Forschungsdetails zu erfahren.

Das obige ist der detaillierte Inhalt vonDas Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7549

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Sony bestätigt die Möglichkeit, spezielle GPUs für PS5 Pro zu verwenden, um KI mit AMD zu entwickeln Apr 13, 2025 pm 11:45 PM

Mark Cerny, Chefarchitekt von SonyInteractiveStonterment (Siey Interactive Entertainment), hat weitere Hardware-Details der Host-PlayStation5pro (PS5PRO) der nächsten Generation veröffentlicht, darunter ein auf Performance verbessertes Amdrdna2.x-GPU und ein maschinelles Lernen/künstliches Intelligenzprogramm Code-genannt "Amethylst" mit Amd. Der Fokus der PS5PRO-Leistungsverbesserung liegt immer noch auf drei Säulen, darunter eine leistungsstärkere GPU, eine fortschrittliche Ray-Tracing und eine von KI betriebene PSSR-Superauflösung. GPU nimmt eine maßgeschneiderte AMDRDNA2 -Architektur an, die Sony RDNA2.x nennt, und es hat eine rDNA3 -Architektur.

Was sind die Backup -Methoden für Gitlab auf CentOS? Apr 14, 2025 pm 05:33 PM

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

So überprüfen Sie die CentOS -HDFS -Konfiguration Apr 14, 2025 pm 07:21 PM

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Was sind die Methoden zur Abstimmung der Leistung von Zookeeper auf CentOS Apr 14, 2025 pm 03:18 PM

Die Zookeper -Leistungsstimmung auf CentOS kann von mehreren Aspekten beginnen, einschließlich Hardwarekonfiguration, Betriebssystemoptimierung, Konfigurationsparameteranpassung, Überwachung und Wartung usw. Hier finden Sie einige spezifische Tuning -Methoden: SSD wird für die Hardwarekonfiguration: Da die Daten von Zookeeper an Disk geschrieben werden, wird empfohlen, SSD zu verbessern, um die I/O -Leistung zu verbessern. Genug Memory: Zookeeper genügend Speicherressourcen zuweisen, um häufige Lesen und Schreiben von häufigen Festplatten zu vermeiden. Multi-Core-CPU: Verwenden Sie Multi-Core-CPU, um sicherzustellen, dass Zookeeper es parallel verarbeiten kann.

Wie man ein Pytorch -Modell auf CentOS trainiert Apr 14, 2025 pm 03:03 PM

Effizientes Training von Pytorch -Modellen auf CentOS -Systemen erfordert Schritte, und dieser Artikel bietet detaillierte Anleitungen. 1.. Es wird empfohlen, YUM oder DNF zu verwenden, um Python 3 und Upgrade PIP zu installieren: Sudoyumupdatepython3 (oder sudodnfupdatepython3), PIP3Install-upgradepip. CUDA und CUDNN (GPU -Beschleunigung): Wenn Sie Nvidiagpu verwenden, müssen Sie Cudatool installieren

Wie ist die GPU -Unterstützung für Pytorch bei CentOS? Apr 14, 2025 pm 06:48 PM

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

Endlich verändert! Microsoft Windows -Suchfunktion wird ein neues Update einleiten Apr 13, 2025 pm 11:42 PM

Die Verbesserungen von Microsoft an Windows -Suchfunktionen wurden auf einigen Windows -Insider -Kanälen in der EU getestet. Zuvor wurde die integrierte Windows -Suchfunktion von Benutzern kritisiert und hatte schlechte Erfahrung. Dieses Update teilt die Suchfunktion in zwei Teile auf: lokale Suche und Bing-basierte Websuche, um die Benutzererfahrung zu verbessern. Die neue Version der Suchschnittstelle führt standardmäßig lokale Dateisuche durch. Wenn Sie online suchen müssen, müssen Sie auf die Registerkarte "Microsoft Bingwebsearch" klicken, um zu wechseln. Nach dem Umschalten wird in der Suchleiste "Microsoft Bingwebsearch:" angezeigt, in dem Benutzer Keywords eingeben können. Dieser Schritt vermeidet effektiv das Mischen lokaler Suchergebnisse mit Bing -Suchergebnissen

See all articles