


Das Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor
In letzter Zeit wurden im Bereich der textgenerierten Bilder viele unerwartete Durchbrüche erzielt, und viele Modelle können die Funktion erfüllen, auf der Grundlage von Textanweisungen hochwertige und vielfältige Bilder zu erstellen. Obwohl die erzeugten Bilder bereits sehr realistisch sind, sind aktuelle Modelle oft gut in der Lage, Bilder von physischen Objekten wie Landschaften und Objekten zu erzeugen, haben jedoch Schwierigkeiten, Bilder mit einem hohen Maß an kohärenten Details zu erzeugen, wie beispielsweise Bilder mit komplexem Glyphentext wie chinesischen Schriftzeichen .
Um dieses Problem zu lösen, haben Forscher von OPPO und anderen Institutionen ein allgemeines Lernframework GlyphDraw vorgeschlagen, das es dem Modell ermöglichen soll, Bilder mit eingebettetem kohärentem Text zu generieren. Dies ist die erste Arbeit auf dem Gebiet der Bilder Synthese zur Lösung des Problems der chinesischen Schriftzeichengenerierung.
- Papieradresse: https://arxiv.org/abs/2303.17870
- Projekthomepage: https://1073521013.github.io/glyph-draw.github.io/
Schauen wir uns zunächst den Generierungseffekt an. Generieren Sie beispielsweise einen Warnslogan für die Messehalle:
Erstellen Sie eine Werbetafel:
Fügen Sie einen kurzen Text hinzu Beschreibung zum Bild, Text Die Stile können auch variiert werden:
Das interessanteste und praktischste Beispiel ist auch die Generierung von Emoticons:
Obwohl die Ergebnisse einige Mängel aufweisen Der Gesamtgenerierungseffekt war sehr gut. Insgesamt gehören zu den Hauptbeiträgen dieser Forschung:
- Diese Forschung schlägt das erste Framework zur Generierung von Bildern chinesischer Schriftzeichen, GlyphDraw, vor, das einige Hilfsinformationen, einschließlich Glyphen und Positionen chinesischer Schriftzeichen, verwendet, um während der gesamten Generierung eine feinkörnige Bereitstellung bereitzustellen Prozessführung, wodurch Bilder mit chinesischen Schriftzeichen nahtlos in Bilder mit hoher Qualität eingebettet werden;
- Diese Studie schlägt eine effektive Trainingsstrategie vor, die die Anzahl der trainierbaren Parameter im vorab trainierten Modell begrenzt, um eine Überanpassung und katastrophales Vergessen zu verhindern Die leistungsstarke Open-Domain-Generierungsleistung des Modells ermöglicht gleichzeitig eine präzise Bildgenerierung chinesischer Schriftzeichen.
- Diese Studie stellt den Konstruktionsprozess des Trainingsdatensatzes vor und schlägt einen neuen Benchmark zur Bewertung der Qualität der Bildgenerierung chinesischer Schriftzeichen mithilfe von OCR-Modellen vor. Unter anderem erreichte GlyphDraw eine Generierungsgenauigkeit von 75 %, was deutlich besser ist als frühere Bildsynthesemethoden.
Modelleinführung
Diese Studie entwarf zunächst eine komplexe Strategie zur Konstruktion von Bild-Text-Datensätzen und schlug dann ein allgemeines Lernframework GlyphDraw vor, das auf dem Open-Source-Bildsynthesealgorithmus Stable Diffusion basiert, wie in gezeigt Abbildung 2 unten.
Das allgemeine Trainingsziel der stabilen Diffusion kann als folgende Formel ausgedrückt werden:
GlyphDraw basiert auf dem Kreuzaufmerksamkeitsmechanismus in Stable Diffusion, bei dem der ursprüngliche latente Eingabevektor z_t durch eine Verkettung des latenten Bildvektors z_t, der Textmaske l_m und des Glyphenbilds l_g ersetzt wird.
Darüber hinaus ist Bedingung C durch den Einsatz domänenspezifischer Fusionsmodule mit hybriden Glyphen- und Textfunktionen ausgestattet. Durch die Einführung von Textmasken- und Glypheninformationen kann im gesamten Trainingsprozess eine feinkörnige Diffusionskontrolle erreicht werden, die eine Schlüsselkomponente zur Verbesserung der Modellleistung darstellt und letztendlich Bilder mit chinesischem Schriftzeichentext generiert.
Insbesondere die Pixeldarstellung von Textinformationen, insbesondere komplexer Textformen wie piktografische chinesische Schriftzeichen, unterscheidet sich erheblich von natürlichen Objekten. Beispielsweise besteht das chinesische Wort „Himmel“ aus mehreren Strichen in einer zweidimensionalen Struktur, und sein entsprechendes natürliches Bild ist „blauer Himmel mit weißen Wolken übersät“. Im Gegensatz dazu haben chinesische Schriftzeichen sehr feinkörnige Eigenschaften und selbst kleine Bewegungen oder Verformungen können zu einer fehlerhaften Textwiedergabe führen, wodurch die Bilderzeugung unmöglich wird.
Beim Einbetten von Zeichen in natürliche Bildhintergründe ist außerdem ein wichtiges Problem zu berücksichtigen: Die Erzeugung von Textpixeln genau zu steuern und gleichzeitig zu vermeiden, dass benachbarte natürliche Bildpixel beeinträchtigt werden. Um perfekte chinesische Schriftzeichen auf natürlichen Bildern wiederzugeben, haben die Autoren sorgfältig zwei Schlüsselkomponenten entworfen, die in das Diffusionssynthesemodell integriert sind, nämlich Positionskontrolle und Glyphenkontrolle.
Im Gegensatz zur globalen bedingten Eingabe anderer Modelle muss bei der Zeichengenerierung bestimmten lokalen Bereichen des Bildes mehr Aufmerksamkeit geschenkt werden, da sich die latente Merkmalsverteilung von Zeichenpixeln stark von der natürlicher Bildpixel unterscheidet. Um zu verhindern, dass das Modelllernen zusammenbricht, schlägt diese Studie innovativ eine feinkörnige Standortbereichskontrolle vor, um die Verteilung zwischen verschiedenen Bereichen zu entkoppeln.
Neben der Positionskontrolle ist ein weiteres wichtiges Thema die Feinsteuerung der Strichsynthese chinesischer Schriftzeichen. Angesichts der Komplexität und Vielfalt chinesischer Schriftzeichen ist es äußerst schwierig, ohne explizite Vorkenntnisse einfach aus großen Bild-Text-Datensätzen zu lernen. Um chinesische Schriftzeichen genau zu generieren, bezieht diese Studie explizite Glyphenbilder als zusätzliche bedingte Informationen in den Modelldiffusionsprozess ein.
Experimente und Ergebnisse
Da es keinen vorherigen Datensatz speziell für die Generierung chinesischer Schriftzeichenbilder gibt, wurde in dieser Studie zunächst ein Benchmark-Datensatz ChineseDrawText für die qualitative und quantitative Bewertung erstellt und dann auf die Genauigkeit der ChineseDrawText-Generierung getestet und verglichen mehrerer Methoden (ausgewertet durch OCR-Erkennungsmodell).
Das in dieser Studie vorgeschlagene GlyphDraw-Modell erreichte durch die effektive Nutzung von Hilfsglyphen- und Positionsinformationen eine durchschnittliche Genauigkeit von 75 % und demonstrierte damit die hervorragenden Fähigkeiten des Modells zur Zeichenbildgenerierung. Die visuellen Vergleichsergebnisse mehrerer Methoden sind in der folgenden Abbildung dargestellt:
Darüber hinaus kann GlyphDraw auch die Leistung der Bildsynthese im offenen Bereich aufrechterhalten, indem die Trainingsparameter begrenzt werden. Der FID der allgemeinen Bildsynthese auf MS-COCO FID. 10.000 werden nur um 2,3 gesenkt.
Interessierte Leser können den Originaltext des Artikels lesen, um weitere Forschungsdetails zu erfahren.
Das obige ist der detaillierte Inhalt vonDas Diffusionsmodell generiert Bilder mit chinesischen Schriftzeichen und gibt Emoticons mit einem Klick aus: OPPO und andere schlugen GlyphDraw vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Mark Cerny, Chefarchitekt von SonyInteractiveStonterment (Siey Interactive Entertainment), hat weitere Hardware-Details der Host-PlayStation5pro (PS5PRO) der nächsten Generation veröffentlicht, darunter ein auf Performance verbessertes Amdrdna2.x-GPU und ein maschinelles Lernen/künstliches Intelligenzprogramm Code-genannt "Amethylst" mit Amd. Der Fokus der PS5PRO-Leistungsverbesserung liegt immer noch auf drei Säulen, darunter eine leistungsstärkere GPU, eine fortschrittliche Ray-Tracing und eine von KI betriebene PSSR-Superauflösung. GPU nimmt eine maßgeschneiderte AMDRDNA2 -Architektur an, die Sony RDNA2.x nennt, und es hat eine rDNA3 -Architektur.

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Die Zookeper -Leistungsstimmung auf CentOS kann von mehreren Aspekten beginnen, einschließlich Hardwarekonfiguration, Betriebssystemoptimierung, Konfigurationsparameteranpassung, Überwachung und Wartung usw. Hier finden Sie einige spezifische Tuning -Methoden: SSD wird für die Hardwarekonfiguration: Da die Daten von Zookeeper an Disk geschrieben werden, wird empfohlen, SSD zu verbessern, um die I/O -Leistung zu verbessern. Genug Memory: Zookeeper genügend Speicherressourcen zuweisen, um häufige Lesen und Schreiben von häufigen Festplatten zu vermeiden. Multi-Core-CPU: Verwenden Sie Multi-Core-CPU, um sicherzustellen, dass Zookeeper es parallel verarbeiten kann.

Effizientes Training von Pytorch -Modellen auf CentOS -Systemen erfordert Schritte, und dieser Artikel bietet detaillierte Anleitungen. 1.. Es wird empfohlen, YUM oder DNF zu verwenden, um Python 3 und Upgrade PIP zu installieren: Sudoyumupdatepython3 (oder sudodnfupdatepython3), PIP3Install-upgradepip. CUDA und CUDNN (GPU -Beschleunigung): Wenn Sie Nvidiagpu verwenden, müssen Sie Cudatool installieren

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

Die Verbesserungen von Microsoft an Windows -Suchfunktionen wurden auf einigen Windows -Insider -Kanälen in der EU getestet. Zuvor wurde die integrierte Windows -Suchfunktion von Benutzern kritisiert und hatte schlechte Erfahrung. Dieses Update teilt die Suchfunktion in zwei Teile auf: lokale Suche und Bing-basierte Websuche, um die Benutzererfahrung zu verbessern. Die neue Version der Suchschnittstelle führt standardmäßig lokale Dateisuche durch. Wenn Sie online suchen müssen, müssen Sie auf die Registerkarte "Microsoft Bingwebsearch" klicken, um zu wechseln. Nach dem Umschalten wird in der Suchleiste "Microsoft Bingwebsearch:" angezeigt, in dem Benutzer Keywords eingeben können. Dieser Schritt vermeidet effektiv das Mischen lokaler Suchergebnisse mit Bing -Suchergebnissen
