Heim > Technologie-Peripheriegeräte > KI > Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

PHPz
Freigeben: 2024-01-30 15:24:28
nach vorne
1282 Leute haben es durchsucht

Aktuelle groß angelegte Sprachmodelle wie GPT, LLaMA usw. haben im Bereich der Verarbeitung natürlicher Sprache erhebliche Fortschritte gemacht und können komplexe Textinhalte verstehen und generieren. Können wir diese leistungsstarken Verständnis- und Generierungsfähigkeiten jedoch auf multimodale Daten ausweiten? Diese Idee wird nach und nach Wirklichkeit. Das neueste multimodale Großmodell LaVIT wurde von Kuaishou und der Peking-Universität entwickelt. Durch die Kombination von Bild- und Videodaten ermöglicht es dem Modell, umfangreiche Multimedia-Inhalte leicht zu verstehen und hilft bei der Erstellung illustrierter Inhalte. Die Entstehung von LaVIT ist von großer Bedeutung für das Verständnis und die Erstellung multimedialer Inhalte. Es identifiziert nicht nur Objekte, Szenen und Emotionen in Bildern und Videos, sondern generiert auch dazugehörige Beschreibungen in natürlicher Sprache. Auf diese Weise können wir multimodale Daten besser nutzen und lebendigere und interessantere grafische Inhalte erstellen. Die Entwicklung von LaVIT ist ein wichtiger Versuch groß angelegter Sprachmodelle im multimodalen Bereich. Es wird erwartet, dass es mehr Möglichkeiten für die Verarbeitung und Erstellung von Multimedia-Inhalten bietet und die weitere Entwicklung in den Bereichen Verarbeitung natürlicher Sprache und Computer Vision fördert.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar


  • Papiertitel: Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
  • Papieradresse: https://arxiv.org/abs/2309.04669
  • Code-Modell Adresse: https://github.com/jy0205/LaVIT

Modellübersicht

LaVIT ist ein neues universelles multimodales Basismodell, das visuelle Inhalte wie ein Sprachmodell verstehen und generieren kann. Es verwendet einen ähnlichen Trainingsansatz wie große Sprachmodelle und verwendet einen autoregressiven Ansatz, um das nächste Bild- oder Text-Token vorherzusagen. Nach dem Training kann LaVIT als allgemeine multimodale Schnittstelle dienen, die ohne weitere Feinabstimmung multimodale Verständnis- und Generierungsaufgaben ausführen kann. LaVIT kann beispielsweise die folgenden Funktionen erreichen:

LaVIT ist ein leistungsstarkes Text-zu-Bild-Generierungsmodell, das in der Lage ist, auf der Grundlage vorgegebener Textaufforderungen hochwertige Bilder mit mehreren Seitenverhältnissen und hochästhetischen Bildern zu generieren. Im Vergleich zu hochmodernen Bilderzeugungsmodellen wie Parti, SDXL und DALLE-3 verfügt LaVIT über vergleichbare Bilderzeugungsfähigkeiten. Was es einzigartig macht, ist seine Fähigkeit, vielfältige Bilder zu erzeugen und gleichzeitig eine hohe Qualität und Ästhetik beizubehalten. Ob im Hoch- oder Querformat, LaVIT ist in der Lage, zufriedenstellende Bildkompositionen zu erzeugen. Durch die Kombination fortschrittlicher Technologie und hochwertiger Trainingsdaten bietet LaVIT Benutzern ein hervorragendes Text-to-Graph-System

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

In LaVIT werden Bilder und Text als diskretisierte Token dargestellt. Daher können multimodale Hinweise zur Bildgenerierung genutzt werden, einschließlich Kombinationen aus Text, Bild+Text und Bild+Bild. Diese multimodale Generierung erfordert keine Feinabstimmung und das System kann auf der Grundlage von Eingabeaufforderungen entsprechende Bilder generieren.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

LaVIT ist ein Bildverständnismodell, das Bilder lesen und ihre Semantik verstehen kann. Es kann relevante Beschreibungen für Eingabebilder generieren und relevante Fragen beantworten.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Methodenübersicht

Die Modellstruktur von LaVIT ist in der folgenden Abbildung dargestellt:

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Abbildung: Die Gesamtarchitektur des LaVIT-Modells

Stufe 1: Dynamischer visueller Tokenizer

Um visuelle Inhalte wie natürliche Sprache verstehen und generieren zu können, führt LaVIT einen gut gestalteten visuellen Tokenizer zur Umwandlung visueller Inhalte (kontinuierliche Signale) in textähnliche Inhalte ein Die gleiche Token-Sequenz, genau wie eine Fremdsprache, die LLM verstehen kann. Der Autor ist der Ansicht, dass der visuelle Tokenizer (Tokenizer) die folgenden zwei Merkmale aufweisen sollte, um eine einheitliche visuelle und sprachliche Modellierung zu erreichen:

  1. Diskretisierung: Visuelle Token sollten als diskretisierte Formen wie Text dargestellt werden. Dabei wird eine einheitliche Darstellungsform für die beiden Modalitäten verwendet, was dazu beiträgt, dass LaVIT denselben Klassifizierungsverlust für die multimodale Modellierungsoptimierung unter einem einheitlichen autoregressiven generativen Trainingsrahmen verwendet.
  2. Dynamischeifizierung: Im Gegensatz zu Text-Tokens weisen Bild-Patches erhebliche gegenseitige Abhängigkeiten auf, wodurch es relativ einfach ist, einen Patch von einem anderen abzuleiten. Daher verringert diese Abhängigkeit die Wirksamkeit des Optimierungsziels der ursprünglichen LLM-Vorhersage für das nächste Token. LaVIT schlägt vor, die Redundanz zwischen visuellen Patches durch die Verwendung von Token-Merging zu reduzieren, das eine dynamische Anzahl visueller Token basierend auf der unterschiedlichen semantischen Komplexität verschiedener Bilder codiert. Auf diese Weise verbessert die Verwendung der dynamischen Token-Kodierung für Bilder unterschiedlicher Komplexität die Effizienz des Vortrainings weiter und vermeidet redundante Token-Berechnungen.

Die folgende Abbildung zeigt die Struktur des von LaVIT vorgeschlagenen visuellen Tokenizers:

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Bild: (a) Dynamischer visueller Tokengenerator (b) Token-Zusammenführung

Der dynamische visuelle Tokenizer enthält Token Selektor und Token-Kombinierer. Wie in der Abbildung gezeigt, wird der Token-Selektor verwendet, um die informativsten Bildblöcke auszuwählen, während die Token-Zusammenführung die Informationen dieser nicht informativen visuellen Blöcke in die beibehaltenen Token komprimiert, um die Zusammenführung redundanter Token zu erreichen. Der gesamte dynamische visuelle Wortsegmentierer wird trainiert, indem die semantische Rekonstruktion des Eingabebildes maximiert wird.

Token-Selektor

Der Token-Selektor empfängt N Bildblock-Level-Funktionen als Eingabe und sein Ziel besteht darin, die Wichtigkeit jedes Bildblocks zu bewerten und den Block mit der höchsten Informationsmenge auszuwählen. um die Semantik des gesamten Bildes vollständig darzustellen. Um dieses Ziel zu erreichen, wird ein leichtes Modul bestehend aus mehreren MLP-Schichten verwendet, um die Verteilung π vorherzusagen. Durch Abtasten aus der Verteilung π wird eine binäre Entscheidungsmaske generiert, die angibt, ob der entsprechende Bildbereich beibehalten werden soll.

Token-Combiner

Token-Combiner unterteilt N Bildblöcke in zwei Gruppen: X_r beibehalten und X_d gemäß der generierten Entscheidungsmaske verwerfen. Im Gegensatz zum direkten Verwerfen von X_d kann der Token-Combiner die detaillierte Semantik des Eingabebilds maximal beibehalten. Der Token-Combiner besteht aus L gestapelten Blöcken, von denen jeder eine kausale Selbstaufmerksamkeitsschicht, eine Queraufmerksamkeitsschicht und eine Feed-Forward-Schicht enthält. In der kausalen Selbstaufmerksamkeitsschicht achtet jedes Token in X_r nur auf sein vorheriges Token, um die Konsistenz mit der Text-Token-Form in LLM sicherzustellen. Diese Strategie schneidet im Vergleich zur bidirektionalen Selbstaufmerksamkeit besser ab. Die Cross-Attention-Schicht nimmt das beibehaltene Token X_r als Abfrage und führt die Token in X_d basierend auf ihrer semantischen Ähnlichkeit zusammen.

Phase 2: Einheitliches generatives Vortraining

Die vom visuellen Tokenizer verarbeiteten visuellen Token werden mit den Text-Tokens verbunden, um eine multimodale Sequenz als Eingabe während des Trainings zu bilden. Um die beiden Modalitäten zu unterscheiden, fügt der Autor am Anfang und Ende der Bild-Token-Sequenz spezielle Token ein: [IMG] und [/IMG], die verwendet werden, um den Anfang und das Ende des visuellen Inhalts anzuzeigen. Um Text und Bilder generieren zu können, verwendet LaVIT zwei Bild-Text-Verbindungsformen: [Bild, Text] und [Text;

Für diese multimodalen Eingabesequenzen verwendet LaVIT einen einheitlichen, autoregressiven Ansatz, um die Wahrscheinlichkeit jeder multimodalen Sequenz für das Vortraining direkt zu maximieren. Diese vollständige Vereinheitlichung von Darstellungsraum und Trainingsmethoden hilft LLM, multimodale Interaktion und Ausrichtung besser zu erlernen. Nach Abschluss des Vortrainings ist LaVIT in der Lage, Bilder wahrzunehmen und Bilder wie Text zu verstehen und zu generieren.

Experimente

Zero-Shot multimodales Verständnis

LaVIT verfügt über Zero-Shot multimodales Verständnis bei der Generierung von Bilduntertiteln (NoCaps, Flickr30k) und der visuellen Beantwortung von Fragen (VQAv2, OKVQA, GQA). , VizWiz) Erzielte führende Leistung bei Aufgaben.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Tabelle 1 Zero-Shot multimodale Verständnisaufgabenbewertung

Zero-Shot multimodale Generierung

Da der vorgeschlagene visuelle Tokenizer in diesem Experiment Bilder als diskretisierte Token darstellen kann, ist LaVIT in der Lage, Bilder zu synthetisieren, indem durch Autoregression textähnliche visuelle Token generiert werden. Der Autor führte eine quantitative Bewertung der Bildsyntheseleistung des Modells unter Textbedingungen ohne Stichprobe durch. Die Vergleichsergebnisse sind in Tabelle 2 aufgeführt.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Tabelle 2 Zero-Shot-Text-zu-Bild-Generierungsleistung verschiedener Modelle

Wie aus der Tabelle ersichtlich ist, übertrifft LaVIT alle anderen multimodalen Sprachmodelle. Im Vergleich zu Emu erzielt LaVIT weitere Verbesserungen bei kleineren LLM-Modellen und demonstriert hervorragende visuell-verbale Ausrichtungsfähigkeiten. Darüber hinaus erreicht LaVIT eine vergleichbare Leistung wie der hochmoderne Text-zu-Bild-Experte Parti und verbraucht dabei weniger Trainingsdaten.

Multimodale Eingabeaufforderungsbildgenerierung

LaVIT ist in der Lage, mehrere modale Kombinationen nahtlos als Eingabeaufforderungen zu akzeptieren und entsprechende Bilder ohne Feinabstimmung zu generieren. LaVIT generiert Bilder, die den Stil und die Semantik eines bestimmten multimodalen Hinweises genau widerspiegeln. Und es kann das ursprüngliche Eingabebild mit multimodalen Hinweisen der Eingabe modifizieren. Herkömmliche Bilderzeugungsmodelle wie Stable Diffusion können diese Fähigkeit ohne zusätzliche fein abgestimmte Downstream-Daten nicht erreichen.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Beispiel für multimodale Bildgenerierungsergebnisse

Qualitative Analyse

Wie in der Abbildung unten gezeigt, kann der dynamische Tokenizer von LaVIT dynamisch die informativsten auf der Grundlage des Bildes auswählen Inhalt Bildpatch, erlernte Codes können visuelle Codes mit hoher Semantik erzeugen.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Visualisierung des dynamischen visuellen Tokenizers (links) und des erlernten Codebuchs (rechts)

Zusammenfassung

Die Entstehung von LaVIT bietet ein innovatives Paradigma für die Verarbeitung multimodaler Aufgaben und erbt das Erfolgreiche autoregressives generatives Lernparadigma von LLM durch Verwendung eines dynamischen visuellen Tokenizers, um Vision und Sprache in einer einheitlichen diskreten Token-Darstellung darzustellen. Durch die Optimierung unter einem einheitlichen Generierungsziel kann LaVIT Bilder wie eine Fremdsprache behandeln und sie wie Text verstehen und generieren. Der Erfolg dieser Methode liefert neue Inspiration für die Entwicklungsrichtung zukünftiger multimodaler Forschung und nutzt die leistungsstarken Argumentationsfähigkeiten von LLM, um neue Möglichkeiten für ein intelligenteres und umfassenderes multimodales Verständnis und eine bessere Generierung zu eröffnen.

Das obige ist der detaillierte Inhalt vonGrafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage