Aktuelle groß angelegte Sprachmodelle wie GPT, LLaMA usw. haben im Bereich der Verarbeitung natürlicher Sprache erhebliche Fortschritte gemacht und können komplexe Textinhalte verstehen und generieren. Können wir diese leistungsstarken Verständnis- und Generierungsfähigkeiten jedoch auf multimodale Daten ausweiten? Diese Idee wird nach und nach Wirklichkeit. Das neueste multimodale Großmodell LaVIT wurde von Kuaishou und der Peking-Universität entwickelt. Durch die Kombination von Bild- und Videodaten ermöglicht es dem Modell, umfangreiche Multimedia-Inhalte leicht zu verstehen und hilft bei der Erstellung illustrierter Inhalte. Die Entstehung von LaVIT ist von großer Bedeutung für das Verständnis und die Erstellung multimedialer Inhalte. Es identifiziert nicht nur Objekte, Szenen und Emotionen in Bildern und Videos, sondern generiert auch dazugehörige Beschreibungen in natürlicher Sprache. Auf diese Weise können wir multimodale Daten besser nutzen und lebendigere und interessantere grafische Inhalte erstellen. Die Entwicklung von LaVIT ist ein wichtiger Versuch groß angelegter Sprachmodelle im multimodalen Bereich. Es wird erwartet, dass es mehr Möglichkeiten für die Verarbeitung und Erstellung von Multimedia-Inhalten bietet und die weitere Entwicklung in den Bereichen Verarbeitung natürlicher Sprache und Computer Vision fördert.
LaVIT ist ein neues universelles multimodales Basismodell, das visuelle Inhalte wie ein Sprachmodell verstehen und generieren kann. Es verwendet einen ähnlichen Trainingsansatz wie große Sprachmodelle und verwendet einen autoregressiven Ansatz, um das nächste Bild- oder Text-Token vorherzusagen. Nach dem Training kann LaVIT als allgemeine multimodale Schnittstelle dienen, die ohne weitere Feinabstimmung multimodale Verständnis- und Generierungsaufgaben ausführen kann. LaVIT kann beispielsweise die folgenden Funktionen erreichen:
LaVIT ist ein leistungsstarkes Text-zu-Bild-Generierungsmodell, das in der Lage ist, auf der Grundlage vorgegebener Textaufforderungen hochwertige Bilder mit mehreren Seitenverhältnissen und hochästhetischen Bildern zu generieren. Im Vergleich zu hochmodernen Bilderzeugungsmodellen wie Parti, SDXL und DALLE-3 verfügt LaVIT über vergleichbare Bilderzeugungsfähigkeiten. Was es einzigartig macht, ist seine Fähigkeit, vielfältige Bilder zu erzeugen und gleichzeitig eine hohe Qualität und Ästhetik beizubehalten. Ob im Hoch- oder Querformat, LaVIT ist in der Lage, zufriedenstellende Bildkompositionen zu erzeugen. Durch die Kombination fortschrittlicher Technologie und hochwertiger Trainingsdaten bietet LaVIT Benutzern ein hervorragendes Text-to-Graph-System
In LaVIT werden Bilder und Text als diskretisierte Token dargestellt. Daher können multimodale Hinweise zur Bildgenerierung genutzt werden, einschließlich Kombinationen aus Text, Bild+Text und Bild+Bild. Diese multimodale Generierung erfordert keine Feinabstimmung und das System kann auf der Grundlage von Eingabeaufforderungen entsprechende Bilder generieren.
LaVIT ist ein Bildverständnismodell, das Bilder lesen und ihre Semantik verstehen kann. Es kann relevante Beschreibungen für Eingabebilder generieren und relevante Fragen beantworten.
Die Modellstruktur von LaVIT ist in der folgenden Abbildung dargestellt:
Abbildung: Die Gesamtarchitektur des LaVIT-Modells
Stufe 1: Dynamischer visueller Tokenizer
Um visuelle Inhalte wie natürliche Sprache verstehen und generieren zu können, führt LaVIT einen gut gestalteten visuellen Tokenizer zur Umwandlung visueller Inhalte (kontinuierliche Signale) in textähnliche Inhalte ein Die gleiche Token-Sequenz, genau wie eine Fremdsprache, die LLM verstehen kann. Der Autor ist der Ansicht, dass der visuelle Tokenizer (Tokenizer) die folgenden zwei Merkmale aufweisen sollte, um eine einheitliche visuelle und sprachliche Modellierung zu erreichen:
Die folgende Abbildung zeigt die Struktur des von LaVIT vorgeschlagenen visuellen Tokenizers:
Bild: (a) Dynamischer visueller Tokengenerator (b) Token-Zusammenführung
Der dynamische visuelle Tokenizer enthält Token Selektor und Token-Kombinierer. Wie in der Abbildung gezeigt, wird der Token-Selektor verwendet, um die informativsten Bildblöcke auszuwählen, während die Token-Zusammenführung die Informationen dieser nicht informativen visuellen Blöcke in die beibehaltenen Token komprimiert, um die Zusammenführung redundanter Token zu erreichen. Der gesamte dynamische visuelle Wortsegmentierer wird trainiert, indem die semantische Rekonstruktion des Eingabebildes maximiert wird.
Token-Selektor
Der Token-Selektor empfängt N Bildblock-Level-Funktionen als Eingabe und sein Ziel besteht darin, die Wichtigkeit jedes Bildblocks zu bewerten und den Block mit der höchsten Informationsmenge auszuwählen. um die Semantik des gesamten Bildes vollständig darzustellen. Um dieses Ziel zu erreichen, wird ein leichtes Modul bestehend aus mehreren MLP-Schichten verwendet, um die Verteilung π vorherzusagen. Durch Abtasten aus der Verteilung π wird eine binäre Entscheidungsmaske generiert, die angibt, ob der entsprechende Bildbereich beibehalten werden soll.
Token-Combiner
Token-Combiner unterteilt N Bildblöcke in zwei Gruppen: X_r beibehalten und X_d gemäß der generierten Entscheidungsmaske verwerfen. Im Gegensatz zum direkten Verwerfen von X_d kann der Token-Combiner die detaillierte Semantik des Eingabebilds maximal beibehalten. Der Token-Combiner besteht aus L gestapelten Blöcken, von denen jeder eine kausale Selbstaufmerksamkeitsschicht, eine Queraufmerksamkeitsschicht und eine Feed-Forward-Schicht enthält. In der kausalen Selbstaufmerksamkeitsschicht achtet jedes Token in X_r nur auf sein vorheriges Token, um die Konsistenz mit der Text-Token-Form in LLM sicherzustellen. Diese Strategie schneidet im Vergleich zur bidirektionalen Selbstaufmerksamkeit besser ab. Die Cross-Attention-Schicht nimmt das beibehaltene Token X_r als Abfrage und führt die Token in X_d basierend auf ihrer semantischen Ähnlichkeit zusammen.
Phase 2: Einheitliches generatives Vortraining
Die vom visuellen Tokenizer verarbeiteten visuellen Token werden mit den Text-Tokens verbunden, um eine multimodale Sequenz als Eingabe während des Trainings zu bilden. Um die beiden Modalitäten zu unterscheiden, fügt der Autor am Anfang und Ende der Bild-Token-Sequenz spezielle Token ein: [IMG] und [/IMG], die verwendet werden, um den Anfang und das Ende des visuellen Inhalts anzuzeigen. Um Text und Bilder generieren zu können, verwendet LaVIT zwei Bild-Text-Verbindungsformen: [Bild, Text] und [Text;
Für diese multimodalen Eingabesequenzen verwendet LaVIT einen einheitlichen, autoregressiven Ansatz, um die Wahrscheinlichkeit jeder multimodalen Sequenz für das Vortraining direkt zu maximieren. Diese vollständige Vereinheitlichung von Darstellungsraum und Trainingsmethoden hilft LLM, multimodale Interaktion und Ausrichtung besser zu erlernen. Nach Abschluss des Vortrainings ist LaVIT in der Lage, Bilder wahrzunehmen und Bilder wie Text zu verstehen und zu generieren.
Zero-Shot multimodales Verständnis
LaVIT verfügt über Zero-Shot multimodales Verständnis bei der Generierung von Bilduntertiteln (NoCaps, Flickr30k) und der visuellen Beantwortung von Fragen (VQAv2, OKVQA, GQA). , VizWiz) Erzielte führende Leistung bei Aufgaben.
Tabelle 1 Zero-Shot multimodale Verständnisaufgabenbewertung
Zero-Shot multimodale Generierung
Da der vorgeschlagene visuelle Tokenizer in diesem Experiment Bilder als diskretisierte Token darstellen kann, ist LaVIT in der Lage, Bilder zu synthetisieren, indem durch Autoregression textähnliche visuelle Token generiert werden. Der Autor führte eine quantitative Bewertung der Bildsyntheseleistung des Modells unter Textbedingungen ohne Stichprobe durch. Die Vergleichsergebnisse sind in Tabelle 2 aufgeführt.
Tabelle 2 Zero-Shot-Text-zu-Bild-Generierungsleistung verschiedener Modelle
Wie aus der Tabelle ersichtlich ist, übertrifft LaVIT alle anderen multimodalen Sprachmodelle. Im Vergleich zu Emu erzielt LaVIT weitere Verbesserungen bei kleineren LLM-Modellen und demonstriert hervorragende visuell-verbale Ausrichtungsfähigkeiten. Darüber hinaus erreicht LaVIT eine vergleichbare Leistung wie der hochmoderne Text-zu-Bild-Experte Parti und verbraucht dabei weniger Trainingsdaten.
Multimodale Eingabeaufforderungsbildgenerierung
LaVIT ist in der Lage, mehrere modale Kombinationen nahtlos als Eingabeaufforderungen zu akzeptieren und entsprechende Bilder ohne Feinabstimmung zu generieren. LaVIT generiert Bilder, die den Stil und die Semantik eines bestimmten multimodalen Hinweises genau widerspiegeln. Und es kann das ursprüngliche Eingabebild mit multimodalen Hinweisen der Eingabe modifizieren. Herkömmliche Bilderzeugungsmodelle wie Stable Diffusion können diese Fähigkeit ohne zusätzliche fein abgestimmte Downstream-Daten nicht erreichen.
Beispiel für multimodale Bildgenerierungsergebnisse
Qualitative Analyse
Wie in der Abbildung unten gezeigt, kann der dynamische Tokenizer von LaVIT dynamisch die informativsten auf der Grundlage des Bildes auswählen Inhalt Bildpatch, erlernte Codes können visuelle Codes mit hoher Semantik erzeugen.
Visualisierung des dynamischen visuellen Tokenizers (links) und des erlernten Codebuchs (rechts)
Die Entstehung von LaVIT bietet ein innovatives Paradigma für die Verarbeitung multimodaler Aufgaben und erbt das Erfolgreiche autoregressives generatives Lernparadigma von LLM durch Verwendung eines dynamischen visuellen Tokenizers, um Vision und Sprache in einer einheitlichen diskreten Token-Darstellung darzustellen. Durch die Optimierung unter einem einheitlichen Generierungsziel kann LaVIT Bilder wie eine Fremdsprache behandeln und sie wie Text verstehen und generieren. Der Erfolg dieser Methode liefert neue Inspiration für die Entwicklungsrichtung zukünftiger multimodaler Forschung und nutzt die leistungsstarken Argumentationsfähigkeiten von LLM, um neue Möglichkeiten für ein intelligenteres und umfassenderes multimodales Verständnis und eine bessere Generierung zu eröffnen.
Das obige ist der detaillierte Inhalt vonGrafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!