Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar-KI-php.cn

Inhaltsverzeichnis

Modellübersicht

Methodenübersicht

Experimente

Zusammenfassung

Heim

Technologie-Peripheriegeräte

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

PHPz

Jan 30, 2024 pm 03:24 PM

ai 数据

Aktuelle groß angelegte Sprachmodelle wie GPT, LLaMA usw. haben im Bereich der Verarbeitung natürlicher Sprache erhebliche Fortschritte gemacht und können komplexe Textinhalte verstehen und generieren. Können wir diese leistungsstarken Verständnis- und Generierungsfähigkeiten jedoch auf multimodale Daten ausweiten? Diese Idee wird nach und nach Wirklichkeit. Das neueste multimodale Großmodell LaVIT wurde von Kuaishou und der Peking-Universität entwickelt. Durch die Kombination von Bild- und Videodaten ermöglicht es dem Modell, umfangreiche Multimedia-Inhalte leicht zu verstehen und hilft bei der Erstellung illustrierter Inhalte. Die Entstehung von LaVIT ist von großer Bedeutung für das Verständnis und die Erstellung multimedialer Inhalte. Es identifiziert nicht nur Objekte, Szenen und Emotionen in Bildern und Videos, sondern generiert auch dazugehörige Beschreibungen in natürlicher Sprache. Auf diese Weise können wir multimodale Daten besser nutzen und lebendigere und interessantere grafische Inhalte erstellen. Die Entwicklung von LaVIT ist ein wichtiger Versuch groß angelegter Sprachmodelle im multimodalen Bereich. Es wird erwartet, dass es mehr Möglichkeiten für die Verarbeitung und Erstellung von Multimedia-Inhalten bietet und die weitere Entwicklung in den Bereichen Verarbeitung natürlicher Sprache und Computer Vision fördert.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Papiertitel: Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
Papieradresse: https://arxiv.org/abs/2309.04669
Code-Modell Adresse: https://github.com/jy0205/LaVIT

Modellübersicht

LaVIT ist ein neues universelles multimodales Basismodell, das visuelle Inhalte wie ein Sprachmodell verstehen und generieren kann. Es verwendet einen ähnlichen Trainingsansatz wie große Sprachmodelle und verwendet einen autoregressiven Ansatz, um das nächste Bild- oder Text-Token vorherzusagen. Nach dem Training kann LaVIT als allgemeine multimodale Schnittstelle dienen, die ohne weitere Feinabstimmung multimodale Verständnis- und Generierungsaufgaben ausführen kann. LaVIT kann beispielsweise die folgenden Funktionen erreichen:

LaVIT ist ein leistungsstarkes Text-zu-Bild-Generierungsmodell, das in der Lage ist, auf der Grundlage vorgegebener Textaufforderungen hochwertige Bilder mit mehreren Seitenverhältnissen und hochästhetischen Bildern zu generieren. Im Vergleich zu hochmodernen Bilderzeugungsmodellen wie Parti, SDXL und DALLE-3 verfügt LaVIT über vergleichbare Bilderzeugungsfähigkeiten. Was es einzigartig macht, ist seine Fähigkeit, vielfältige Bilder zu erzeugen und gleichzeitig eine hohe Qualität und Ästhetik beizubehalten. Ob im Hoch- oder Querformat, LaVIT ist in der Lage, zufriedenstellende Bildkompositionen zu erzeugen. Durch die Kombination fortschrittlicher Technologie und hochwertiger Trainingsdaten bietet LaVIT Benutzern ein hervorragendes Text-to-Graph-System

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

In LaVIT werden Bilder und Text als diskretisierte Token dargestellt. Daher können multimodale Hinweise zur Bildgenerierung genutzt werden, einschließlich Kombinationen aus Text, Bild+Text und Bild+Bild. Diese multimodale Generierung erfordert keine Feinabstimmung und das System kann auf der Grundlage von Eingabeaufforderungen entsprechende Bilder generieren.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

LaVIT ist ein Bildverständnismodell, das Bilder lesen und ihre Semantik verstehen kann. Es kann relevante Beschreibungen für Eingabebilder generieren und relevante Fragen beantworten.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Methodenübersicht

Die Modellstruktur von LaVIT ist in der folgenden Abbildung dargestellt:

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Abbildung: Die Gesamtarchitektur des LaVIT-Modells

Stufe 1: Dynamischer visueller Tokenizer

Um visuelle Inhalte wie natürliche Sprache verstehen und generieren zu können, führt LaVIT einen gut gestalteten visuellen Tokenizer zur Umwandlung visueller Inhalte (kontinuierliche Signale) in textähnliche Inhalte ein Die gleiche Token-Sequenz, genau wie eine Fremdsprache, die LLM verstehen kann. Der Autor ist der Ansicht, dass der visuelle Tokenizer (Tokenizer) die folgenden zwei Merkmale aufweisen sollte, um eine einheitliche visuelle und sprachliche Modellierung zu erreichen:

Diskretisierung: Visuelle Token sollten als diskretisierte Formen wie Text dargestellt werden. Dabei wird eine einheitliche Darstellungsform für die beiden Modalitäten verwendet, was dazu beiträgt, dass LaVIT denselben Klassifizierungsverlust für die multimodale Modellierungsoptimierung unter einem einheitlichen autoregressiven generativen Trainingsrahmen verwendet.
Dynamischeifizierung: Im Gegensatz zu Text-Tokens weisen Bild-Patches erhebliche gegenseitige Abhängigkeiten auf, wodurch es relativ einfach ist, einen Patch von einem anderen abzuleiten. Daher verringert diese Abhängigkeit die Wirksamkeit des Optimierungsziels der ursprünglichen LLM-Vorhersage für das nächste Token. LaVIT schlägt vor, die Redundanz zwischen visuellen Patches durch die Verwendung von Token-Merging zu reduzieren, das eine dynamische Anzahl visueller Token basierend auf der unterschiedlichen semantischen Komplexität verschiedener Bilder codiert. Auf diese Weise verbessert die Verwendung der dynamischen Token-Kodierung für Bilder unterschiedlicher Komplexität die Effizienz des Vortrainings weiter und vermeidet redundante Token-Berechnungen.

Die folgende Abbildung zeigt die Struktur des von LaVIT vorgeschlagenen visuellen Tokenizers:

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Bild: (a) Dynamischer visueller Tokengenerator (b) Token-Zusammenführung

Der dynamische visuelle Tokenizer enthält Token Selektor und Token-Kombinierer. Wie in der Abbildung gezeigt, wird der Token-Selektor verwendet, um die informativsten Bildblöcke auszuwählen, während die Token-Zusammenführung die Informationen dieser nicht informativen visuellen Blöcke in die beibehaltenen Token komprimiert, um die Zusammenführung redundanter Token zu erreichen. Der gesamte dynamische visuelle Wortsegmentierer wird trainiert, indem die semantische Rekonstruktion des Eingabebildes maximiert wird.

Token-Selektor

Der Token-Selektor empfängt N Bildblock-Level-Funktionen als Eingabe und sein Ziel besteht darin, die Wichtigkeit jedes Bildblocks zu bewerten und den Block mit der höchsten Informationsmenge auszuwählen. um die Semantik des gesamten Bildes vollständig darzustellen. Um dieses Ziel zu erreichen, wird ein leichtes Modul bestehend aus mehreren MLP-Schichten verwendet, um die Verteilung π vorherzusagen. Durch Abtasten aus der Verteilung π wird eine binäre Entscheidungsmaske generiert, die angibt, ob der entsprechende Bildbereich beibehalten werden soll.

Token-Combiner

Token-Combiner unterteilt N Bildblöcke in zwei Gruppen: X_r beibehalten und X_d gemäß der generierten Entscheidungsmaske verwerfen. Im Gegensatz zum direkten Verwerfen von X_d kann der Token-Combiner die detaillierte Semantik des Eingabebilds maximal beibehalten. Der Token-Combiner besteht aus L gestapelten Blöcken, von denen jeder eine kausale Selbstaufmerksamkeitsschicht, eine Queraufmerksamkeitsschicht und eine Feed-Forward-Schicht enthält. In der kausalen Selbstaufmerksamkeitsschicht achtet jedes Token in X_r nur auf sein vorheriges Token, um die Konsistenz mit der Text-Token-Form in LLM sicherzustellen. Diese Strategie schneidet im Vergleich zur bidirektionalen Selbstaufmerksamkeit besser ab. Die Cross-Attention-Schicht nimmt das beibehaltene Token X_r als Abfrage und führt die Token in X_d basierend auf ihrer semantischen Ähnlichkeit zusammen.

Phase 2: Einheitliches generatives Vortraining

Die vom visuellen Tokenizer verarbeiteten visuellen Token werden mit den Text-Tokens verbunden, um eine multimodale Sequenz als Eingabe während des Trainings zu bilden. Um die beiden Modalitäten zu unterscheiden, fügt der Autor am Anfang und Ende der Bild-Token-Sequenz spezielle Token ein: [IMG] und [/IMG], die verwendet werden, um den Anfang und das Ende des visuellen Inhalts anzuzeigen. Um Text und Bilder generieren zu können, verwendet LaVIT zwei Bild-Text-Verbindungsformen: [Bild, Text] und [Text;

Für diese multimodalen Eingabesequenzen verwendet LaVIT einen einheitlichen, autoregressiven Ansatz, um die Wahrscheinlichkeit jeder multimodalen Sequenz für das Vortraining direkt zu maximieren. Diese vollständige Vereinheitlichung von Darstellungsraum und Trainingsmethoden hilft LLM, multimodale Interaktion und Ausrichtung besser zu erlernen. Nach Abschluss des Vortrainings ist LaVIT in der Lage, Bilder wahrzunehmen und Bilder wie Text zu verstehen und zu generieren.

Experimente

Zero-Shot multimodales Verständnis

LaVIT verfügt über Zero-Shot multimodales Verständnis bei der Generierung von Bilduntertiteln (NoCaps, Flickr30k) und der visuellen Beantwortung von Fragen (VQAv2, OKVQA, GQA). , VizWiz) Erzielte führende Leistung bei Aufgaben.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Tabelle 1 Zero-Shot multimodale Verständnisaufgabenbewertung

Zero-Shot multimodale Generierung

Da der vorgeschlagene visuelle Tokenizer in diesem Experiment Bilder als diskretisierte Token darstellen kann, ist LaVIT in der Lage, Bilder zu synthetisieren, indem durch Autoregression textähnliche visuelle Token generiert werden. Der Autor führte eine quantitative Bewertung der Bildsyntheseleistung des Modells unter Textbedingungen ohne Stichprobe durch. Die Vergleichsergebnisse sind in Tabelle 2 aufgeführt.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Tabelle 2 Zero-Shot-Text-zu-Bild-Generierungsleistung verschiedener Modelle

Wie aus der Tabelle ersichtlich ist, übertrifft LaVIT alle anderen multimodalen Sprachmodelle. Im Vergleich zu Emu erzielt LaVIT weitere Verbesserungen bei kleineren LLM-Modellen und demonstriert hervorragende visuell-verbale Ausrichtungsfähigkeiten. Darüber hinaus erreicht LaVIT eine vergleichbare Leistung wie der hochmoderne Text-zu-Bild-Experte Parti und verbraucht dabei weniger Trainingsdaten.

Multimodale Eingabeaufforderungsbildgenerierung

LaVIT ist in der Lage, mehrere modale Kombinationen nahtlos als Eingabeaufforderungen zu akzeptieren und entsprechende Bilder ohne Feinabstimmung zu generieren. LaVIT generiert Bilder, die den Stil und die Semantik eines bestimmten multimodalen Hinweises genau widerspiegeln. Und es kann das ursprüngliche Eingabebild mit multimodalen Hinweisen der Eingabe modifizieren. Herkömmliche Bilderzeugungsmodelle wie Stable Diffusion können diese Fähigkeit ohne zusätzliche fein abgestimmte Downstream-Daten nicht erreichen.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Beispiel für multimodale Bildgenerierungsergebnisse

Qualitative Analyse

Wie in der Abbildung unten gezeigt, kann der dynamische Tokenizer von LaVIT dynamisch die informativsten auf der Grundlage des Bildes auswählen Inhalt Bildpatch, erlernte Codes können visuelle Codes mit hoher Semantik erzeugen.

Grafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar

Visualisierung des dynamischen visuellen Tokenizers (links) und des erlernten Codebuchs (rechts)

Zusammenfassung

Die Entstehung von LaVIT bietet ein innovatives Paradigma für die Verarbeitung multimodaler Aufgaben und erbt das Erfolgreiche autoregressives generatives Lernparadigma von LLM durch Verwendung eines dynamischen visuellen Tokenizers, um Vision und Sprache in einer einheitlichen diskreten Token-Darstellung darzustellen. Durch die Optimierung unter einem einheitlichen Generierungsziel kann LaVIT Bilder wie eine Fremdsprache behandeln und sie wie Text verstehen und generieren. Der Erfolg dieser Methode liefert neue Inspiration für die Entwicklungsrichtung zukünftiger multimodaler Forschung und nutzt die leistungsstarken Argumentationsfähigkeiten von LLM, um neue Möglichkeiten für ein intelligenteres und umfassenderes multimodales Verständnis und eine bessere Generierung zu eröffnen.

Das obige ist der detaillierte Inhalt vonGrafische Sprache: Die multimodalen Großmodelle von Kuaishou und Beida sind mit DALLE-3 vergleichbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7447

CakePHP-Tutorial

1374

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Welche Methode wird verwendet, um Strings in Objekte in Vue.js umzuwandeln? Apr 07, 2025 pm 09:39 PM

Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

VUE.JS Wie kann man ein Array von String -Typ in ein Array von Objekten umwandeln? Apr 07, 2025 pm 09:36 PM

Zusammenfassung: Es gibt die folgenden Methoden zum Umwandeln von VUE.JS -String -Arrays in Objektarrays: Grundlegende Methode: Verwenden Sie die Kartenfunktion, um regelmäßige formatierte Daten zu entsprechen. Erweitertes Gameplay: Die Verwendung regulärer Ausdrücke kann komplexe Formate ausführen, müssen jedoch sorgfältig geschrieben und berücksichtigt werden. Leistungsoptimierung: In Betracht ziehen die große Datenmenge, asynchrone Operationen oder effiziente Datenverarbeitungsbibliotheken können verwendet werden. Best Practice: Clear Code -Stil, verwenden Sie sinnvolle variable Namen und Kommentare, um den Code präzise zu halten.

Remote Senior Backend Engineers (Plattformen) benötigen Kreise Apr 08, 2025 pm 12:27 PM

Remote Senior Backend Engineer Job Vacant Company: Circle Standort: Remote-Büro-Jobtyp: Vollzeitgehalt: 130.000 bis 140.000 US-Dollar Stellenbeschreibung Nehmen Sie an der Forschung und Entwicklung von Mobilfunkanwendungen und öffentlichen API-bezogenen Funktionen, die den gesamten Lebenszyklus der Softwareentwicklung abdecken. Die Hauptaufgaben erledigen die Entwicklungsarbeit unabhängig von RubyonRails und arbeiten mit dem Front-End-Team von React/Redux/Relay zusammen. Erstellen Sie die Kernfunktionalität und -verbesserungen für Webanwendungen und arbeiten Sie eng mit Designer und Führung während des gesamten funktionalen Designprozesses zusammen. Fördern Sie positive Entwicklungsprozesse und priorisieren Sie die Iterationsgeschwindigkeit. Erfordert mehr als 6 Jahre komplexes Backend für Webanwendungen

Vue- und Element-UI-Kaskaden-Dropdown-Box V-Model-Bindung Apr 07, 2025 pm 08:06 PM

Vue- und Element-UI-kaskadierte Dropdown-Boxen V-Model-Bindung gemeinsame Grubenpunkte: V-Model bindet ein Array, das die ausgewählten Werte auf jeder Ebene des kaskadierten Auswahlfelds darstellt, nicht auf einer Zeichenfolge; Der Anfangswert von ausgewählten Optionen muss ein leeres Array sein, nicht null oder undefiniert. Die dynamische Belastung von Daten erfordert die Verwendung asynchroner Programmierkenntnisse, um Datenaktualisierungen asynchron zu verarbeiten. Für riesige Datensätze sollten Leistungsoptimierungstechniken wie virtuelles Scrollen und fauler Laden in Betracht gezogen werden.

So stellen Sie die Zeitüberschreitung von Vue Axios fest Apr 07, 2025 pm 10:03 PM

Um die Zeitüberschreitung für Vue Axios festzulegen, können wir eine Axios -Instanz erstellen und die Zeitleitungsoption angeben: in globalen Einstellungen: vue.Prototyp. $ Axios = axios.create ({Timeout: 5000}); In einer einzigen Anfrage: this. $ axios.get ('/api/user', {timeout: 10000}).

Laravels Geospatial: Optimierung interaktiver Karten und großen Datenmengen Apr 08, 2025 pm 12:24 PM

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

So verwenden Sie MySQL nach der Installation Apr 08, 2025 am 11:48 AM

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

Wie man MySQL löst, kann nicht gestartet werden Apr 08, 2025 pm 02:21 PM

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

See all articles