Das Aufkommen von GPT-4o hat erneut ein neues Paradigma für die multimodale Modellentwicklung geschaffen!
Warum sagst du das?
OpenAI nennt es das „erste „native“ multimodale“ Modell, was bedeutet, dass GPT-4o sich von allen Vorgängermodellen unterscheidet.
Traditionelle multimodale Grundmodelle verwenden in der Regel für jede Modalität einen spezifischen „Encoder“ oder „Decoder“, um verschiedene Modalitäten zu trennen.
Dieser Ansatz schränkt jedoch die Fähigkeit des Modells ein, modalübergreifende Informationen effektiv zusammenzuführen.
GPT-4o ist das „erste End-to-End“-Trainingsmodell, das Text-, visuelle und Audiomodi umfassen kann. Alle Ein- und Ausgaben werden von einem einzigen neuronalen Netzwerk verarbeitet.
Und jetzt ist das erste Modell der Branche erschienen, das es wagt, GPT-4o herauszufordern!
Kürzlich haben Forscher des Meta-Teams das „Mixed Modal Base Model“ veröffentlicht – Chameleon.
Papieradresse: https://arxiv.org/pdf/2405.09818
Wie GPT-4o verwendet Chameleon eine einheitliche Transformer-Architektur und verwendet gemischte Text-, Bild- und Codemodalitäten, um das Training abzuschließen.
Ähnlich wie bei der Textgenerierung wird das Bild diskret „tokenisiert“ (Tokenisierung) und schließlich werden verschachtelte Text- und Bildsequenzen generiert und abgeleitet.
Bei diesem „early fusion“-Ansatz werden alle Pipelines von Anfang an auf einen gemeinsamen Darstellungsraum abgebildet, sodass das Modell Text und Bilder nahtlos verarbeiten kann.
Von Chameleon generierte multimodale Inhalte
Gleichzeitig bringt ein solches Design erhebliche technische Herausforderungen für das Modelltraining mit sich.
In diesem Zusammenhang hat das Meta-Forschungsteam eine Reihe architektonischer Innovationen und Trainingstechnologien eingeführt.
Die Ergebnisse zeigen, dass bei Klartextaufgaben die Leistung von Chameleon mit 34 Milliarden Parametern (trainiert mit 10 Billionen multimodalen Token) der von Gemini-Pro entspricht.
Auffrischende SOTA in Bezug auf visuelle Fragenbeantwortung und Bildanmerkungs-Benchmarks, die Leistung liegt nahe an GPT-4V.
Allerdings sind sowohl GPT-4o als auch Chameleon frühe Erkundungen einer neuen Generation „nativer“ durchgängiger multimodaler Basismodelle.
Auf der GTC 2024-Konferenz beschrieb Lao Huang einen wichtigen Schritt hin zur ultimativen Vision von AGI – die Interoperabilität verschiedener Modi.
Die Veröffentlichung von Chameleon ist einfach die schnellste Reaktion auf GPT-4o.
Einige Internetnutzer sagten, dass Token reingehen und Token rausgehen, was einfach unmöglich zu erklären ist.
Einige Leute behaupten sogar, dass OOS mit den sehr soliden Forschungsergebnissen mithalten wird, die nach der Geburt von GPT-4o veröffentlicht wurden.
Allerdings unterstützt das Chameleon-Modell derzeit generierte Modalitäten, hauptsächlich Bildtext. Die Sprachfunktionen in GPT-4o fehlen.
Netizens sagten, dann fügen Sie einfach eine weitere Modalität (Audio) hinzu, erweitern Sie den Trainingsdatensatz, „kochen“ Sie eine Weile, und wir erhalten GPT-4o ...?
Meta „I „Ich bin sehr stolz, dieses Team zu unterstützen.“
Vielleicht dauert es nicht mehr lange, bis wir eine Open-Source-Version von GPT-4o bekommen.
Als nächstes werfen wir einen Blick auf die technischen Details des Chameleon-Modells.
Meta stellte erstmals in Chameleons Artikel fest: Viele neu veröffentlichte Modelle implementieren „Multimodalität“ immer noch nicht bis zum Ende.
Obwohl diese Modelle eine End-to-End-Trainingsmethode verwenden, modellieren sie dennoch verschiedene Modalitäten separat, indem sie separate Encoder oder Decoder verwenden.
Wie eingangs erwähnt schränkt dieser Ansatz die Fähigkeit des Modells ein, modalübergreifende Informationen zu erfassen, und macht es schwierig, wirklich multimodale Dokumente zu generieren, die Informationen jeglicher Art enthalten.
Um diesen Mangel zu beheben, schlug Meta eine Reihe von „gemischtmodalen“ Basismodellen Chameleon vor, die in der Lage sind, Inhalte zu generieren, in denen Text- und Bildinhalte willkürlich miteinander verflochten sind.
Die von Chameleon generierten Ergebnisse, Texte und Bilder erscheinen interlaced
Das sogenannte „mixed modal“-Basismodell bedeutet, dass Chameleon nicht nur einen End-to-End-Ansatz verwendet, um von Grund auf zu trainieren, sondern auch kombiniert alle Modelle während des Trainings. Zustandsinformationen werden miteinander verflochten, gemischt und unter Verwendung einer einheitlichen Architektur verarbeitet.
Wie mischt man Informationen aus allen Modalitäten und stellt sie in derselben Modellarchitektur dar?
Die Antwort lautet immer noch „Token“.
Solange alles als Token ausgedrückt wird, können alle Informationen aller Modalitäten im selben Vektorraum abgebildet werden, sodass Transformer sie nahtlos verarbeiten kann.
Dieser Ansatz bringt jedoch technische Herausforderungen in Bezug auf Optimierungsstabilität und Modellskalierbarkeit mit sich.
Um diese Probleme zu lösen, wird in dem Artikel die Modellarchitektur entsprechend erneuert und einige Trainingstechniken verwendet, darunter QK-Normalisierung und Zloss.
Gleichzeitig schlägt das Papier auch eine Methode zur Feinabstimmung von Klartext-LLM in ein multimodales Modell vor.
Um alle Modalitäten als Token darzustellen, benötigen Sie zunächst einen leistungsfähigen Tokenizer.
Zu diesem Zweck hat das Team von Chameleon einen neuen Bildsegmentierer entwickelt, der auf einem früheren Artikel in Meta basiert. Basierend auf einem Codebuch der Größe 8192 wird das Bild mit einer Spezifikation von 512×512 in 1024 diskrete Token kodiert.
Der Text-Tokenizer basiert auf der von Google entwickelten Open-Source-Bibliothek „Satzstück“ und trainiert einen BPE-Tokenizer mit 65536 Text-Tokens und 8192 Bild-Tokens.
Um das Potenzial von „gemischten Modalitäten“ voll auszuschöpfen, werden die Trainingsdaten zusätzlich aufgebrochen und mit unterschiedlichen Modalitäten vermischt und dem Modell präsentiert, inklusive reinem Text, Text-Bild Paare und Text, multimodale Dokumente mit interlaced Bildern.
Die Klartextdaten umfassen alle von Llama 2 und CodeLlama verwendeten Vortrainingsdaten, insgesamt 2,9 Billionen Token.
Text-Bild-Paare enthalten einige öffentliche Daten, insgesamt 1,4 Milliarden Paare und 1,5 Billionen Token.
Für die miteinander verflochtenen Daten aus Text und Bildern betont das Papier ausdrücklich, dass es keine Daten von Meta-Produkten enthält, vollständig öffentliche Datenquellen nutzt und insgesamt 400 Milliarden Token aussortiert.
Chameleons Vortraining wird in zwei separaten Phasen durchgeführt, die 80 % bzw. 20 % des gesamten Trainingsverhältnisses ausmachen.
Die erste Stufe des Trainings besteht darin, das Modell die oben genannten Daten unbeaufsichtigt lernen zu lassen. Zu Beginn der zweiten Stufe wird das in der ersten Stufe erhaltene Gewicht um 50 % reduziert und Daten höherer Qualität gemischt, um dies zu ermöglichen Modell, um weiter zu lernen.
Wenn das Modell auf mehr als 8B-Parameter und 1T-Token erweitert wird, treten in den späteren Phasen des Trainings offensichtliche Instabilitätsprobleme auf.
Da alle Modalitäten die gleiche Modellgewichtung haben, scheint jede Modalität die Tendenz zu haben, die Norm zu erhöhen und mit anderen Modalitäten zu „konkurrieren“.
Dies wird in den frühen Phasen des Trainings keine großen Probleme verursachen, aber wenn das Training fortschreitet und die Daten den Ausdrucksbereich von bf16 überschreiten, wird der Verlust divergieren.
Die Forscher führen dies auf die Translationsinvarianz der Softmax-Funktion zurück. Dieses Phänomen wird in monomodalen Modellen auch „Logit-Drift“ genannt.
Daher schlägt das Papier einige Architekturanpassungen und Optimierungsmethoden vor, um Stabilität sicherzustellen:
-QK-Normalisierung (Abfrageschlüssel-Normalisierung): Wenden Sie die Ebenennorm auf die Abfrage- und Schlüsselvektoren im Aufmerksamkeitsmodul an und steuern Sie so direkt das Normwachstum der Eingabe der Softmax-Schicht.
– Einführung des Dropouts nach der Aufmerksamkeitsschicht und der Feedforward-Schicht.
– Verwendung der Zloss-Regularisierung in der Verlustfunktion. Trainingsmethoden Das Ausmaß der Rechenleistung.
Das Hardwaremodell ist NVIDIA A100 mit 80 GB Speicher. Die 7B-Version nutzte 1024 GPUs parallel, um etwa 860.000 GPU-Stunden zu trainieren, und die Anzahl der GPU-Stunden wurde verdreifacht überschritt 4,28 Millionen.
Als Unternehmen, das Llama 2 einst als Open-Source-Lösung bereitgestellt hat, ist das Forschungsteam von Meta im Vergleich zu GPT-4o, das nicht einmal über einen technischen Bericht verfügt, sehr großzügig als „der großzügigste“ beschrieben.
Llama 2 umfassend übertreffen
In der spezifischen experimentellen Bewertung unterteilten die Forscher sie in manuelle Bewertung, Sicherheitstests und Basisbewertung.
Nachdem Chameleon-34B viermal mehr Token als Llama 2 für das Training verwendet hat, hat es in verschiedenen Single-Modal-Benchmark-Tests erstaunliche Ergebnisse erzielt.
Der Bewertungsinhalt umfasst gesundes Denken, Leseverständnis, mathematische Probleme und Weltwissensbereiche. Die Bewertungsergebnisse sind in der folgenden Tabelle aufgeführt.
- Gesunder Menschenverstand und Leseverständnis
Es ist zu beobachten, dass Chameleon-7B und Chameleon-34B im Vergleich zu Lama 2 konkurrenzfähiger sind. Tatsächlich übertraf 34B bei 5/8-Aufgaben sogar Llama-2 70B und seine Leistung entsprach der von Mixtral-8x7B.
- Mathematik und Weltwissen
Obwohl beide Chameleon-Modelle in anderen Modalitäten geschult wurden, zeigten sie starke mathematische Fähigkeiten.
Auf GSM8k schneidet Chameleon-7B besser ab als das Llama-2-Modell der entsprechenden Parameterskala, und seine Leistung entspricht der von Mistral-7B.
Darüber hinaus schneidet Chameleon-34B bei maj@1 (61,4 vs. 56,8) besser ab als Llama 2-70B und bei maj@32 (77,0 vs. 75,1) Mixtral-8x7B.
In ähnlicher Weise übertrifft Chameleon-7B bei mathematischen Operationen Llama 2 und liegt bei maj@4 auf Augenhöhe mit Mistral-7B, während Chameleon-34B Llama 2-70B übertrifft und bei maj@4 in der Leistung nahe bei Mixtral-8x7B liegt auf maj@4 (24,7 vs. 28,4).
Insgesamt übertrifft die Leistung von Chameleon Llama 2 in allen Aspekten und liegt bei einigen Aufgaben nahe an Mistral-7B/8x7B.
Bei der Text-zu-Bild-Aufgabe bewerteten die Forscher insbesondere zwei spezifische Aufgaben: visuelle Beantwortung von Fragen und Bildanmerkung.
Chameleon besiegte Modelle wie Flamingo und Llava-1.5 bei visuellen Fragenbeantwortungs- und Bildanmerkungsaufgaben und wurde zu SOTA. Bei Klartextaufgaben schnitt es auch mit erstklassigen Modellen wie Mixtral 8x7B und Gemini Pro gleich gut ab. „Menschliche Bewertung und Sicherheitstests“ Benchmark-Test und stellte fest, dass Chameleon-34B weitaus besser abschnitt als Gemini Pro und GPT-4V.
Im Vergleich zu GPT-4V und Gemini Pro erzielten menschliche Richter 51,6 % bzw. 60,4 Präferenzraten.
Jede Frage wird von drei verschiedenen menschlichen Kommentatoren beantwortet, wobei die Mehrheitsentscheidung die endgültige Antwort ist.
Um die Qualität menschlicher Annotatoren zu verstehen und festzustellen, ob die Fragen angemessen gestaltet waren, untersuchten die Forscher auch den Grad der Übereinstimmung zwischen verschiedenen Annotatoren.
Tabelle 5 ist ein Sicherheitstest, der an 20.000 Crowdsourcing-Eingabeaufforderungen und 445 Red-Team-Interaktionen durchgeführt wurde und dazu führte, dass das Modell unsichere Inhalte produzierte.
Im Vergleich zu Gemini und GPT-4V ist Chameleon sehr konkurrenzfähig, wenn es um Hinweise geht, die verschachtelte, gemischtmodale Antworten erfordern.
Wie Sie dem Beispiel entnehmen können, kann Chameleon beim Abschließen der Frage- und Antwortaufgabe nicht nur den Eingabetext + das Bild verstehen, sondern auch entsprechende „Bilder“ zum Modellausgabeinhalt hinzufügen.
Darüber hinaus sind die von Chameleon generierten Bilder in der Regel kontextbezogen, was die Ausgabe dieser interlaced-Inhalte für Benutzer sehr attraktiv macht.
Am Ende des Artikels sind auch die Mitwirkenden aufgeführt, die an dieser Forschung teilgenommen haben.
Beinhaltet Vorschulung, Ausrichtung und Sicherheit, Argumentation und Bewertung, Teilnehmer für alle Projekte.
Unter diesen steht * für einen Co-Autor, † für einen Hauptmitwirkenden, ‡ für den Workflow-Leiter und ♯ für den Projektleiter.
Das obige ist der detaillierte Inhalt vonMeta bringt „Chameleon' auf den Markt, um GPT-4o herauszufordern, 34B-Parameter führen die multimodale Revolution an! 10-Billionen-Token-Training erfrischt SOTA. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!