Im Bereich NLP haben große Sprachmodelle (LLM) erfolgreich als gemeinsame Schnittstellen bei verschiedenen Aufgaben in natürlicher Sprache gedient. Solange wir die Eingabe und Ausgabe in Text umwandeln können, können wir die LLM-basierte Schnittstelle an eine Aufgabe anpassen. Beispielsweise nimmt die Sammelaufgabe Dokumente auf und gibt zusammenfassende Informationen aus. So können wir das Eingabedokument in ein zusammenfassendes Sprachmodell einspeisen und eine Zusammenfassung generieren.
Trotz der erfolgreichen Anwendung von LLM in NLP-Aufgaben haben Forscher immer noch Schwierigkeiten, es nativ für multimodale Daten wie Bilder und Audio zu verwenden. Als grundlegender Bestandteil der Intelligenz ist die multimodale Wahrnehmung eine notwendige Voraussetzung für die Erlangung allgemeiner künstlicher Intelligenz, sowohl für den Wissenserwerb als auch für den Umgang mit der realen Welt. Noch wichtiger ist, dass die Erschließung multimodaler Eingaben die Anwendung von Sprachmodellen in höherwertigen Bereichen wie multimodaler Robotik, Dokumentenintelligenz und Robotik erheblich erweitern kann.
Daher hat das Microsoft-Team im Artikel „Sprache ist nicht alles, was Sie brauchen: Wahrnehmung an Sprachmodellen ausrichten“ ein #🎜 eingeführt. 🎜#Multimodal Large Language Model (MLLM) – KOSMOS-1, das allgemeine Modalitäten wahrnehmen, Anweisungen befolgen (d. h. Zero-Shot-Lernen) und im Kontext lernen kann (d. h. Few-Shot-Lernen) #🎜🎜 ## 🎜🎜#. Das Forschungsziel besteht darin, die Wahrnehmung mit LLM in Einklang zu bringen, sodass das Modell sehen und sprechen kann. Die Forscher trainierten KOSMOS-1 von Grund auf nach der Methode von METALM (siehe den Artikel „Sprachmodelle sind Allzweckschnittstellen“).
# 🎜 🎜#Papieradresse: https://arxiv.org/pdf/2302.14045.pdf
Schließlich unterstützt das KOSMOS-1-Modell nativ Sprache, Wahrnehmungssprache und visuelle Aufgaben in Zero-Shot- und Fence-Shot-Lerneinstellungen, wie in Tabelle 1 unten gezeigt.
Der Forscher ist in der Abbildung dargestellt 2 unten und einige generierte Beispiele sind in Abbildung 3 dargestellt.
Zusätzlich zu verschiedenen Aufgaben in natürlicher Sprache kann das KOSMOS-1-Modell nativ eine Vielzahl wahrnehmungsintensiver Aufgaben bewältigen, wie z. B. visueller Dialog, visuelle Erklärung, visuelle Frage und Antwort, Bild Untertitel, einfache mathematische Gleichungen, OCR und Zero-Shot-Bildklassifizierung mit Beschreibung. Sie haben außerdem einen IQ-Test-Benchmark basierend auf Raven's Progressive Matrices (RPM) erstellt, um die Fähigkeit zum nonverbalen Denken von MLLM zu bewerten.
Diese Beispiele zeigen, dass die native Unterstützung der multimodalen Wahrnehmung darin besteht, LLM-Anwendungen zu integrieren auf neue Aufgaben bietet neue Chancen. Darüber hinaus erzielt MLLM im Vergleich zu LLM eine bessere Leistung beim gesunden Menschenverstand, was darauf hindeutet, dass der modalübergreifende Transfer den Wissenserwerb erleichtert.
Da die Anzahl der Parameter des KOSMOS-1-Modells 1,6 Milliarden beträgt, äußerten einige Internetnutzer die Hoffnung, dieses große multimodale Modell auf ihren Computern ausführen zu können.
Wie in Abbildung 1 dargestellt, ist KOSMOS-1 ein multimodales Sprachmodell, das allgemeine Modalitäten wahrnehmen, Anweisungen befolgen und im Kontext lernen und Ausgaben generieren kann. Konkret ist das Rückgrat von KOSMOS-1 ein auf Transformer basierendes kausales Sprachmodell. Neben Text können auch andere Modalitäten eingebettet und in das Modell eingegeben werden. Wie in der Abbildung unten gezeigt, gibt es neben Sprache auch Einbettungen von Vision, Sprache usw. Transformatordecoder dienen als allgemeine Schnittstelle für multimodale Eingaben. Sobald das Modell trainiert ist, kann KOSMOS-1 auch für Sprachaufgaben und multimodale Aufgaben in Zero-Shot- und Few-Shot-Einstellungen evaluiert werden.
Der Transformatordecoder nimmt die Modalität auf einheitliche Weise wahr und die Eingabeinformationen werden mit speziellen Token zu einer Sequenz zusammengefasst. Beispielsweise bedeutet den Anfang der Sequenz und das Ende der Sequenz. Die speziellen Token
Danach wird die erhaltene Einbettung der Eingabesequenz dem Transformer-basierten Decoder zugeführt. Das kausale Modell verarbeitet die Sequenz dann autoregressiv, was zum nächsten Token führt. Zusammenfassend lässt sich sagen, dass das MLLM-Framework verschiedene Datentypen flexibel verarbeiten kann, solange die Eingaben als Vektoren dargestellt werden. Modelltraining
Der erste ist der Trainingsdatensatz. Zu den Datensätzen gehören Textkorpora, Bild-Untertitel-Paare sowie bild- und textübergreifende Datensätze. Konkret umfasst das Textkorpus The Pile und Common Crawl (CC); die Bild-Untertitel-Paare umfassen Englisch LAION-2B, LAION-400M, COYO-700M und Conceptual Captions; der übergreifende Bild- und Text-Datensatz stammt von Common Crawl Schnappschuss.
Da wir nun den Datensatz haben, haben wir die Trainingseinstellungen. Die MLLM-Komponente enthält 24 Schichten, versteckte Dimensionen von 2048, 8192 FFNs, 32 Aufmerksamkeitsköpfe und eine Parametergröße von 1,3B. Um eine bessere Modellkonvergenz zu ermöglichen, werden Bilddarstellungen aus dem vorab trainierten CLIP ViT-L/14-Modell mit 1024 Merkmalsdimensionen erhalten. Bilder werden während des Trainings auf eine Auflösung von 224 × 224 vorverarbeitet. Darüber hinaus werden alle CLIP-Modellparameter mit Ausnahme der letzten Ebene während des Trainings eingefroren. Die Gesamtzahl der Parameter für KOSMOS-1 beträgt etwa 1,6 Milliarden.
Experimentelle Ergebnisse
Diese Studie führte eine Reihe umfangreicher Experimente durch, um KOSMOS-1 zu bewerten: Sprachaufgaben (Sprachverständnis, Sprachgenerierung, OCR-freie Textklassifizierung); Gesunder Menschenverstand); Nonverbales Denken (IQ-Test); Wahrnehmungs- und Sprachaufgaben (Bilduntertitel, visuelle Frage und Antwort, Webseitenfrage und -antwort); ).Bildunterschriften.
Die folgende Tabelle zeigt die Zero-Sample-Leistung verschiedener Modelle auf COCO und Flickr30k. Im Vergleich zu anderen Modellen hat KOSMOS-1 beachtliche Ergebnisse erzielt und seine Leistung ist auch dann gut, wenn man bedenkt, dass die Anzahl der Parameter viel geringer ist als bei Flamingo.
Die folgende Tabelle zeigt den Leistungsvergleich einiger Proben:
Visuelle Fragen und Antworten. KOSMOS-1 hat eine höhere Genauigkeit und Robustheit als die Modelle Flamingo-3B und Flamingo-9B:
Die folgende Tabelle zeigt einen Leistungsvergleich einiger Beispiele:
IQ-Test. Der Raven's Reasoning Test ist einer der am häufigsten verwendeten Tests zur Beurteilung des nonverbalen Denkens. Abbildung 4 zeigt ein Beispiel.
Tabelle 6 zeigt die Auswertungsergebnisse des IQ-Testdatensatzes. KOSMOS-1 ist in der Lage, abstrakte konzeptionelle Muster in einer nonverbalen Umgebung wahrzunehmen und dann nachfolgende Elemente aus mehreren Auswahlmöglichkeiten zu begründen. Unseres Wissens ist dies das erste Mal, dass ein Modell einen solchen Raven-IQ-Test ohne Stichprobe durchführen konnte.
Web-Fragen und Antworten. Web Q&A zielt darauf ab, Antworten auf Fragen von Webseiten zu finden. Es erfordert, dass das Modell sowohl die Semantik als auch die Struktur des Textes versteht. Die Ergebnisse sind wie folgt:
Multimodale Denkkettenanregungen. Inspiriert durch die Anregungen der Denkkette führte dieser Artikel ein diesbezügliches Experiment durch. Wie in Abbildung 5 dargestellt, zerlegt dieser Artikel die Sprachwahrnehmungsaufgabe in zwei Schritte. Wenn in der ersten Phase ein Bild vorliegt, werden Hinweise verwendet, um das Modell bei der Generierung einer Ausgabe anzuleiten, die den Anforderungen zum Erzielen des Endergebnisses entspricht.
Wie aus Tabelle 9 ersichtlich ist, beträgt die Punktzahl der multimodalen Denkkettenaufforderung 72,9 Punkte, 5,8 Punkte mehr als die Standardaufforderung:
Erfahren Sie mehr Informationen zum Experiment finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonKommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!