Link zur Fortschrittsverfolgung (Awesome-MLLM, Echtzeit-Updates): https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
In letzter Zeit In den letzten Jahren hat die groß angelegte Forschung zu großen Sprachmodellen (LLM) erhebliche Fortschritte gemacht (wie GPT-3, LLaMa, ChatGPT, GPT-4), und diese Modelle haben bei verschiedenen Aufgaben der Verarbeitung natürlicher Sprache (NLP) eine hervorragende Leistung gezeigt.
Durch die Vorschulung mit riesigen Datenmengen hat LLM umfangreiches Wissen und leistungsstarke Argumentationsfähigkeiten erworben. Geben Sie einfach einige Benutzeranweisungen ein. Diese Modelle können die Anweisungen analysieren, Überlegungen anstellen und Antworten geben, die den Erwartungen des Benutzers entsprechen.
Einige typische Fähigkeiten von LLM sind:
Hinter diesen Funktionen stecken viele Schlüsselideen und Technologien, darunter Instruction Tuning, In-Context Learning und Chain of Thought usw.
Obwohl große Sprachmodelle im Bereich NLP große Fortschritte gemacht haben, sind die entsprechenden Modelle und Technologien im multimodalen Bereich weniger erforscht und es gibt immer noch weit verbreitete Einschränkungen in der traditionellen visuellen Sprache Einschränkungen wie unzureichende kulturelle Flexibilität und mangelnde Denkfähigkeit.
Zu diesem Zweck haben viele Wissenschaftler kürzlich ihre Aufmerksamkeit einer neuen Richtung zugewandt: Multimodal Large Language Models (MLLM).
Die Hauptidee besteht darin, LLM als „Gehirn“ zu nutzen, um die eingegebenen multimodalen Informationen zu integrieren, zu begründen, zu analysieren und Entscheidungen zu treffen und so die vom Menschen zugewiesenen Aufgaben zu erledigen.
Aus der Perspektive der Entwicklung allgemeiner künstlicher Intelligenz hat MLLM im Vergleich zu LLM einen weiteren Schritt nach vorne gemacht und bietet die folgenden Vorteile:
· Es entspricht eher den Gewohnheiten des Menschen, das zu verstehen Welt. Der Mensch verfügt über mehrere Sinne und empfängt Informationen aus mehreren Modalitäten, die oft komplementär und synergetisch wirken. Daher können durch die Verwendung multimodaler Informationen komplexe Aufgaben im Allgemeinen besser verstanden und erledigt werden.
· Eine leistungsfähigere und benutzerfreundlichere Schnittstelle. Durch die Unterstützung multimodaler Eingaben können Benutzer Informationen flexibler übermitteln.
· Umfassendere Aufgabenunterstützung. LLM kann normalerweise nur NLP-bezogene Aufgaben erledigen, während MLLM durch den Zugriff auf Multimodalität mehr Aufgaben erledigen kann.
Aus Sicht des Systemdesigns kann MLLM in zwei Kategorien unterteilt werden:
· LLM als kognitives Argumentationssystem, das multimodale Eingaben als Denker unterstützt;
· LLM als System zum kognitiven Denken. Multitool-Kollaborationssystem für Planer/Planer/Entscheidungsträger.
Ersteres wandelt multimodale Informationen im Allgemeinen in eine Form um, die LLM über eine trainierbare multimodale Konvertierungsschnittstelle direkt empfangen und verarbeiten kann, sodass LLM auf der Grundlage dieser multimodalen Informationen und des Benutzers eine Erkennung durchführen kann Anweisungen und Begründung.
Letzteres verwendet LLM normalerweise als Planer/Scheduler/Entscheidungsträger [1], um komplexe, von Benutzern bereitgestellte Aufgaben in einfachere Unteraufgaben zu zerlegen, sie an geeignete Modelle/Tools weiterzuleiten und schließlich die Ergebnisse zu integrieren und auszugeben.
Wir haben eine andere Perspektive eingenommen und uns auf die Schlüsseltechnologien und Implementierungsmethoden hinter MLLM konzentriert, verwandte Arbeiten untersucht und zusammengefasst und MLLM in die folgenden Kategorien unterteilt:
· Feinabstimmung multimodaler Anweisungen Optimierung multimodaler Anweisungen
· LLM-unterstütztes visuelles Denken
Im Folgenden geben wir eine kurze Einführung in diese Art von Arbeit.Optimierung multimodaler AnweisungenDie grundlegende Methode der Feinabstimmung multimodaler Anweisungen besteht darin, eine einheitliche Vorlage zu verwenden, um alle Arten von Daten zu vereinheitlichen und Aufgabenanforderungen in Form von Anweisungen zu beschreiben, um multimodale Daten zu bilden Daten zur Feinabstimmung von MLLM.
Aufgrund der Konsistenz der Anweisungsform während des Trainings und Tests kann sich LLM auf sein leistungsstarkes semantisches Verständnis und seine Argumentationsfähigkeiten verlassen, um flexibler auf andere Aufgaben zu verallgemeinern und leistungsstarke Zero-Shot-Lernfähigkeiten zu erhalten. Die Grundform multimodaler Anweisungsdaten kann als Triplett (Anweisung, multimodale Eingabe, Antwort) zusammengefasst werden.
Eine intuitive Möglichkeit, diese Art von Daten zu erhalten, besteht darin, den Benchmark-Datensatz zu transformieren, wie in Abbildung 1 unten dargestellt:
Abbildung 1 Beispiel für Befehlsdaten
Das Original-Caption-Datenbeispiel enthält ein Bild und eine Textbeschreibung (Ground Truth). Diese Daten-GT-gepaarten Daten bilden natürlich die multimodale Eingabe und Antwort des Befehlsdatenteils.
Der Befehlsteil ist die Beschreibung der entsprechenden Aufgabe, die normalerweise manuell geschrieben oder durch den Aufruf von GPT generiert wird.
Bei der Feinabstimmung multimodaler Anweisungen wandelt MLLM multimodale Eingaben um und sendet sie an LLM. LLM sagt Antworten basierend auf multimodalen Informationen und Anweisungstexten voraus.
Multimodales In-Context-LernenDie Kernidee des multimodalen Kontextlernens besteht darin, aus Analogien zu lernen. Die Formen, mit denen wir beim Lernen im Allgemeinen in Berührung kommen, sind beispielsweise folgende:
Durch das Studium von Beispielproblemen können wir, wenn wir auf neue Probleme stoßen, grundlegende Ideen und Methoden erlernen, indem wir proportionale Probleme lösen, um neue zu lösen Probleme.
Darüber hinaus können die Beispielfragen auch unser Antwortformat standardisieren, was dazu beiträgt, korrekte Antworten zu erhalten, die den erwarteten Anforderungen entsprechen.
Abbildung 2. Beispiel für multimodale Kontextdaten, wobei das Beispiel verwendet wird, um das Modell die Berechnungsergebnisse von 3x7 vorhersagen zu lassen
Die Gedankenkette ist eine Reihe von Zwischenschritten des Denkens [2]. Die Grundidee der multimodalen Denkkette besteht darin, das Modell Schritt für Schritt lernen zu lassen, Zwischenschritte auszugeben und schließlich die endgültige Antwort abzuleiten, wie in Abbildung 3 unten dargestellt:
Abbildung 3 . Beispiel für multimodale Denkkettendaten
Im Vergleich zur direkten Ausgabe von Antworten entspricht die Denkkette:
· eher den menschlichen Denkgewohnheiten: Basierend auf vorherigen Denkschritten und Ergebnissen führt sie nach und nach zu den endgültige Antwort;
· Geeignet für komplexe Argumentationsaufgaben. Lösen Sie komplexe Probleme Schritt für Schritt, um die Genauigkeit Ihrer Antworten zu verbessern.
Verwenden Sie LLM als Entscheidungs- und Argumentationsmechanismus, rufen Sie verschiedene multimodale Modelle und Tools auf und integrieren Sie die Ausgabe, um die endgültige Antwort zu erhalten. Abhängig von der Art und Weise, wie die Aufgabe erledigt wird, kann sie im Allgemeinen in Einradmodelle und Mehrradmodelle unterteilt werden.
Die Grundidee des Einzelrundenmodells besteht darin, dass LLM als Planer, Planer und Entscheidungsträger fungiert, um verschiedene Modelle/Tools zu koordinieren, um Aufgaben zu erledigen [1]:
·Planer: Komplexe Aufgaben in lösbare Teilaufgaben zerlegen;
· Planer: Teilaufgaben an geeignete Modelle/Tools verteilen;
· Entscheidung Hersteller: Unteraufgaben verwalten Ausführungsreihenfolge, Integration der Ergebnisse der Teilaufgabe, um die endgültige Antwort zu erhalten.
Das Mehrrundenmodell basiert auf der Idee der Iteration und sammelt weiterhin visuelle Erkenntnisse, bis es sicher genug ist, die endgültige Antwort zu erhalten. In diesem Prozess muss LLM die vorherigen Schritte (die gestellten Fragen und die erhaltenen visuellen kognitiven Informationen) integrieren, um festzustellen, ob die endgültige Antwort ausgegeben werden kann [3].
Weitere verwandte Artikel finden Sie unter: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
Das obige ist der detaillierte Inhalt vonDie neueste Einführung in „Multimodales LLM'! Daten und Vorgänge werden verpackt und direkt abtransportiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!