Aktuelle Large Language Models (LLMs) wie GPT4 haben hervorragende multimodale Fähigkeiten bei der Befolgung offener Anweisungen bei gegebenem Bild gezeigt. Allerdings hängt die Leistung dieser Modelle stark von der Wahl der Netzwerkstruktur, der Trainingsdaten und der Trainingsstrategien ab, diese Wahl wurde jedoch in der bisherigen Literatur nicht ausführlich diskutiert. Darüber hinaus mangelt es derzeit an geeigneten Benchmarks zur Bewertung und zum Vergleich dieser Modelle, was die Entwicklung multimodaler LLMs einschränkt.
Bilder
In diesem Artikel führt der Autor eine systematische und umfassende Studie zum Training solcher Modelle unter quantitativen und qualitativen Aspekten durch. Für die Netzwerkstruktur wurden mehr als 20 Varianten erstellt, verschiedene LLM-Backbones und Modelldesigns wurden für die Trainingsdaten verglichen, die Auswirkungen von Daten und Stichprobenstrategien wurden im Hinblick auf Anweisungen untersucht; Die Fähigkeit, Anweisungen zu folgen, wurde untersucht. Für Benchmarks schlägt der Artikel erstmals Open-VQA vor, ein offenes visuelles Frage-Antwort-Bewertungsset einschließlich Bild- und Videoaufgaben.
Basierend auf den experimentellen Schlussfolgerungen schlug der Autor Lynx vor, das im Vergleich zum bestehenden Open-Source-Modell im GPT4-Stil das genaueste multimodale Verständnis zeigt und gleichzeitig die beste Multimodalität beibehält.
Anders als bei typischen visuellen Sprachaufgaben besteht die größte Herausforderung bei der Bewertung von Modellen im GPT4-Stil darin, die Leistung von Textgenerierungsfunktionen und multimodaler Verständnisgenauigkeit in Einklang zu bringen. Um dieses Problem zu lösen, schlagen die Autoren einen neuen Benchmark Open-VQA einschließlich Video- und Bilddaten vor und führen eine umfassende Bewertung aktueller Open-Source-Modelle durch.
Konkret werden zwei quantitative Bewertungsschemata übernommen:
Um die Trainingsstrategie multimodaler LLMs eingehend zu untersuchen, untersucht der Autor hauptsächlich die Netzwerkstruktur (Präfix-Feinabstimmung/Queraufmerksamkeit) und Trainingsdaten (Datenauswahl und -kombination). Verhältnis), Anweisungen (Einzelanweisung/Mehr als zwanzig Varianten wurden in verschiedenen Aspekten wie Diversifikationsanzeige festgelegt), LLMs-Modell (LLaMA [5]/Vicuna [6]), Bildpixel (420/224) usw. und die Folgende Hauptschlussfolgerungen wurden durch Experimente gezogen:
Die Gesamtstruktur des Lynx-Modells ist in Abbildung 1 oben dargestellt.
Die visuelle Eingabe wird vom visuellen Encoder verarbeitet, um visuelle Token (Token) $$W_v$$ zu erhalten. Nach der Zuordnung wird sie mit den Befehls-Tokens $$W_l$$ als Eingabe von LLMs gespleißt Die Struktur wird in diesem Artikel als „Präfix-Feinabstimmung“ bezeichnet, um sie von der von Flamingo verwendeten Struktur „Queraufmerksamkeit“ zu unterscheiden [3].Darüber hinaus stellten die Autoren fest, dass die Schulungskosten durch das Hinzufügen von
Adapternach bestimmten Schichten eingefrorener LLMs weiter gesenkt werden können.
ModelleffektDer Autor bewertete die Leistung vorhandener multimodaler Open-Source-LLM-Modelle anhand der manuellen Bewertung von Open-VQA, Mme [4] und OwlEval (die Ergebnisse finden Sie in der Tabelle unten und siehe das Bewertungsdetailpapier). Es ist ersichtlich, dass das Lynx-Modell die beste Leistung bei Open-VQA-Bild- und Videoverständnisaufgaben, der manuellen OwlEval-Bewertung und Mme-Wahrnehmungsaufgaben erzielt hat. Unter diesen erreicht InstructBLIP bei den meisten Aufgaben ebenfalls eine hohe Leistung, aber seine Antwort ist zu kurz. Im Vergleich dazu liefert das Lynx-Modell in den meisten Fällen prägnante Gründe, die Antwort auf der Grundlage der richtigen Antwort zu unterstützen. freundlich (siehe Abschnitt „Fälle anzeigen“ weiter unten für einige Fälle).
1. Die Indikatorergebnisse des Open-VQA-Bildtestsatzes sind in Tabelle 1 unten aufgeführt:
2 Die Indikatorergebnisse des Open-VQA-Videotestsatzes sind wie folgt in Tabelle 1 unten 2 dargestellt. Bilder
3. Wählen Sie das Modell mit der höchsten Punktzahl in Open-VQA aus, um eine manuelle Effektbewertung für den OwlEval-Bewertungssatz durchzuführen. Die Ergebnisse sind in Abbildung 4 oben dargestellt. Aus den Ergebnissen der manuellen Bewertung geht hervor, dass das Lynx-Modell die beste Leistung bei der Sprachgenerierung aufweist.
Bilder
4. Im Mme-Benchmarktest erzielten Wahrnehmungsklassenaufgaben die beste Leistung, wobei 7 der 14 Klassenunteraufgaben am besten abschnitten. (Detaillierte Ergebnisse finden Sie im Anhang des Papiers)
OwlEval.-Fälle
Open-VQA-Videofall
Zusammenfassung
Das obige ist der detaillierte Inhalt vonDas Byte-Team schlug das Lynx-Modell vor: multimodale LLMs, die kognitive Generierungslisten-SoTA verstehen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!