Im Bereich des Bildverständnisses haben multimodale Großmodelle ihre hervorragende Leistung voll unter Beweis gestellt. Es gibt jedoch noch Raum für Verbesserungen bei bestehenden multimodalen Modellen für das Diagrammverständnis und die Generierungsaufgaben, die häufig in der Arbeit behandelt werden.
Obwohl die aktuellen State-of-the-Art-Modelle im Bereich des Graphverständnisses bei einfachen Testsätzen gut funktionieren, sind sie aufgrund mangelnder Sprachverständnis- und Ausgabefähigkeiten nicht in der Lage, komplexere Frage- und Antwortaufgaben zu bewältigen. Andererseits ist auch die Leistung multimodaler großer Modelle, die auf der Grundlage großer Sprachmodelle trainiert wurden, unbefriedigend, was hauptsächlich auf das Fehlen von Trainingsbeispielen für Diagramme zurückzuführen ist. Diese Probleme haben den kontinuierlichen Fortschritt multimodaler Modelle beim Diagrammverständnis und bei der Erstellung von Aufgaben erheblich eingeschränkt.
Kürzlich haben Tencent, die Nanyang Technological University und die Southeast University ChartLlama vorgeschlagen. Das Forschungsteam erstellte einen hochwertigen Graphdatensatz und trainierte ein multimodales, groß angelegtes Sprachmodell, das sich auf das Verstehen und Generieren von Graphen konzentriert. ChartLlama kombiniert mehrere Funktionen wie Sprachverarbeitung und Diagrammerstellung, um ein leistungsstarkes Forschungstool für wissenschaftliche Forscher und verwandte Fachleute bereitzustellen.
Papieradresse: https://arxiv.org/abs/2311.16483
Homepage-Adresse: https://tingxueronghua.github.io/ChartLlama/
Das ChartLlama-Team hat eine entworfen Eine clevere, diversifizierte Datenerfassungsstrategie, die GPT-4 nutzt, um Daten mit spezifischen Themen, Verteilungen und Trends zu generieren, um die Vielfalt des Datensatzes sicherzustellen. Das Team kombinierte Open-Source-Plotbibliotheken mit den Programmierfunktionen von GPT-4, um präzisen Diagrammcode zu schreiben und genaue grafische Datendarstellungen zu erstellen. Darüber hinaus verwendet das Team GPT-4 auch zur Beschreibung von Diagramminhalten und zur Generierung von Frage- und Antwortpaaren. Dabei werden umfangreiche und vielfältige Trainingsbeispiele für jedes Diagramm generiert, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann Im Bereich des Diagrammverständnisses können herkömmliche Modelle nur einige einfache Fragen beantworten, z. B. einfache Frage- und Antwortaufgaben wie das Lesen von Zahlen, und komplexere Fragen nicht beantworten. Diese Modelle haben Schwierigkeiten, langen Anweisungen zu folgen, und machen häufig Fehler bei Fragen und Antworten, die mathematische Operationen beinhalten. Im Gegensatz dazu kann ChartLlama diese Probleme effektiv vermeiden:
Zusätzlich zu den herkömmlichen Aufgaben definierte das Forschungsteam auch mehrere neue Aufgaben, darunter drei Aufgaben zur Diagrammerstellung. Das Papier enthält relevante Beispiele:
Anhand eines Diagramms und Anweisungen, Beispiele für die Diagrammrekonstruktion und Diagrammbearbeitung
Der Prozess der Generierung von Diagrammbeispielen basiert auf Anweisungen und Rohdaten.
ChartLlama führt aus eignet sich gut für verschiedene Benchmark-Datensätze und erreicht eine Leistung auf dem neuesten Stand, während gleichzeitig weniger Trainingsdaten benötigt werden. Es verwendet eine flexible Datengenerierungs- und -erfassungsmethode, erweitert die Diagrammtypen und Aufgabentypen bei Diagrammverständnis- und -generierungsaufgaben erheblich und fördert die Entwicklung des Feldes
Übersicht über die Methode
ChartLlama hat eine flexible Datenerfassung entwickelt Methoden, die die leistungsstarken Sprach- und Programmierfunktionen von GPT-4 nutzen, um umfangreiche multimodale Diagrammdatensätze zu erstellen.
Die Datenerfassung von ChartLlama besteht aus drei Hauptphasen:
Experimentelle Ergebnisse
Ob Es ist traditionell. Unabhängig davon, ob die Aufgabe neu oder neu ist, zeigt ChartLlama die beste Leistung. Zu den traditionellen Aufgaben gehören Diagramm-Fragen und -Antworten, Diagrammzusammenfassungen und die strukturierte Datenextraktion von Diagrammen. Beim Vergleich von ChartLlama mit früheren hochmodernen Modellen sind die Ergebnisse in der folgenden Abbildung dargestellt:
Das Forschungsteam testete die Frage-Antwort-Genauigkeit von ChartLlama in verschiedenen Diagrammtypen und verglich sie mit dem vorherigen SOTA-Modell Unichart und dem vorgeschlagenen Basismodell. Die Ergebnisse sind wie folgt:
Insgesamt erweitert ChartLlama nicht nur die Grenzen des multimodalen Lernens, sondern bietet auch genauere und effizientere Tools für das Verständnis und die Erstellung von Diagrammen. Ob beim wissenschaftlichen Schreiben oder bei Unternehmenspräsentationen, ChartLlama macht das Verständnis und die Erstellung von Diagrammen intuitiver und effizienter und macht einen wichtigen Schritt nach vorne bei der Generierung und Interpretation komplexer visueller Daten.
Interessierte Leser können für weitere Forschungsinhalte den Originaltext des Artikels aufrufen
Das obige ist der detaillierte Inhalt vonUmfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!