7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer' (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessern

PHPz
Freigeben: 2024-03-04 17:43:33
nach vorne
570 Leute haben es durchsucht

Graph Neural Networks (GNNs) sind gut darin, die Strukturinformationen von Graphen für Inferenzen zu nutzen, erfordern jedoch häufig eine domänenspezifische Abstimmung, um eine optimale Leistung zu erzielen, was ihre Fähigkeit zur Verallgemeinerung über verschiedene Aufgaben hinweg einschränkt.

Große Sprachmodelle (LLMs) verfügen über stärkere aufgabenübergreifende und verallgemeinernde Fähigkeiten für das Graph-Argumentieren, sind jedoch bei bestimmten Aufgaben oft nicht so leistungsfähig wie dedizierte graphische neuronale Netzwerkmodelle.

Aktuelle Forschung zum Graph-Argumentation ignoriert oft die Bedeutung visueller Informationen beim Graph-Argumentation, unabhängig davon, ob es sich um traditionelle graphische neuronale Netze oder Graph-Argumentationsmethoden handelt, die auf großen Sprachmodellen basieren.

Menschen nutzen jedoch visuelle Funktionen, um Diagrammaufgaben effizient und genau auszuführen, beispielsweise um festzustellen, ob Ringe im Diagramm vorhanden sind.

Daher ist es von großer Bedeutung, die Rolle visueller morphologischer Diagramminformationen beim Denken von Diagrammen zu untersuchen.

Genauer gesagt: Kann das Zeichnen eines Diagramms (Graph) als Bild (Image) dem Modell besondere Argumentationsfähigkeiten verleihen? Können diese Bilder (Visual Graphs genannt) bestehende Graph Reasoning-Modelle basierend auf anderen Modalitäten verbessern?

Um diese Fragen zu beantworten, erstellte das Forschungsteam der Hong Kong University of Science and Technology und der Southern University of Science and Technology den ersten Inferenz-Frage-Antwort-Datensatz GITQA mit visuellen Diagrammen und verwendete ihn auf Open-Source-Modellen wie GPT-4 turbo, GPT-4V und Vicuna, LLaVA usw. Es wurden umfangreiche Experimente an Closed-Source-Modellen durchgeführt, die die Rolle von Visual Graph bei der grafischen Argumentation und seine gegenseitige Verstärkung durch Textmodalitäten bestätigten.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Papieradresse: https://arxiv.org/abs/2402.02130

Projekthomepage: https://v-graph.github.io/

bei. GITQ A Im Test-Benchmark zeigte das multimodale Modell GITA-7B/13B, das auf Basis von LLaVA-7B/13B verfeinert wurde, eine Leistung beim Graphenschluss, die die von GPT-4V übertraf.

GITQA Multimodal Graph Reasoning Frage- und Antwortdatensatz

Das Forschungsteam erstellte den GITQA-Datensatz und die entsprechenden Testbenchmarks, indem es Diagrammstrukturen in visuelle Bilder verschiedener Stile zeichnete. Der GITQA-Datensatz enthält mehr als 423.000 Frage- und Antwortinstanzen Jede Instanz enthält einander entsprechende Diagrammstruktur-Text-visuelle Informationen und die entsprechenden Frage-Antwort-Paare.

Der GITQA-Datensatz enthält zwei Versionen: GITQA-Base und GITQA-Aug, wobei GITQA-Base nur visuelle Bilder eines einzelnen Stils enthält.

GITQA-Aug ist noch umfangreicher. Es führt eine Vielzahl von Datenverbesserungen an visuellen Bildern durch, einschließlich der Änderung des Layouts, der Punktform, der Kantenbreite, des Punktstils usw. und sorgt so für eine vielfältigere visuelle Leistung.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Wie in Abbildung 1 dargestellt, enthält der GITQA-Testbenchmark 8 repräsentative Diagrammbegründungsaufgaben: Konnektivität (Bestimmen, ob zwei Punkte im Diagramm verbunden sind), Zyklus (Bestimmen, ob es einen Zyklus im Diagramm gibt). Diagramm), TS (Ermitteln der topologischen Reihenfolge des Diagramms), SP (Ermitteln des kürzesten Pfads zwischen zwei Punkten im Diagramm), MaxFlow (Berechnen des maximalen Flusses zwischen zwei Punkten im Diagramm), BGM (Berechnen der maximalen Übereinstimmung der bipartites Diagramm), HP (Ermitteln der maximalen Übereinstimmung im Diagramm (Hamilton-Pfad)) und GNN (Simulieren der Nachrichtenweitergabe von GNN).

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Der jeder Aufgabe entsprechende Datensatz ist entsprechend der Komplexität der Diagrammstruktur in Teilmengen unterschiedlicher Schwierigkeitsgrade unterteilt (relevante Statistiken sind in Tabelle 1 aufgeführt).

Experimente und Ergebnisse

Experiment 1: Vergleich der Graph-Argumentationsfähigkeiten von Modellen basierend auf verschiedenen Modalgraph-Informationen

Das Forschungsteam verwendete den GITQA-Base-Datensatz entsprechend verschiedenen Modalgraph-Eingabetypen (einschließlich nur Text). (T-Only), nur Vision (V-Only) und Text plus Vision (V+T)) und evaluiert beliebte Closed-Source- und Open-Source-Sprachmodelle im großen Maßstab (wie GPT-4 Turbo und Vicuna-7B). /13B) und die Leistung großer multimodaler Sprachmodelle wie GPT-4V und LLaVA-7B/13B. wie in Bild 2 gezeigt.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Insbesondere führen die Closed-Source-Modelle GPT-4 und GPT-4V eine Zero-Sample-Inferenz durch, während bei den Open-Source-Modellen Vicuna und LLaVA nur die Parameter des Backbone-Modells unverändert bleiben Der Projektor- und der LoRA-Teil wurden verfeinert (insbesondere wurde das LLaVA-Modell nach der dualen visuellen + Text-Feinabstimmung vom Forscher GITA genannt).

Tabelle 2 fasst die Testergebnisse für alle acht Aufgaben zum grafischen Denken zusammen.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Visuelle Modalität vs. Textmodalität

Wie aus Tabelle 2 ersichtlich ist, schneidet die visuelle Modalität bei den Zyklus- und Hintergrundmusik-Aufgaben besser ab als die Textmodalität, während sie bei den anderen fünf Aufgaben nicht so gut abschneidet Gut als Textmodal. Dies zeigt, dass Vision und Text jeweils Vorteile bei der Bewältigung spezifischer Arten von Aufgaben zur grafischen Argumentation haben. Gegenseitige Verbesserung der visuellen und Textmodalitäten

Für das Closed-Source-Modell weist GPT-4V (V+T) bei acht Aufgaben eine viel höhere durchschnittliche Genauigkeit auf als GPT-4 Turbo (nur T) und GPT-4V (nur V). ).

Bei Open-Source-Modellen (7B, 13B) schneidet das mit bimodalen Daten trainierte GITA-Modell im Durchschnitt ebenfalls am besten ab. Diese Beobachtungen bestätigen, dass die gleichzeitige Verwendung visueller und textueller Informationen die Fähigkeiten des Modells zur grafischen Argumentation verbessern und eine bessere Leistung als bei Einzelmodalmodellen erzielen kann.

Genauer gesagt übertrifft GITA-7B (V+T) LLaVA-7B (nur V) und Vicuna-7B (nur T) bei fast allen Aufgaben. Beim Closed-Source-Modell erzielte die Verwendung der Bimodalität bei fünf von acht Aufgaben die höchste Genauigkeit. Das fein abgestimmte LLaVA-Modell kann GPT-4V übertreffen

Wie in Tabelle 2 und Abbildung 3 gezeigt, zeigen die Modelle GITA-7B und GITA-13B, also das dual-modale fein abgestimmte LLaVA-7B/13B-Modell bessere Leistung als GPT -4V Deutliche Leistungsverbesserung von über 13 %. Diese enorme Verbesserung zeigt, dass das fein abgestimmte GITA-Modell hervorragende Fähigkeiten zur grafischen Argumentation effektiv aus dem GITQA-Datensatz erlernen kann.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Experiment 2: Der Einfluss des Schwierigkeitsgrads auf Diagrammaufgaben

Tabelle 3 zeigt außerdem die Testgenauigkeit des Modells bei verschiedenen Schwierigkeitsgraden (die GNN-Aufgabe wurde weggelassen, da sie für alle Modelle zu anspruchsvoll war) .

Die Leistung allein mit der visuellen Modalität übertraf die der Textmodalität und war vergleichbar mit der Verwendung beider Modalitäten bei Zyklus- und BGM-Aufgaben auf allen Schwierigkeitsgraden.

Bei anderen Aufgaben sinkt die Leistung von Modellen, die nur die visuelle Modalität verwenden, jedoch erheblich, wenn der Schwierigkeitsgrad von leicht auf mittel oder schwer steigt.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

In ähnlicher Weise kommt es bei Modellen, die nur Textmodalitäten und visuelle + Textmodalitäten verwenden, bei steigendem Schwierigkeitsgrad auch zu großen Leistungseinbußen bei diesen Aufgaben.

Für die Konnektivitätsaufgabe zeigen GITA-7B (Visual + Text) und GITA-13B (Visual + Text) auf allen drei Herausforderungsstufen eine vergleichbare Leistung.

Dieses konsistente Muster ist jedoch bei GPT-4V (Visual + Text) nicht zu beobachten, da die Leistung mit zunehmendem Schwierigkeitsgrad abnimmt.

Experiment 3: Strategien zur visuellen Diagrammverbesserung und Stilpräferenzen

Das Forschungsteam untersuchte auch die Wirkung spezieller Datenerweiterungsstrategien bei der Feinabstimmung des Modells.

Basierend auf verschiedenen Verbesserungsstrategien unterteilten die Forscher den GITQA-Aug-Datensatz in vier Verbesserungsteilmengen: Layout-Verbesserungsdatensatz, Knotenform-Verbesserungsdatensatz, Kantenbreiten-Verbesserungsdatensatz und Knotenstil-Verbesserungsdatensatz.

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBilder

Die Forscher haben alle vier erweiterten Teilmengen des LLaVA-7B-Modells, das nur visuelle Karteninformationen verwendet, separat verfeinert. Der Vergleich seiner Inferenzleistung mit der Leistung vor der Datenverbesserung ist in Tabelle 4 dargestellt .

Es ist deutlich zu erkennen, dass sich die Argumentationsfähigkeit des Modells für anspruchsvolle Aufgaben im Layout-erweiterten Datensatz dramatisch verbessert hat (SP stieg um 64,8 %, HP stieg um 69,63 %).

Die anderen drei Datenerweiterungsstrategien führen tatsächlich zu Leistungseinbußen.

Insbesondere erzielt das Modell hervorragende Ergebnisse auf dem Layout-Augmented-Set, das mehr als 11 % höher ist als das GITQA-Base-Set. Im Vergleich dazu sind die durchschnittlichen Ergebnisse für die acht Aufgaben in den anderen erweiterten Sätzen etwa 5 % niedriger als beim Basissatz

7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessernBild

Diese Ergebnisse legen nahe, dass die Layout-basierte Datenerweiterung eine effektivere visuelle Perspektive für das Denken in Diagrammen bietet. Darüber hinaus testeten die Forscher auch die Leistung des Visual Graph-Argumentation basierend auf jedem Stil innerhalb derselben Gruppe unter jeder Verbesserungsstrategie. Wie in Tabelle 5 gezeigt, zeigt es, dass das Modell keine offensichtliche Stilpräferenz hat.

Das obige ist der detaillierte Inhalt von7B-Modell übertrifft GPT4-V! Die Hong Kong University of Science and Technology und andere haben den Datensatz „Graph Reasoning Question and Answer' (GITQA) veröffentlicht: Visuelle Diagramme können die Denkfähigkeit verbessern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!