Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic-KI-php.cn

Heim

Technologie-Peripheriegeräte

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

王林

Dec 03, 2023 am 11:22 AM

模型开源

Im Bereich des Bildverständnisses haben multimodale Großmodelle ihre hervorragende Leistung voll unter Beweis gestellt. Es gibt jedoch noch Raum für Verbesserungen bei bestehenden multimodalen Modellen für das Diagrammverständnis und die Generierungsaufgaben, die häufig in der Arbeit behandelt werden.

Obwohl die aktuellen State-of-the-Art-Modelle im Bereich des Graphverständnisses bei einfachen Testsätzen gut funktionieren, sind sie aufgrund mangelnder Sprachverständnis- und Ausgabefähigkeiten nicht in der Lage, komplexere Frage- und Antwortaufgaben zu bewältigen. Andererseits ist auch die Leistung multimodaler großer Modelle, die auf der Grundlage großer Sprachmodelle trainiert wurden, unbefriedigend, was hauptsächlich auf das Fehlen von Trainingsbeispielen für Diagramme zurückzuführen ist. Diese Probleme haben den kontinuierlichen Fortschritt multimodaler Modelle beim Diagrammverständnis und bei der Erstellung von Aufgaben erheblich eingeschränkt.

Kürzlich haben Tencent, die Nanyang Technological University und die Southeast University ChartLlama vorgeschlagen. Das Forschungsteam erstellte einen hochwertigen Graphdatensatz und trainierte ein multimodales, groß angelegtes Sprachmodell, das sich auf das Verstehen und Generieren von Graphen konzentriert. ChartLlama kombiniert mehrere Funktionen wie Sprachverarbeitung und Diagrammerstellung, um ein leistungsstarkes Forschungstool für wissenschaftliche Forscher und verwandte Fachleute bereitzustellen.

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Papieradresse: https://arxiv.org/abs/2311.16483

Homepage-Adresse: https://tingxueronghua.github.io/ChartLlama/

Das ChartLlama-Team hat eine entworfen Eine clevere, diversifizierte Datenerfassungsstrategie, die GPT-4 nutzt, um Daten mit spezifischen Themen, Verteilungen und Trends zu generieren, um die Vielfalt des Datensatzes sicherzustellen. Das Team kombinierte Open-Source-Plotbibliotheken mit den Programmierfunktionen von GPT-4, um präzisen Diagrammcode zu schreiben und genaue grafische Datendarstellungen zu erstellen. Darüber hinaus verwendet das Team GPT-4 auch zur Beschreibung von Diagramminhalten und zur Generierung von Frage- und Antwortpaaren. Dabei werden umfangreiche und vielfältige Trainingsbeispiele für jedes Diagramm generiert, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann Im Bereich des Diagrammverständnisses können herkömmliche Modelle nur einige einfache Fragen beantworten, z. B. einfache Frage- und Antwortaufgaben wie das Lesen von Zahlen, und komplexere Fragen nicht beantworten. Diese Modelle haben Schwierigkeiten, langen Anweisungen zu folgen, und machen häufig Fehler bei Fragen und Antworten, die mathematische Operationen beinhalten. Im Gegensatz dazu kann ChartLlama diese Probleme effektiv vermeiden:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Zusätzlich zu den herkömmlichen Aufgaben definierte das Forschungsteam auch mehrere neue Aufgaben, darunter drei Aufgaben zur Diagrammerstellung. Das Papier enthält relevante Beispiele:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Anhand eines Diagramms und Anweisungen, Beispiele für die Diagrammrekonstruktion und Diagrammbearbeitung

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic Der Prozess der Generierung von Diagrammbeispielen basiert auf Anweisungen und Rohdaten.

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic ChartLlama führt aus eignet sich gut für verschiedene Benchmark-Datensätze und erreicht eine Leistung auf dem neuesten Stand, während gleichzeitig weniger Trainingsdaten benötigt werden. Es verwendet eine flexible Datengenerierungs- und -erfassungsmethode, erweitert die Diagrammtypen und Aufgabentypen bei Diagrammverständnis- und -generierungsaufgaben erheblich und fördert die Entwicklung des Feldes

Übersicht über die Methode

ChartLlama hat eine flexible Datenerfassung entwickelt Methoden, die die leistungsstarken Sprach- und Programmierfunktionen von GPT-4 nutzen, um umfangreiche multimodale Diagrammdatensätze zu erstellen.

Die Datenerfassung von ChartLlama besteht aus drei Hauptphasen:

Erstellung von Diagrammdaten: ChartLlama sammelt nicht nur Daten aus herkömmlichen Datenquellen, sondern nutzt auch die Leistungsfähigkeit von GPT-4, um synthetische Daten zu generieren. GPT-4 ist darauf ausgerichtet, durch die Bereitstellung spezifischer Funktionen wie Themen, Verteilungen und Trends vielfältige und ausgewogene Diagrammdaten zu erstellen. Da die generierten Daten bekannte Datenverteilungsmerkmale enthalten, wird die Konstruktion von Befehlsdaten flexibler und vielfältiger.
Diagrammgenerierung: Verwenden Sie als Nächstes die leistungsstarken Programmierfunktionen von GPT-4, verwenden Sie Open-Source-Bibliotheken (z. B. Matplotlib), um Diagrammzeichnungsskripte basierend auf den generierten Daten und Funktionsdokumenten zu schreiben, und generieren Sie sorgfältig eine Reihe von Diagrammen gerenderte Diagramme. Da das Zeichnen von Diagrammen vollständig auf Open-Source-Tools basiert, kann dieser Algorithmus mehr Diagrammtypen für das Training generieren. Im Vergleich zu bestehenden Datensätzen wie ChatQA, die nur drei Diagrammtypen unterstützen, unterstützt der von ChartLlama erstellte Datensatz bis zu 10 Diagrammtypen und kann beliebig erweitert werden.
Anweisungsdatengenerierung: Zusätzlich zur Diagrammdarstellung verwendet ChartLlama GPT-4 außerdem zur Beschreibung von Diagramminhalten und zur Erstellung verschiedener Frage- und Antwortdaten, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann. Dieses umfassende, an Anweisungen angepasste Korpus enthält narrativen Text, Frage-Antwort-Paare sowie Quell- oder modifizierten Code für Diagramme. Frühere Datensätze unterstützten nur 1–3 Aufgaben zum Verstehen von Diagrammen, während ChartLlama bis zu 10 Aufgaben zum Verstehen und Generieren von Diagrammen unterstützt, wodurch große Grafik- und Textmodelle besser trainiert werden können, um die Informationen in den Symbolen zu verstehen Mit den oben genannten Schritten hat ChartLlama einen Datensatz erstellt, der mehrere Aufgaben und mehrere Diagrammtypen enthält. Die Anteile verschiedener Arten von Aufgaben und Diagrammen am Gesamtdatensatz sind wie folgt:

Ausführlichere Anweisungen und Anweisungen finden Sie im Originalpapier.

Experimentelle Ergebnisse

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Ob Es ist traditionell. Unabhängig davon, ob die Aufgabe neu oder neu ist, zeigt ChartLlama die beste Leistung. Zu den traditionellen Aufgaben gehören Diagramm-Fragen und -Antworten, Diagrammzusammenfassungen und die strukturierte Datenextraktion von Diagrammen. Beim Vergleich von ChartLlama mit früheren hochmodernen Modellen sind die Ergebnisse in der folgenden Abbildung dargestellt:

Die Forscher bewerteten auch die einzigartigen Aufgabenfunktionen von ChartLlama, einschließlich der Generierung von Diagrammcode, der Zusammenfassung von Diagrammen und der Bearbeitung von Diagrammen. Außerdem erstellten sie einen Testsatz für die entsprechende Aufgabe und verglichen ihn mit LLaVA-1.5, dem derzeit leistungsstärksten Open-Source-Grafik- und Textmodell. Hier sind die Ergebnisse:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Das Forschungsteam testete die Frage-Antwort-Genauigkeit von ChartLlama in verschiedenen Diagrammtypen und verglich sie mit dem vorherigen SOTA-Modell Unichart und dem vorgeschlagenen Basismodell. Die Ergebnisse sind wie folgt:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Insgesamt erweitert ChartLlama nicht nur die Grenzen des multimodalen Lernens, sondern bietet auch genauere und effizientere Tools für das Verständnis und die Erstellung von Diagrammen. Ob beim wissenschaftlichen Schreiben oder bei Unternehmenspräsentationen, ChartLlama macht das Verständnis und die Erstellung von Diagrammen intuitiver und effizienter und macht einen wichtigen Schritt nach vorne bei der Generierung und Interpretation komplexer visueller Daten.

Interessierte Leser können für weitere Forschungsinhalte den Originaltext des Artikels aufrufen

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Das obige ist der detaillierte Inhalt vonUmfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7461

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Empfohlen: Ausgezeichnetes JS-Open-Source-Projekt zur Gesichtserkennung und -erkennung Apr 03, 2024 am 11:55 AM

Die Technologie zur Gesichtserkennung und -erkennung ist bereits eine relativ ausgereifte und weit verbreitete Technologie. Derzeit ist JS die am weitesten verbreitete Internetanwendungssprache. Die Implementierung der Gesichtserkennung und -erkennung im Web-Frontend hat im Vergleich zur Back-End-Gesichtserkennung Vor- und Nachteile. Zu den Vorteilen gehören die Reduzierung der Netzwerkinteraktion und die Echtzeiterkennung, was die Wartezeit des Benutzers erheblich verkürzt und das Benutzererlebnis verbessert. Die Nachteile sind: Es ist durch die Größe des Modells begrenzt und auch die Genauigkeit ist begrenzt. Wie implementiert man mit js die Gesichtserkennung im Web? Um die Gesichtserkennung im Web zu implementieren, müssen Sie mit verwandten Programmiersprachen und -technologien wie JavaScript, HTML, CSS, WebRTC usw. vertraut sein. Gleichzeitig müssen Sie auch relevante Technologien für Computer Vision und künstliche Intelligenz beherrschen. Dies ist aufgrund des Designs der Webseite erwähnenswert

Das multimodale Dokumentenverständnis-Großmodell Alibaba 7B gewinnt neue SOTA Apr 02, 2024 am 11:31 AM

Neues SOTA für multimodale Dokumentverständnisfunktionen! Das Alibaba mPLUG-Team hat die neueste Open-Source-Arbeit mPLUG-DocOwl1.5 veröffentlicht, die eine Reihe von Lösungen zur Bewältigung der vier großen Herausforderungen der hochauflösenden Bildtexterkennung, des allgemeinen Verständnisses der Dokumentstruktur, der Befolgung von Anweisungen und der Einführung externen Wissens vorschlägt. Schauen wir uns ohne weitere Umschweife zunächst die Auswirkungen an. Ein-Klick-Erkennung und Konvertierung von Diagrammen mit komplexen Strukturen in das Markdown-Format: Es stehen Diagramme verschiedener Stile zur Verfügung: Auch eine detailliertere Texterkennung und -positionierung ist einfach zu handhaben: Auch ausführliche Erläuterungen zum Dokumentverständnis können gegeben werden: Sie wissen schon, „Document Understanding“. " ist derzeit ein wichtiges Szenario für die Implementierung großer Sprachmodelle. Es gibt viele Produkte auf dem Markt, die das Lesen von Dokumenten unterstützen. Einige von ihnen verwenden hauptsächlich OCR-Systeme zur Texterkennung und arbeiten mit LLM zur Textverarbeitung zusammen.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

See all articles