


Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic
Im Bereich des Bildverständnisses haben multimodale Großmodelle ihre hervorragende Leistung voll unter Beweis gestellt. Es gibt jedoch noch Raum für Verbesserungen bei bestehenden multimodalen Modellen für das Diagrammverständnis und die Generierungsaufgaben, die häufig in der Arbeit behandelt werden.
Obwohl die aktuellen State-of-the-Art-Modelle im Bereich des Graphverständnisses bei einfachen Testsätzen gut funktionieren, sind sie aufgrund mangelnder Sprachverständnis- und Ausgabefähigkeiten nicht in der Lage, komplexere Frage- und Antwortaufgaben zu bewältigen. Andererseits ist auch die Leistung multimodaler großer Modelle, die auf der Grundlage großer Sprachmodelle trainiert wurden, unbefriedigend, was hauptsächlich auf das Fehlen von Trainingsbeispielen für Diagramme zurückzuführen ist. Diese Probleme haben den kontinuierlichen Fortschritt multimodaler Modelle beim Diagrammverständnis und bei der Erstellung von Aufgaben erheblich eingeschränkt.
Kürzlich haben Tencent, die Nanyang Technological University und die Southeast University ChartLlama vorgeschlagen. Das Forschungsteam erstellte einen hochwertigen Graphdatensatz und trainierte ein multimodales, groß angelegtes Sprachmodell, das sich auf das Verstehen und Generieren von Graphen konzentriert. ChartLlama kombiniert mehrere Funktionen wie Sprachverarbeitung und Diagrammerstellung, um ein leistungsstarkes Forschungstool für wissenschaftliche Forscher und verwandte Fachleute bereitzustellen.
Papieradresse: https://arxiv.org/abs/2311.16483
Homepage-Adresse: https://tingxueronghua.github.io/ChartLlama/
Das ChartLlama-Team hat eine entworfen Eine clevere, diversifizierte Datenerfassungsstrategie, die GPT-4 nutzt, um Daten mit spezifischen Themen, Verteilungen und Trends zu generieren, um die Vielfalt des Datensatzes sicherzustellen. Das Team kombinierte Open-Source-Plotbibliotheken mit den Programmierfunktionen von GPT-4, um präzisen Diagrammcode zu schreiben und genaue grafische Datendarstellungen zu erstellen. Darüber hinaus verwendet das Team GPT-4 auch zur Beschreibung von Diagramminhalten und zur Generierung von Frage- und Antwortpaaren. Dabei werden umfangreiche und vielfältige Trainingsbeispiele für jedes Diagramm generiert, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann Im Bereich des Diagrammverständnisses können herkömmliche Modelle nur einige einfache Fragen beantworten, z. B. einfache Frage- und Antwortaufgaben wie das Lesen von Zahlen, und komplexere Fragen nicht beantworten. Diese Modelle haben Schwierigkeiten, langen Anweisungen zu folgen, und machen häufig Fehler bei Fragen und Antworten, die mathematische Operationen beinhalten. Im Gegensatz dazu kann ChartLlama diese Probleme effektiv vermeiden:
Zusätzlich zu den herkömmlichen Aufgaben definierte das Forschungsteam auch mehrere neue Aufgaben, darunter drei Aufgaben zur Diagrammerstellung. Das Papier enthält relevante Beispiele:
Der Prozess der Generierung von Diagrammbeispielen basiert auf Anweisungen und Rohdaten.
ChartLlama führt aus eignet sich gut für verschiedene Benchmark-Datensätze und erreicht eine Leistung auf dem neuesten Stand, während gleichzeitig weniger Trainingsdaten benötigt werden. Es verwendet eine flexible Datengenerierungs- und -erfassungsmethode, erweitert die Diagrammtypen und Aufgabentypen bei Diagrammverständnis- und -generierungsaufgaben erheblich und fördert die Entwicklung des Feldes
Übersicht über die Methode
ChartLlama hat eine flexible Datenerfassung entwickelt Methoden, die die leistungsstarken Sprach- und Programmierfunktionen von GPT-4 nutzen, um umfangreiche multimodale Diagrammdatensätze zu erstellen.
Die Datenerfassung von ChartLlama besteht aus drei Hauptphasen:
- Erstellung von Diagrammdaten: ChartLlama sammelt nicht nur Daten aus herkömmlichen Datenquellen, sondern nutzt auch die Leistungsfähigkeit von GPT-4, um synthetische Daten zu generieren. GPT-4 ist darauf ausgerichtet, durch die Bereitstellung spezifischer Funktionen wie Themen, Verteilungen und Trends vielfältige und ausgewogene Diagrammdaten zu erstellen. Da die generierten Daten bekannte Datenverteilungsmerkmale enthalten, wird die Konstruktion von Befehlsdaten flexibler und vielfältiger.
- Diagrammgenerierung: Verwenden Sie als Nächstes die leistungsstarken Programmierfunktionen von GPT-4, verwenden Sie Open-Source-Bibliotheken (z. B. Matplotlib), um Diagrammzeichnungsskripte basierend auf den generierten Daten und Funktionsdokumenten zu schreiben, und generieren Sie sorgfältig eine Reihe von Diagrammen gerenderte Diagramme. Da das Zeichnen von Diagrammen vollständig auf Open-Source-Tools basiert, kann dieser Algorithmus mehr Diagrammtypen für das Training generieren. Im Vergleich zu bestehenden Datensätzen wie ChatQA, die nur drei Diagrammtypen unterstützen, unterstützt der von ChartLlama erstellte Datensatz bis zu 10 Diagrammtypen und kann beliebig erweitert werden.
-
Anweisungsdatengenerierung: Zusätzlich zur Diagrammdarstellung verwendet ChartLlama GPT-4 außerdem zur Beschreibung von Diagramminhalten und zur Erstellung verschiedener Frage- und Antwortdaten, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann. Dieses umfassende, an Anweisungen angepasste Korpus enthält narrativen Text, Frage-Antwort-Paare sowie Quell- oder modifizierten Code für Diagramme. Frühere Datensätze unterstützten nur 1–3 Aufgaben zum Verstehen von Diagrammen, während ChartLlama bis zu 10 Aufgaben zum Verstehen und Generieren von Diagrammen unterstützt, wodurch große Grafik- und Textmodelle besser trainiert werden können, um die Informationen in den Symbolen zu verstehen Mit den oben genannten Schritten hat ChartLlama einen Datensatz erstellt, der mehrere Aufgaben und mehrere Diagrammtypen enthält. Die Anteile verschiedener Arten von Aufgaben und Diagrammen am Gesamtdatensatz sind wie folgt:
Experimentelle Ergebnisse
Ob Es ist traditionell. Unabhängig davon, ob die Aufgabe neu oder neu ist, zeigt ChartLlama die beste Leistung. Zu den traditionellen Aufgaben gehören Diagramm-Fragen und -Antworten, Diagrammzusammenfassungen und die strukturierte Datenextraktion von Diagrammen. Beim Vergleich von ChartLlama mit früheren hochmodernen Modellen sind die Ergebnisse in der folgenden Abbildung dargestellt:
Die Forscher bewerteten auch die einzigartigen Aufgabenfunktionen von ChartLlama, einschließlich der Generierung von Diagrammcode, der Zusammenfassung von Diagrammen und der Bearbeitung von Diagrammen. Außerdem erstellten sie einen Testsatz für die entsprechende Aufgabe und verglichen ihn mit LLaVA-1.5, dem derzeit leistungsstärksten Open-Source-Grafik- und Textmodell. Hier sind die Ergebnisse:
Interessierte Leser können für weitere Forschungsinhalte den Originaltext des Artikels aufrufen
Das obige ist der detaillierte Inhalt vonUmfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Die Technologie zur Gesichtserkennung und -erkennung ist bereits eine relativ ausgereifte und weit verbreitete Technologie. Derzeit ist JS die am weitesten verbreitete Internetanwendungssprache. Die Implementierung der Gesichtserkennung und -erkennung im Web-Frontend hat im Vergleich zur Back-End-Gesichtserkennung Vor- und Nachteile. Zu den Vorteilen gehören die Reduzierung der Netzwerkinteraktion und die Echtzeiterkennung, was die Wartezeit des Benutzers erheblich verkürzt und das Benutzererlebnis verbessert. Die Nachteile sind: Es ist durch die Größe des Modells begrenzt und auch die Genauigkeit ist begrenzt. Wie implementiert man mit js die Gesichtserkennung im Web? Um die Gesichtserkennung im Web zu implementieren, müssen Sie mit verwandten Programmiersprachen und -technologien wie JavaScript, HTML, CSS, WebRTC usw. vertraut sein. Gleichzeitig müssen Sie auch relevante Technologien für Computer Vision und künstliche Intelligenz beherrschen. Dies ist aufgrund des Designs der Webseite erwähnenswert

Neues SOTA für multimodale Dokumentverständnisfunktionen! Das Alibaba mPLUG-Team hat die neueste Open-Source-Arbeit mPLUG-DocOwl1.5 veröffentlicht, die eine Reihe von Lösungen zur Bewältigung der vier großen Herausforderungen der hochauflösenden Bildtexterkennung, des allgemeinen Verständnisses der Dokumentstruktur, der Befolgung von Anweisungen und der Einführung externen Wissens vorschlägt. Schauen wir uns ohne weitere Umschweife zunächst die Auswirkungen an. Ein-Klick-Erkennung und Konvertierung von Diagrammen mit komplexen Strukturen in das Markdown-Format: Es stehen Diagramme verschiedener Stile zur Verfügung: Auch eine detailliertere Texterkennung und -positionierung ist einfach zu handhaben: Auch ausführliche Erläuterungen zum Dokumentverständnis können gegeben werden: Sie wissen schon, „Document Understanding“. " ist derzeit ein wichtiges Szenario für die Implementierung großer Sprachmodelle. Es gibt viele Produkte auf dem Markt, die das Lesen von Dokumenten unterstützen. Einige von ihnen verwenden hauptsächlich OCR-Systeme zur Texterkennung und arbeiten mit LLM zur Textverarbeitung zusammen.

Lassen Sie mich Ihnen das neueste AIGC-Open-Source-Projekt vorstellen – AnimagineXL3.1. Dieses Projekt ist die neueste Version des Text-zu-Bild-Modells mit Anime-Thema und zielt darauf ab, Benutzern ein optimiertes und leistungsfähigeres Erlebnis bei der Generierung von Anime-Bildern zu bieten. Bei AnimagineXL3.1 konzentrierte sich das Entwicklungsteam auf die Optimierung mehrerer Schlüsselaspekte, um sicherzustellen, dass das Modell neue Höhen in Bezug auf Leistung und Funktionalität erreicht. Zunächst erweiterten sie die Trainingsdaten, um nicht nur Spielcharakterdaten aus früheren Versionen, sondern auch Daten aus vielen anderen bekannten Anime-Serien in das Trainingsset aufzunehmen. Dieser Schritt erweitert die Wissensbasis des Modells und ermöglicht ihm ein umfassenderes Verständnis verschiedener Anime-Stile und Charaktere. AnimagineXL3.1 führt eine neue Reihe spezieller Tags und Ästhetiken ein
