


Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen
Die Skalierung des Grundmodells bezieht sich auf die Verwendung von mehr Daten, Berechnungen und Parametern für das Vortraining, was einfach eine „Skalenerweiterung“ darstellt.
Obwohl die direkte Erweiterung der Modellgröße einfach und grob erscheint, hat sie tatsächlich viele herausragende Modelle in die Community des maschinellen Lernens gebracht. Viele frühere Studien haben die Praxis der Erweiterung des Maßstabs neuroökonomischer Modelle erkannt. Die sogenannten quantitativen Veränderungen führen zu qualitativen Veränderungen. Diese Sichtweise wird auch als neuronale Skalierungsgesetze bezeichnet. Mit zunehmender Modellgröße führt dies jedoch zu einem intensiven Verbrauch von Rechenressourcen. Das bedeutet, dass größere Modelle mehr Rechenressourcen benötigen, einschließlich Prozessoren und Speicher. Dies ist für viele praktische Anwendungen nicht realisierbar, insbesondere auf Geräten mit begrenzten Ressourcen. Daher haben Forscher begonnen, sich auf die effizientere Nutzung von Rechenressourcen zur Verbesserung von Modellen zu konzentrieren. In letzter Zeit glauben viele Menschen, dass „Daten“ der Schlüssel zu den derzeit besten Closed-Source-Modellen sind, unabhängig davon, ob es sich um LLM oder VLM handelt . Da die Bedeutung der Datenqualität erkannt wurde, wurden zahlreiche Forschungsarbeiten zur Verbesserung der Datenqualität durchgeführt: entweder durch das Filtern hochwertiger Daten aus großen Datenbanken oder durch die Generierung hochwertiger neuer Daten. Allerdings betrachtete das Erweiterungsgesetz in der Vergangenheit „Daten“ im Allgemeinen als eine homogene Einheit und berücksichtigte nicht die in jüngster Zeit beachtete „Datenqualität“ als Betrachtungsdimension.
Trotz der Fülle an Datenmodellen im Web sind qualitativ hochwertige Daten (basierend auf mehreren Bewertungsmetriken) oft begrenzt. Jetzt kommt bahnbrechende Forschung – das Expansionsgesetz in den Dimensionen der Datenfilterung! Es stammt von der Carnegie Mellon University und dem Bosch Center for AI und konzentriert sich insbesondere auf den Quantität-Qualitäts-Kompromiss (QQT) zwischen „großem Maßstab“ und „hoher Qualität“.
- Papieradresse: https://arxiv.org/pdf/2404.07177.pdf
- Codeadresse: https://github.com/locuslab/scaling_laws_data_filtering
Wie in Abbildung 1 gezeigt, ist beim Training mehrerer Epochen der Nutzen hochwertiger Daten (Utility ) ist nicht groß (da das Modell das Lernen abgeschlossen hat).
Zu diesem Zeitpunkt ist es oft hilfreicher, Daten von geringerer Qualität (mit anfangs geringerem Nutzen) zu verwenden, als Daten von hoher Qualität wiederzuverwenden.
Wie bestimmen wir unter dem Quantität-Qualitäts-Kompromiss (QQT), welche Art von Datenkombination für das Training besser ist?
Um diese Frage zu beantworten, muss jeder Datenkuratierungs-Workflow den gesamten Rechenaufwand berücksichtigen, der für das Modelltraining verwendet wird. Dies unterscheidet sich von der Sicht der Community auf die Datenfilterung. Beispielsweise extrahiert die LAION-Filterstrategie die qualitativ hochwertigsten 10 % aus allgemeinen Crawl-Ergebnissen.
Aber wie aus Abbildung 2 hervorgeht, ist es offensichtlich, dass, sobald das Training 35 Epochen überschreitet, die Wirkung des Trainings auf einen völlig unorganisierten Datensatz besser ist als das Training auf hochwertigen Daten, die mit der LAION-Strategie organisiert werden.
Aktuelle neuronale Expansionsgesetze können diesen dynamischen Kompromiss zwischen Qualität und Quantität nicht modellieren. Darüber hinaus gibt es noch weniger Studien zur Erweiterung visuell-sprachlicher Modelle und die meisten aktuellen Forschungsarbeiten beschränken sich auf den Bereich der Sprachmodellierung.
Die bahnbrechende Forschung, die wir heute vorstellen werden, hat drei wichtige Einschränkungen des vorherigen neuronalen Expansionsgesetzes überwunden, und zwar:
(1) Berücksichtigen Sie die „Qualitäts“-Achse bei der Datenexpansion
(2) Schätzen Sie das Expansionsgesetz der Datenpoolkombination (ohne die Kombination tatsächlich zu trainieren), was dabei hilft, optimale Entscheidungen zur Datenintegration zu treffen.
(3) Passen Sie das LLM-Expansionsgesetz an. Dies macht es für Kontrast geeignet Training (z. B. CLIP), bei dem jeder Stapel eine quadratische Anzahl von Vergleichen aufweist.
Das Team schlug erstmals das Expansionsgesetz für heterogene und begrenzte Netzwerkdatenmengen vor.
Große Modelle werden auf einer Kombination von Datenpools unterschiedlicher Qualität trainiert. Durch die Modellierung des aggregierten Datennutzens, der aus den Diffusionsparametern einzelner Datenpools (A-F in Abbildung 1 (a)) abgeleitet wird, ist es möglich, die Leistung des Modells für jede Kombination dieser Datenpools direkt abzuschätzen.
Es ist wichtig darauf hinzuweisen, dass diese Methode kein Training für diese Datenpoolkombinationen erfordert, um ihre Expansionsgesetze abzuschätzen, sondern ihre Expansionskurven basierend auf den Expansionsparametern jedes Komponentenpools direkt schätzen kann.
Im Vergleich zum Expansionsgesetz in der Vergangenheit weist das Expansionsgesetz hier einige wichtige Unterschiede auf, mit denen Wiederholungen im Trainingsmechanismus modelliert und verglichen und ein O (n²) -Vergleich erzielt werden können. Wenn beispielsweise die Größe des Trainingspools verdoppelt wird, vervierfacht sich die Anzahl der Vergleiche, die zum Modellverlust beitragen.
Sie beschreiben mathematisch, wie Daten aus verschiedenen Pools miteinander interagieren, sodass die Leistung des Modells unter verschiedenen Datenkombinationen geschätzt werden kann. Dies führt zu einer Datenorganisationsstrategie, die für derzeit verfügbare Berechnungen geeignet ist.
Eine Kernaussage dieser Studie ist: Die Datenerfassung kann nicht ohne Berechnung durchgeführt werden.
Wenn das Rechenbudget klein ist (weniger Wiederholungen), hat die Qualität im Rahmen des QQT-Kompromisses Vorrang, wie die beste Leistung der aggressiven Filterung (E) bei geringem Rechenaufwand in Abbildung 1 zeigt.
Wenn andererseits der Berechnungsumfang die verwendeten Trainingsdaten bei weitem übersteigt, nimmt der Nutzen begrenzter, qualitativ hochwertiger Daten ab, und Sie müssen Wege finden, dies auszugleichen. Dies führt zu einer weniger aggressiven Filterstrategie, d. h. zu einer besseren Leistung bei größeren Datenmengen.
Das Team führte experimentelle Demonstrationen durch, die zeigten, dass dieses neue Skalierungsgesetz für heterogene Netzwerkdaten Pareto unter verschiedenen Rechenbudgets von 32 Mio. bis 640 Mio. mithilfe der optimalen Filterstrategie für mittelgroße Pools (128 Mio. Stichproben) von DataComp vorhersagen kann.
Datenfilterung unter einem bestimmten Rechenbudget
Das Team untersuchte die Wirkung der Datenfilterung unter verschiedenen Rechenbudgets durch Experimente.
Sie haben einen VLM mithilfe eines großen anfänglichen Datenpools trainiert. Für den ungefilterten Basisdatenpool wählten sie eine „mittlere“ Version von Datacomp, einem aktuellen Datenkompilierungs-Benchmark. Der Datenpool enthält 128 Millionen Proben. Sie verwendeten 18 verschiedene nachgelagerte Aufgaben, um die Nullschussleistung des Modells zu bewerten.
Sie untersuchten zunächst die LAION-Filterstrategie, die zum Erhalten des LAION-Datensatzes verwendet wurde. Die Ergebnisse sind in Abbildung 2 dargestellt. Sie beobachteten die folgenden Ergebnisse:
1. Wenn das Rechenbudget niedrig ist, ist es besser, qualitativ hochwertige Daten zu verwenden.
2. Die Datenfilterung kann bei hohem Rechenbudget zu Hindernissen führen.
Warum?
LAION-Filterung behält etwa 10 % der Daten bei, sodass das Rechenbudget etwa 450 Millionen beträgt und jede Probe aus dem gefilterten LAION-Pool etwa 32 Mal verwendet wird. Die wichtigste Erkenntnis hierbei ist, dass der Nutzen jedes Mal abnimmt, wenn dieselbe Probe während des Trainings mehrmals angezeigt wird.
Das Team untersuchte dann zwei weitere Datenfilterungsmethoden:
(1) CLIP-Score-Filterung unter Verwendung des CLIP L/14-Modells;
(2) T-MARS, nach der Maskierung. Die Daten werden in eine Rangfolge gebracht basierend auf dem CLIP-Score nach Textmerkmalen im Bild (OCR). Für jede Datenfiltermethode verwendeten sie vier Filterstufen und verschiedene unterschiedliche Gesamtrechenaufwände.
Abbildung 3 zeigt den Vergleich der Ergebnisse der CLIP-Filterung „Top 10–20 %, Top 30 % und Top 40 %“, wenn der Berechnungsmaßstab 32 Mio., 128 Mio. und 640 Mio. beträgt.
Bei einem Rechenmaßstab von 32 Mio. lieferte die äußerst aggressive Filterstrategie (die nur die oberen 10–20 % basierend auf dem CLIP-Score beibehält) die besten Ergebnisse, während die am wenigsten aggressive Filtermethode, bei der die oberen 40 % beibehalten wurden, am besten abschnitt . Unterschied. Wenn der Rechenumfang jedoch auf 640 MB erweitert wird, kehrt sich dieser Trend vollständig um. Ähnliche Trends werden mit der T-MARS-Score-Metrik beobachtet.
Das Expansionsgesetz der Datenfilterung
Das Team definierte den Nutzen zunächst mathematisch.
Ihr Ansatz besteht nicht darin, den Verlust von n Proben am Ende des Trainings abzuschätzen, sondern den momentanen Nutzen einer Probe zu jedem Zeitpunkt während der Trainingsphase zu berücksichtigen. Die mathematische Formel lautet:
Dies zeigt, dass der momentane Nutzen einer Probe direkt proportional zum aktuellen Verlust und umgekehrt proportional zur Anzahl der bisher gesehenen Proben ist. Dies entspricht auch unserer intuitiven Denkweise: Je mehr Proben das Modell sieht, desto geringer ist die Wirksamkeit der Proben. Der Fokus liegt auf dem Datennutzenparameter b.
Der nächste Schritt ist der Nutzen der Wiederverwendung von Daten.
Mathematisch ist der Nutzenparameter b einer Probe, die k+1 mal gesehen wurde, wie folgt definiert:
wobei τ die Halbwertszeit des Nutzenparameters ist. Je höher der Wert von τ ist, desto langsamer nimmt der Probennutzen bei Wiederholung ab. δ ist eine prägnante Art, den Verfall des Nutzens durch Wiederholung zu beschreiben. Dann ist der Ausdruck des Verlusts des Modells, nachdem n Proben gesehen wurden und jede Probe k-mal gesehen wurde:
wobei n_j die Anzahl der Modelle am Ende der j-ten Runde der Trainingsepoche ist Proben gesehen. Diese Gleichung ist die Grundlage des neu vorgeschlagenen Expansionsgesetzes.
Schließlich gibt es noch eine weitere Ebene der Komplexität, nämlich heterogene Netzwerkdaten.
Dann haben wir den Satz erhalten, den sie gegeben haben: Bei gegebenen p Datenpools, die zufällig und gleichmäßig abgetastet wurden, sind ihre jeweiligen Nutzen- und Wiederholungsparameter (b_1, τ_1) ... (b_p, τ_p), dann jeweils Die neue wiederholte Halbwertszeit eines Eimers ist τˆ = p・τ. Darüber hinaus ist der effektive Nutzenwert b_eff des kombinierten Datenpools bei der k-ten Iteration der gewichtete Durchschnitt der einzelnen Nutzenwerte. Seine mathematische Form ist:
wobei , dies der neue Zerfallsparameter pro Bucket ist.
Schließlich kann b_eff im obigen Theorem in Gleichung (3) verwendet werden, um den Verlust beim Training auf der Datenpoolkombination abzuschätzen.
Anpassen von Expansionskurven für verschiedene Daten-Utility-Pools
Das Team untersuchte experimentell das neu vorgeschlagene Expansionsgesetz.
Abbildung 4 zeigt die Expansionskurven verschiedener Datennutzenpools nach der Anpassung. Der verwendete Datennutzenindex ist der T-MARS-Score.
Spalte 2 von Abbildung 4 zeigt, dass der Nutzen jedes Datenpools mit zunehmenden Epochen abnimmt. Hier sind einige wichtige Beobachtungen des Teams:
1 Netzwerkdaten sind heterogen und können nicht durch einen einzigen Satz erweiterter Parameter modelliert werden.
2. Verschiedene Datenpools weisen eine unterschiedliche Datenvielfalt auf.
3. Die Wirkung qualitativ hochwertiger Daten mit sich wiederholenden Phänomenen kann mit der direkten Nutzung minderwertiger Daten nicht mithalten.
Ergebnisse: Schätzung von Expansionsgesetzen für Datenkombinationen unter QQT
Die entsprechenden Parameter a, b, d, τ wurden zuvor für Datenpools unterschiedlicher Qualität abgeleitet. Das Ziel hier besteht darin, zu bestimmen, welche Datenverarbeitungsstrategie angesichts eines Trainingsrechenbudgets am effizientesten ist.
Durch den vorherigen Satz und die Erweiterungsparameter jedes Datenpools kann nun das Erweiterungsgesetz verschiedener Poolkombinationen geschätzt werden. Beispielsweise kann man sich den Top-20-%-Pool als eine Kombination aus den Top-10-%- und Top-10-20-%-Pools vorstellen. Dieser Trend aus der Expansionskurve kann dann verwendet werden, um eine pareto-optimale Datenfilterungsstrategie für ein gegebenes Rechenbudget vorherzusagen.
Abbildung 5 zeigt die Expansionskurven für verschiedene Datenkombinationen, die auf ImageNet ausgewertet werden.
Hier muss betont werden, dass diese Kurven basierend auf dem obigen Theorem direkt aus den Expansionsparametern jedes Komponentenpools geschätzt werden. Sie haben diese Datenpoolkombinationen nicht trainiert, um diese Expansionskurven abzuschätzen. Die Streupunkte stellen die tatsächliche Testleistung dar und dienen zur Verifizierung der geschätzten Ergebnisse.
Es ist ersichtlich, dass: (1) Die aggressive Filterstrategie am besten ist, wenn das Rechenbudget gering ist/die Anzahl der Wiederholungen gering ist.
(2) Die Datenerfassung kann nicht ohne Berechnung durchgeführt werden. „Erweitern Sie die Expansionskurve.“ Berechnung Es gibt Dutzende von Modellen mit einer Größe von 3B bis 34B-Trainingsbeispielen, und die Modelle decken verschiedene Modelle der ViT-Serie ab. Das Trainieren von Modellen in diesem Rechenmaßstab ist sehr teuer. Cherti et al. (2023) wollten Expansionsgesetze für diese Modellfamilie anpassen, aber die Expansionskurven für Modelle, die auf kleinen Datensätzen trainiert wurden, wiesen viele Fehler auf.
Das CMU-Team geht davon aus, dass dies vor allem daran liegt, dass sie die durch die Wiederverwendung von Daten verursachte Nutzenminderung nicht berücksichtigt haben. Daher schätzten sie die Fehler dieser Modelle mithilfe des neu vorgeschlagenen Expansionsgesetzes ab. Abbildung 6 ist die erweiterte Kurve nach der Korrektur, die Fehler mit hoher Genauigkeit vorhersagen kann.
Dies zeigt, dass das neu vorgeschlagene Erweiterungsgesetz für große Modelle geeignet ist, die mit 34B-Datenberechnungen trainiert wurden, was zeigt, dass das neue Erweiterungsgesetz tatsächlich die Verringerung des Nutzens wiederholter Daten bei der Vorhersage von Modelltrainingsergebnissen berücksichtigen kann .
Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonIst es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

DDREASE ist ein Tool zum Wiederherstellen von Daten von Datei- oder Blockgeräten wie Festplatten, SSDs, RAM-Disks, CDs, DVDs und USB-Speichergeräten. Es kopiert Daten von einem Blockgerät auf ein anderes, wobei beschädigte Blöcke zurückbleiben und nur gute Blöcke verschoben werden. ddreasue ist ein leistungsstarkes Wiederherstellungstool, das vollständig automatisiert ist, da es während der Wiederherstellungsvorgänge keine Unterbrechungen erfordert. Darüber hinaus kann es dank der ddasue-Map-Datei jederzeit gestoppt und fortgesetzt werden. Weitere wichtige Funktionen von DDREASE sind: Es überschreibt die wiederhergestellten Daten nicht, füllt aber die Lücken im Falle einer iterativen Wiederherstellung. Es kann jedoch gekürzt werden, wenn das Tool explizit dazu aufgefordert wird. Stellen Sie Daten aus mehreren Dateien oder Blöcken in einer einzigen wieder her

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Stehen Sie vor einer Verzögerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise hängt die Stärke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun können, um eine schnellere und zuverlässigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Geräts viele Dinge zurückgesetzt, einschließlich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschließend die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der nächste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschließen. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. Überprüfen Sie es erneut. Fix 2 – Datenmodus ändern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schwächer ist

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

Neues SOTA für multimodale Dokumentverständnisfunktionen! Das Alibaba mPLUG-Team hat die neueste Open-Source-Arbeit mPLUG-DocOwl1.5 veröffentlicht, die eine Reihe von Lösungen zur Bewältigung der vier großen Herausforderungen der hochauflösenden Bildtexterkennung, des allgemeinen Verständnisses der Dokumentstruktur, der Befolgung von Anweisungen und der Einführung externen Wissens vorschlägt. Schauen wir uns ohne weitere Umschweife zunächst die Auswirkungen an. Ein-Klick-Erkennung und Konvertierung von Diagrammen mit komplexen Strukturen in das Markdown-Format: Es stehen Diagramme verschiedener Stile zur Verfügung: Auch eine detailliertere Texterkennung und -positionierung ist einfach zu handhaben: Auch ausführliche Erläuterungen zum Dokumentverständnis können gegeben werden: Sie wissen schon, „Document Understanding“. " ist derzeit ein wichtiges Szenario für die Implementierung großer Sprachmodelle. Es gibt viele Produkte auf dem Markt, die das Lesen von Dokumenten unterstützen. Einige von ihnen verwenden hauptsächlich OCR-Systeme zur Texterkennung und arbeiten mit LLM zur Textverarbeitung zusammen.
