Trilion token! Kelahiran set data multimodal terbesar dalam sejarah-AI-php.cn

Trilion token! Kelahiran set data multimodal terbesar dalam sejarah

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-07-28 09:38:23

asal

932 orang telah melayarinya

Model besar berbilang modal sumber terbuka mungkin mula berlepas.

Trilion token! Kelahiran set data multimodal terbesar dalam sejarah

Während Llama 3.1 für Schlagzeilen sorgt, erschien plötzlich eine weitere sehr wichtige Veröffentlichung – ein multimodaler Open-Source-Datensatz von beispiellosem Umfang.

Bei großen Modellen ist die Bedeutung von Datensätzen selbstverständlich. Man kann sogar sagen, dass es unmöglich ist, große Modelle ohne große Datensätze zu haben. Jetzt ist die Zeit gekommen, in der die Entwicklung großer multimodaler Modelle (LMM) boomt. Hochwertige und quelloffene multimodale Datensätze von ausreichend großem Umfang sind in diesem Bereich zu einem „erheblichen Bedarf“ geworden.

Im Vergleich zu Open-Source-Textdatensätzen sind jedoch vorhandene multimodale Open-Source-Datensätze kleiner und weniger vielfältig, und ihre Quellen sind im Wesentlichen HTML-Dokumente – dies schränkt die Breite der Daten ein. Dies schränkt zweifellos die Entwicklung von Open-Source-LMM ein und macht den Unterschied zwischen Open-Source-LMM und Closed-Source-LMM sehr groß.

Kürzlich hat ein gemeinsames Team der University of Washington, Salesforce Research und der Stanford University diese Lücke geschlossen und einen interleaved multimodalen Open-Source-Datensatz MINT-1T (Multimodal INTerleaved) auf Billionen-Token-Ebene erstellt. Ohne Zweifel ist dies der größte derzeit verfügbare multimodale Open-Source-Datensatz.

Trilion token! Kelahiran set data multimodal terbesar dalam sejarah

Datensatzadresse: https://github.com/mlfoundations/MINT-1T
Papieradresse: https://arxiv.org/abs/2406.11271
Papiertitel: MINT - 1T: Skalierung multimodaler Open-Source-Daten um das Zehnfache: Ein multimodaler Datensatz mit einer Billion Tokens

MINT-1T enthält insgesamt eine Billion Text-Tokens und drei Milliarden Bilder und verfügt über HTML/PDF/ArXiv und viele andere Quellen. Vor der Einführung von MINT-1T war OBELICS der größte Open-Source-Datensatz in diesem Bereich, der 115 Milliarden Text-Tokens und 353 Millionen Bilder enthielt, und die Quelle war nur HTML. Abbildung 1 vergleicht diese Datensätze.

Aufbau des Datensatzes

Zuerst sammelte das Team eine große Menge multimodaler Daten aus verschiedenen Quellen (einschließlich HTML, PDF, ArXiv). Abbildung 2 zeigt die multimodalen Daten aus diese verschiedenen Quellen.

Um die Datenqualität und -sicherheit zu verbessern, führten sie dann eine Textqualitätsfilterung, eine Bildfilterung, eine Sicherheitsfilterung (einschließlich der Entfernung von NSFW-Bildern und persönlich identifizierbaren Informationen) und eine Deduplizierung durch. Abbildung 3 veranschaulicht kurz diese Datenfilterungsprozesse.

Am Ende enthielt der MINT-1T-Datensatz, den sie erhalten hatten, 922 Milliarden HTML-Tokens, 106 Milliarden PDF-Tokens und 9 Milliarden ArXiv-Tokens. Es ist erwähnenswert, dass der gesamte Datenverarbeitungsprozess etwa 4,2 Millionen CPU-Stunden verbrauchte. Tabelle 1 vergleicht einige gängige multimodale Open- oder Closed-Source-Datensätze.

Modellexperiment

Das Team experimentierte auch mit der Wirkung der Verwendung dieses Datensatzes zum Trainieren eines multimodalen Modells und verglich ihn mit anderen Datensätzen.

Die von ihnen verwendete Modellarchitektur ist Salesforces Zu den Bewertungsbenchmarks gehören: Benchmarks für visuelle Beschreibungen (COCO und TextCaps), Benchmarks für visuelle Fragen und Antworten (VQAv2, OK-VQA, TextVQA und VizWiz) und Benchmarks für das Denken mit mehreren Bildern (MMMU und Mantis-Eval).

Experimentelle Ergebnisse

Training zu HTML-Dokumenten

Das Team verglich zunächst den HTML-Teil von MINT-1T mit OBELICS; da OBELICS der bisher führende multimodale Datensatz ist und auch basiert Anhand von HTML-Dokumenten trainierten sie zwei Modelle mit 10 Milliarden multimodalen Token basierend auf diesen beiden Datensätzen und bewerteten ihre Kontextlernleistung.

Tabelle 2 gibt die 4-Schuss- und 8-Schuss-Leistung bei gängigen Benchmarks an.

Es ist ersichtlich, dass das auf MINT-1T-HTML-Dokumenten trainierte Modell bei der VQA-Aufgabe (visuelle Fragebeantwortung) eine bessere Leistung erbringt als das auf OBELICS trainierte Modell, ersteres jedoch bei der visuellen Beschreibungsaufgabe schlechter abschneidet. Im Durchschnitt ist OBELICS etwas besser als MINT-1T (HTML).

PDF- und ArXiv-Dokumente hinzufügen

Danach testete das Team den vollständigen MINT-1T-Datensatz, der gleichzeitig HTML-, PDF- und ArXiv-Dokumente enthält. Sie probieren typischerweise 10 Milliarden multimodale Token aus, 50 % aus HTML, 45 % aus PDF und 5 % aus ArXiv.

Die Ergebnisse sind auch in Tabelle 2 aufgeführt. Es ist ersichtlich, dass das auf MINT-1T-Mischdaten trainierte Modell bei den meisten Benchmarks das auf OBELICS und MINT-1T (HTML) trainierte Modell übertrifft.

Bei komplexeren multimodalen Argumentationsaufgaben ist das mit MINT-1T trainierte Modell besser als das mit OBELICS auf MMMU trainierte Modell, aber nicht so gut wie der Mantis-Eval-Benchmark letztere.

Weitere detaillierte Tests und die Auswirkungen der Modellarchitektur finden Sie im Originalpapier.

Kann dieser extrem große, multimodale Open-Source-Datensatz zum Ausgangspunkt einer Reihe von Legenden werden und schließlich eine multimodale große Modellreihe wie die Llama-Modellreihe schaffen? Warten wir ab.

Atas ialah kandungan terperinci Trilion token! Kelahiran set data multimodal terbesar dalam sejarah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!