Die Geburt von Cambrian No. 1: Das Team von Xie Saining und Yann LeCun veröffentlichte das leistungsstärkste multimodale Open-Source-LLM-KI-php.cn

Genau wie Tiere Augen haben, ermöglicht Cambrian-1 aus dem Team von Yann LeCun der KI, leistungsstarke Lernfähigkeiten für die visuelle Darstellung zu erlangen.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Im Laufe der Jahrhunderte haben sich viele Philosophen mit dieser Frage beschäftigt: Muss das Verständnis der Bedeutung von Sprache auf den Sinnen beruhen? Obwohl die Philosophen anderer Meinung sind, ist eines klar: Eine solide und wirksame sensorische Erdung kann zumindest helfen.

Zum Beispiel glauben Wissenschaftler im Allgemeinen, dass die Entstehung des Sehvermögens während der kambrischen Explosion ein entscheidender Schritt in der Evolution der frühen Tiere war. Dies hat den Tieren nicht nur dabei geholfen, besser Nahrung zu finden und Raubtieren auszuweichen, sondern auch die Entwicklung der Tiere selbst unterstützt. Tatsächlich wird das meiste Wissen beim Menschen (und bei fast allen Tieren) durch Sinneserfahrungen erworben, die mit dem Physischen interagieren, wie etwa Sehen, Hören, Berühren, Schmecken und Riechen. Diese Sinneserfahrungen sind die Grundlage für unser Verständnis der Welt um uns herum und sind der Schlüssel dazu, dass wir handeln und Entscheidungen treffen können.

Diese Ideen können nicht nur zur Erforschung philosophischer Konzepte verwendet werden, sondern haben auch praktischen Wert. Insbesondere die jüngste Entwicklung multimodaler großer Sprachmodelle (MLLM) hat das Lernen visueller Darstellungen und das Sprachverständnis in den Mittelpunkt der praktischen Anwendung gerückt. Sprachmodelle weisen ein sehr starkes Skalierungsverhalten auf, und die jüngsten Fortschritte beim multimodalen Lernen haben weitgehend von größeren und besseren LLMs profitiert.

Andererseits sind die Designoptionen für visuelle Komponenten immer noch nicht vollständig erforscht, und die Erkundung in diesem Bereich steht in gewissem Zusammenhang mit der Forschung zum Lernen visueller Repräsentation. Dies liegt vor allem daran, dass die Forschung in diesem Bereich sehr schwierig ist: MLLM umfasst komplexe Schulungs- und Bewertungsprozesse und es sind viele Designoptionen zu berücksichtigen.

Kürzlich erforschte das Team von Xie Saining und Yann LeCun von der New York University MLLM mit der Vision, diese Lücke zu schließen, und baute auf der Grundlage dieser Explorationsergebnisse auch die Modellreihe Cambrian-1 (Cambrian 1) auf. (Dieser Artikel hat drei Co-Autoren: Shengbang Tong, Ellis Brown und Penghao Wu.)

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Papiertitel: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
Papieradresse : https://arxiv.org/pdf/2406.16860
Website: https://cambrian-mllm.github.io
Code: https://github.com/cambrian-mllm/ cambrian
Modell: https://huggingface.co/nyu-visionx/
Daten: https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench: https:/ /huggingface.co/datasets/nyu-visionx/CV-Bench
Bewertung: https://github.com/cambrian-mllm/cambrian

Insbesondere optimieren sie den MLLM-Unterricht an einer Vielzahl visueller Elemente Es wurden Protokolle zur Repräsentationsbewertung erstellt, wie in Abbildung 1 dargestellt.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Das Team sagte: „Die Motivation für unsere Studie ergibt sich aus zwei potenziellen Problemen in der aktuellen multimodalen Lernforschung: 1) Übermäßiges und vorzeitiges Vertrauen in die Sprache, die eine Abkürzung darstellt, die effektives visuelles Lernen ausgleichen kann.“ Darstellung; 2) Bestehende Benchmarks bieten möglicherweise keine ausreichende Orientierung für reale Szenarien – visuelle Grundlagen sind für ein solides multimodales Verständnis von entscheidender Bedeutung Die Erdung wird zu einem Engpass bei der Anwendung von MLLM auf einige schwierige reale Anwendungen.

Aus einer anderen Perspektive betrachtet sind die traditionellen Bewertungsprotokolle für das Lernen visueller Darstellungen gesättigt und spiegeln nicht mehr die verschiedenen Wahrnehmungsherausforderungen wider, die in realen Verteilungen zu finden sind. Andererseits bietet die Verwendung einer Sprache in Form der visuellen Fragebeantwortung (VQA) ein flexibles und robustes Bewertungsprotokoll.

Das Ziel dieser Studie des Teams von Xie Saining und Yann LeCun besteht darin, dieses neue Protokolldesign zu untersuchen und neue Erkenntnisse zu gewinnen, um die zukünftige Entwicklung visueller Darstellungen zu steuern. Um visuelle Darstellungen in diesem umfassenden Umfeld besser bewerten zu können, entwickelten sie außerdem einen visionszentrierten MLLM-Benchmark CV-Bench, indem sie traditionelle Vision-Benchmarks in das VQA-Format konvertierten.

Cambrian-1 basiert auf fünf Grundpfeilern, von denen jede wichtige Einblicke in das Design von MLLM liefert:

Steckverbinderdesign : Sie haben einen neuen Konnektortyp entwickelt, der dynamisch und platzbewusst ist und visuelle Funktionen in LLM integrieren kann, während gleichzeitig die Anzahl der Token reduziert wird.
Daten zur Feinabstimmung von Anweisungen: Sie haben hochwertige visuelle Daten zur Feinabstimmung von Anweisungen auf der Grundlage öffentlicher Datenquellen zusammengestellt, wobei die Bedeutung der Verteilungsbalance besonders hervorgehoben wurde.
Rezepte zur Feinabstimmung des Unterrichts: Sie besprechen Strategien und praktische Maßnahmen zur Feinabstimmung des Unterrichts.
Benchmark-Bewertung: Sie analysierten bestehende MLLM-Benchmarks, teilten sie intuitiv in vier Gruppen ein und schlugen dann einen neuen, visionsorientierten Benchmark-CV-Bench vor.

Aufbauend auf diesen Säulen hat das Team die Modellreihe Cambrian-1 entwickelt, die bei mehreren Benchmarks führend ist und sich besonders gut für visionsorientierte Aufgaben eignet. Das Team veröffentlichte außerdem die Modellgewichte der Studie, den Open-Source-Code, Datensätze und detaillierte Pläne für das Modelltraining und die Modellbewertung.

Multimodale LLM-Grundlagen

Zu den Schlüsselkomponenten der MLLM-Forschung gehören große Sprachmodelle, visuelle Encoder, multimodale Konnektoren, Datenassemblierungsprozesse, Strategien zur Feinabstimmung von Anweisungen, Bewertung und Benchmarking. Spezifische Anweisungen und entsprechende Recherchen finden Sie im Originalpapier.

Bewertung visueller Darstellungen durch MLLM

Der derzeit in MLLM verwendete visuelle Encoder ist hauptsächlich CLIP, da er bereits vorab auf die Sprache abgestimmt ist und sich leicht an den LLM-Token-Raum anpassen lässt. Starke Sprachpriors können jedoch ein zweischneidiges Schwert sein: Sie können sowohl Defizite beim Erlernen effektiver visueller Darstellungen ausgleichen als auch die Erkenntnisse aus umfangreichen Untersuchungen zum Lernen visueller Darstellungen einschränken.

Das Team bewertete systematisch die Auswirkungen verschiedener visueller Encoder-Auswahlmöglichkeiten (siehe Abbildung 2) auf die multimodalen Fähigkeiten von MLLM.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Sie befürworten außerdem den Einsatz der MLLM-Bewertung als robusten Rahmen für die Bewertung visueller Darstellungsmethoden, um die vielfältigen Wahrnehmungsherausforderungen in realen Szenarien getreuer widerzuspiegeln und so Menschen besser bei der Entwicklung besserer visueller Darstellungen anzuleiten. Im Folgenden werden wir den Forschungsprozess und die Ergebnisse kurz vorstellen. Weitere Einzelheiten finden Sie im Originalpapier. Analyse-Benchmark Feinabstimmung der 737K-Anweisungen. Feinabstimmung des Connectors und des LLM gleichzeitig anhand der Daten.

Durch den Vergleich der Leistung des Modells mit oder ohne visuellen Input (siehe Abbildung 3) gelangte das Team zu den folgenden Erkenntnissen:

Ergebnis 1: Die meisten Benchmarks messen die visionszentrierten Fähigkeiten nicht genau, und bei einigen gibt es nur wenige Es gibt nur eine sehr kleine Anzahl von Benchmarks, mit denen diese Fähigkeiten gemessen werden können.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Cambrian Vision-Centric Benchmark (CV-Bench)

Um die Einschränkungen bestehender vision-zentrischer Benchmarks zu beseitigen, schlug das Team CV-Bench vor. Es enthält 2638 von Menschen untersuchte Proben, was weit mehr ist als andere visionäre MLLM-Benchmarks – 3,5-mal mehr als RealWorldQA und 8,8-mal mehr als MMVP.

Wie in Abbildung 4 und Tabelle 1 dargestellt, kann CV-Bench die 2D-Verständnisfähigkeit anhand räumlicher Beziehungen und Zielanzahlen bewerten und die 3D-Verständnisfähigkeit anhand der Tiefenordnung und der relativen Entfernung bewerten.

Ergebnis 2: Bestehende Vision-Benchmarks können effektiv für VQA-Aufgaben angepasst werden und ermöglichen so die Bewertung visionzentrierter MLLM-Fähigkeiten.

Anweisungs-Feinabstimmungsschema 寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

MLLM beginnt mit dem Vortraining von LLM und visuellem Backbone-Netzwerk und verbindet diese Module dann über Anschlüsse wie Projektoren (MLP). Das Team untersuchte verschiedene Schemata zur Feinabstimmung des Unterrichts durch umfangreiche Experimente und kam zu den folgenden Erkenntnissen.

Bezüglich der Wahl zwischen einstufigem Training und zweistufigem Training stellte das Team fest:

Ergebnis 3: Die Verwendung weiterer Adapterdaten kann die Ergebnisse weiter verbessern.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM Bezüglich der Frage, ob der visuelle Encoder eingefroren werden soll, stellte das Team fest:

Ergebnis 4: Es gibt viele Vorteile, den visuellen Encoder nicht einzufrieren. Sprachüberwachte Modelle sind immer von Vorteil; SSL-Modelle sind besonders bei visionszentrierten Benchmarks von Vorteil.

Verwendung von MLLM als Evaluator für visuelle Darstellungen

Das Team untersuchte die Verwendung von MLLM zur Bewertung visueller Darstellungen. Die Ergebnisse sind wie folgt:

Ergebnis 5: Hochauflösend Encoder können die Leistung bei grafik- oder visionszentrierten Benchmarks erheblich verbessern, und auf Faltungsnetzwerken basierende Architekturen sind für solche Aufgaben ideal geeignet.

Sie untersuchten auch, ob eine kontinuierliche Feinabstimmung von MLLM auf der Grundlage des selbstüberwachten Modells eine ähnliche Leistung wie das sprachüberwachte Modell erzielen kann. Die Ergebnisse sind in Abbildung 7 dargestellt.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Ergebnis 6: Die Sprachüberwachung hat große Vorteile, aber solange genügend Daten und entsprechende Feinabstimmung vorhanden sind, kann die Leistungslücke durch SSL-Methoden verringert werden.

Kombinieren Sie mehrere visuelle Encoder

Das Team untersuchte auch die Möglichkeit, mehrere visuelle Encoder zu kombinieren, um ein leistungsfähigeres MLLM zu erstellen. Die Ergebnisse sind in Tabelle 3 aufgeführt.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Ergebnis 7: Die Kombination mehrerer visueller Encoder (einschließlich visueller SSL-Modelle) verbessert die MLLM-Leistung bei einer Vielzahl unterschiedlicher Benchmarks, insbesondere bei visionszentrierten Aufgaben.

Spatial Vision Aggregator (SVA): Ein neues Design von Konnektoren

Um Merkmale mehrerer visueller Encoder effektiv zu aggregieren und Informationsverluste durch Interpolation zu verhindern, verwendeten sie einen lernbaren Satz impliziter Abfragen, die mit mehreren visuellen Merkmalen interagieren können durch Queraufmerksamkeitsebenen.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Der neue Ansatz integriert insbesondere zwei neue visionszentrierte Designprinzipien:

Führt eine räumliche Induktionsverzerrung ein, indem der Aggregationsraum für jedes Token in der Abfrage explizit definiert wird.
Durch die mehrfache Aggregation visueller Funktionen über LLM-Ebenen hinweg kann das Modell wiederholt auf notwendige visuelle Informationen zugreifen und diese integrieren.

Diese neue Konstruktionsmethode kann sich flexibel an mehrere visuelle Encoder mit unterschiedlichen Funktionsauflösungen anpassen und gleichzeitig die räumliche Struktur der visuellen Daten während der Aggregation und Integration mit LLM beibehalten.

Mit einer Kombination der besten Vision-Modelle aus dem vorherigen Abschnitt und einem Vicuna-1.5-7B-Basis-LLM demonstrierte das Team den Nutzen des SVA-Moduls.

Tabelle 4 zeigt: SVA übertrifft die beiden kontrastierenden Techniken in allen Benchmark-Kategorien, mit enormen Verbesserungen bei OCR und tabellarischen Kategorien (die ein Verständnis der hochauflösenden Funktionen erfordern).

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Sie gingen noch einen Schritt weiter und führten Ablationsexperimente basierend auf der Kombination von OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 durch. Die Ergebnisse sind in Tabelle 5 dargestellt.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Ergebnis 8: Räumliche Induktionsverzerrung und tiefe Interaktion zwischen LLM und visuellen Merkmalen tragen dazu bei, visuelle Merkmale besser zu aggregieren und zu verdichten.

Anweisungs-Feinabstimmungsdaten für das Training von MLLM

Datenerfassung

Sammeln von Anweisungen-Feinabstimmungsdaten aus vorhandenen Datenquellen:

Das Team verwendete sowohl multimodale Benchmarks als auch Datensätze mit visuellen Interaktionsdaten (z. B , Visual Question Answering (VQA) und OCR-Daten) wurde auch eine kleine Menge hochwertiger Daten zur Einhaltung reiner Sprachanweisungen gesammelt. Sie haben die Daten auch in verschiedene Kategorien unterteilt: allgemeine Konversations-, OCR-, Zähl-, Codierungs-, Mathematik-, Naturwissenschafts- und reine Sprachdaten. Abbildung 9 zeigt die Datenquelle.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Gezielte Internet-Datenerfassungsmaschine: Wie in Abbildung 9 dargestellt, ist die Datenverteilung unausgewogen.

Um umfangreiche, zuverlässige und qualitativ hochwertige wissensbasierte Daten zur Feinabstimmung von Anweisungen zu erstellen, schlug das Team eine Daten-Engine vor. Die Engine kann eine Zieldomäne und eine Unterdomäne (z. B. Physik) auswählen und dann ein LLM wie GPT-4 verwenden, um Themen zu identifizieren (z. B. Newtons Gesetze). Anschließend werden für jedes Thema zuverlässige Informationsquellen wie Wikipedia durchsucht. Das Team stellte fest, dass die aus Wikipedia extrahierten Bild-Text-Paare von hoher Qualität waren.

Danach extrahierte das Team mithilfe eines Parsers die Tupel der Bildbeschreibung und leitete den Beschreibungstext dann an ein LLM wie GPT-3.5 weiter, um durch sorgfältig gestaltete Eingabeaufforderungen befehlsartige Frage- und Antwortpaare zum Bild zu generieren . . Diese Frage-Antwort-Paare und Bilder bilden ihren VQA-Datensatz.

Cambrian-10M: Sie haben einen großen Datenpool zur Feinabstimmung von Anweisungen erstellt und ihn Cambrian-10M genannt, der etwa 9784.000 Datenpunkte enthält. Abbildung 9 zeigt seine Zusammensetzung.

Datenreorganisation

Um die Datenbalance zu verbessern und den Datenanteil anzupassen (siehe Abbildungen 10 und 11), hat das Team Cambrian-10M neu organisiert.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Endlich habe ich einen kleineren, aber qualitativ hochwertigeren Datensatz Cambrian-7M erhalten. Die Tabellen 6 und 7 veranschaulichen den Vorteil der Neuorganisation der Befehlsdaten: Obwohl es in Cambrian-7M weniger Stichproben gibt, ist die resultierende Leistung besser.

Erleichtern Sie das „Anrufbeantworter-Phänomen“ durch Systemansagen

Sie untersuchten auch das sogenannte Antwortmaschinen-Phänomen. Sie stellten fest, dass ein gut ausgebildeter MLLM den VQA-Benchmark zwar gut bewältigen kann, ihm aber grundlegende Konversationsfähigkeiten fehlen und er standardmäßig kurze, gestelzte Antworten ausgibt. Der Grund dafür ist, dass die Antworten, die bei Benchmark-Fragen erforderlich sind, im Gegensatz zu allgemeineren und realistischeren Anwendungsfällen oft auf eine einzige Option oder ein einzelnes Wort beschränkt sind. Ähnliche Phänomene wurden in anderen LLM-Studien beobachtet.

Sie spekulieren, dass die Ursache dieses Problems darin liegt, dass die Befehlsfeinabstimmungsdaten zu viele VQA-Aufgaben mit kurzer Antwortzeit enthalten, was zu katastrophalem Vergessen im LLM führen kann.

Um dieses Problem zu lösen, hat das Team während des Trainings zusätzliche Systemansagen integriert. Fügen Sie beispielsweise bei Fragen, die ein einzelnes Wort oder eine einzelne Phrase in der Antwort generieren, etwas wie „Verwenden Sie ein einzelnes Wort oder eine einzelne Phrase zur Beantwortung dieser Frage“ in die Eingabeaufforderung ein. Es wurde festgestellt, dass eine solche Systemaufforderung die Konversationsfähigkeiten des Modells erheblich verbessern und gleichzeitig seine Grundleistung aufrechterhalten kann. Abbildung 12 zeigt ein Beispiel.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Darüber hinaus kann die Systemaufforderung auch die Argumentationsfähigkeit verbessern, indem sie das Modell dazu ermutigt, Denkketten zu verwenden.

Beste Leistung bisher

Schließlich trainierte das Team mithilfe der während der explorativen Studie gewonnenen Erkenntnisse eine neue Familie von MLLM-Modellen: Cambrian-1. Sie trainierten die Modelle mithilfe von LLM-Backbone-Netzwerken unterschiedlicher Größe: LLaMA-3-Instruct-8B, Vicuna-1.5-13B, Hermes-2-Yi-34B.

Ihre Vision-Komponente kombiniert 4 Modelle durch den Spatial Vision Aggregator (SVA): OpenAI CLIP ViT-L/14@336, SigLIP ViT-SO400M/14@384, OpenCLIP ConvNeXt-XXL@1024, DINOv2 ViT-L /14@ 518. Sie trainierten den Konnektor vorab mithilfe von 2,5M-Adapterdaten und optimierten ihn dann mithilfe der Cambrian-7M-Datenmischung.

Tabelle 8 und Abbildung 13 geben die Bewertungsergebnisse des Modells wieder.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Wie Sie sehen können, übertrifft Cambrian-1 Open-Source-Modelle wie LLaVA-NeXT und Mini-Gemini. Dank SVA kann Cambrian-1 auch Aufgaben, die eine hochauflösende Bildverarbeitung erfordern, sehr gut bewältigen, selbst wenn nur 576 Bild-Tokens verwendet werden, was nur etwa einem Drittel der Anzahl der von LLaVA-NeXT und Mini-Gemini 5 verwendeten Tokens entspricht.

Cambrian-1 erreicht bei mehreren Benchmarks auch eine vergleichbare Leistung wie die besten proprietären Modelle wie GPT-4V, Gemini-Pro und MM-1.

Abbildung 14 zeigt einige Beispiele. Sie können sehen, dass Cambrian-1 zwar nur 576 Token verwendet, aber effektiv auf die Details im Bild achten kann.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Darüber hinaus lässt sich an der Namensgebung von Cambrian-1 erkennen, dass es sich um ein ambitioniertes Team handelt. Freuen wir uns auf das nächste Generations-Upgrade dieser Modellreihe.

Das obige ist der detaillierte Inhalt vonDie Geburt von Cambrian No. 1: Das Team von Xie Saining und Yann LeCun veröffentlichte das leistungsstärkste multimodale Open-Source-LLM. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!