Nachdem das Alibaba-Team einen zweistündigen Film in 4 Sekunden gesehen hatte, wurde die neue Errungenschaft offiziell vorgestellt:
das allgemeine multimodale Großmodell mPLUG-Owl3, das speziell zum Verstehen mehrerer Bilder und langer Videos verwendet wird.
Konkret reduzierte mPLUG-Owl3 mit LLaVA-Next-Interleave als Benchmark die Latenz des ersten Tokens des Modells um das Sechsfache und die Anzahl der Bilder, die von einem einzelnen A100 modelliert werden können, erhöhte sich um das Achtfache. Erreichen von 400 Mit nur einem Bild können Sie einen 2-stündigen Film in nur 4 Sekunden ansehen.
Mit anderen Worten, die Argumentationseffizienz des Modells wurde erheblich verbessert.
Und ohne Einbußen bei der Genauigkeit des Modells.
mPLUG-Owl3 erreicht SOTA auch in verschiedenen Szenarien mit multimodalen großen Modellen, einschließlich Einzelbild-, Mehrbild- und Videofeldern.
Der Autor des Papiers ist vom Alibaba mPLUG-Team. Sie haben sich intensiv mit multimodalen großen Modellbasen beschäftigt. Zuvor haben sie auch Folgendes vorgeschlagen:
Effiziente multimodale Basis-mPLUG-Serie
Modulare Multi -Modal Large Language Model Base mPLUG -Owl Series
Document Understanding Base mPLUG-DocOwl Series
Lassen Sie uns herausfinden, welche schwarze Technologie diese Version von mPLUG-Owl3 mit sich bringt.
Gameplay Unlock
Das Team demonstrierte mehrere häufige Einsatzmöglichkeiten von mPLUG-Owl3.
Multimodale Abrufverbesserung
Im Allgemeinen ist es eine gängige Praxis, das Wissen, das das Modell nicht gelernt hat, durch das Abrufsystem zu ergänzen. Dies erfordert, dass das Modell das eingehende multimodale Wissen genau versteht und es zur Beantwortung von Fragen verwendet.
Im folgenden Beispiel kann mPLUG-Owl3 nicht nur basierend auf dem abgerufenen Wissen richtig reagieren, sondern auch eine Beurteilung basierend auf dem Wissen, auf dem es basiert, abgeben und eine detaillierte Grundlage für die Beurteilung liefern. Dies ist für das nachgelagerte F&E-Personal für Entwicklung und Fehlerbehebung sehr hilfreich.
Abrufbereich: Hier sind mehrere multimodale Informationen abgerufen, damit Sie eine Entscheidung treffen können.
Frage: Können Sie den Hund auf Bild 5 anhand Ihrer Beobachtungen zu den vier Hundefotos oben einordnen? Geben Sie Gründe an.
Antwort: Aufgrund der Beobachtungen der vier Hundefotos kann der Hund auf Bild 5 als Irish Terrier eingestuft werden. Der Hund in Bild 1 wird als Irish Terrier beschrieben, und der Hund in Bild 5 hat ähnliche körperliche Merkmale wie der Hund in Bild 1...
Mehrbild-Argumentation
Das passiert oft in der Lebenssituation -
Viele Benutzer führen Gespräche nicht nur über ein Bild, sondern der Benutzer verfügt möglicherweise über mehrere Materialien, und das Modell muss in der Lage sein, die Beziehung zwischen den Inhalten in verschiedenen Materialien richtig zu verstehen.
Im folgenden Beispiel kann mPLUG-Owl3 das gesunde Menschenverstandswissen des Sprachmodells durch das, was es in zwei Bildern sieht, aktivieren und Rückschlüsse auf die beiden Bilder ziehen.
Frage: Kann das Tier links in der Umgebung rechts überleben? Antworten und Erklärungen sind erforderlich.
Antwort (die richtige Antwort ist grün markiert): Die allgemeine Idee ist, dass es nicht überleben kann, weil die Umgebung zu kalt ist.
In einem anderen Beispiel kann mPLUG-Owl3 nicht nur den Stilunterschied zwischen zwei Bildern erkennen, sondern auch erkennen, dass die Charaktere in den beiden Bildern zwar unterschiedliche Stile haben, es sich aber tatsächlich um denselben Charakter handelt.
Erste Frage: Welche Kunststile sind auf den Bildern dargestellt und wie unterscheiden sie sich?
Antwort: Das erste Bild ist im Pixelstil, das zweite Bild ist im Cartoon-Stil... (Geben Sie den Grund an)
Zweite Frage: Wer erscheint auf beiden Bildern? Was sind ihre Merkmale?
Antwort: Auf beiden Gemälden erscheint ein Mann mit Cowboyhut, und er wird in zwei verschiedenen Stilen dargestellt.
Verstehen langer Videos
Das Ansehen ultralanger Videos ist eine Aufgabe, die die meisten aktuellen Modelle nicht durchgängig bewältigen können. Wenn sie auf dem Agent-Framework basiert, ist es schwierig, die Reaktionsgeschwindigkeit zu garantieren.
mPLUG-Owl3 kann in 4 Sekunden einen 2-stündigen Film ansehen und mit der Beantwortung von Benutzerfragen beginnen.
Ob Benutzer am Anfang, in der Mitte oder am Ende des Films Fragen zu sehr detaillierten Clips stellen, mPLUG-Owl3 kann diese flüssig beantworten.
Wie hast du es gemacht?
Im Gegensatz zu herkömmlichen Modellen muss mPLUG-Owl3 die visuelle Sequenz nicht im Voraus in die Textsequenz des Sprachmodells einfügen.
Mit anderen Worten: Egal was eingegeben wird (Dutzende Bilder oder Stunden Video), es belegt nicht die Sequenzkapazität des Sprachmodells, wodurch der enorme Rechenaufwand und die Videospeichernutzung vermieden werden, die durch lange visuelle Sequenzen verursacht werden.
Manche Leute fragen sich vielleicht: Wie werden visuelle Informationen in das Sprachmodell integriert?
Um dies zu erreichen, schlug das Team ein leichtes Hyper-Attention-Modul vor, das einen vorhandenen Transformer-Block, der nur Text modellieren kann, zu einem Block erweitern kann, der sowohl Grafik- als auch Text-Feature-Interaktion und Textkonstruktion durchführen kann.
Durch die spärliche Erweiterung von 4 Transformer-Blöcken über das gesamte Sprachmodell kann mPLUG-Owl3 LLM zu sehr geringen Kosten auf multimodales LLM aktualisieren.
Nachdem die visuellen Merkmale aus dem visuellen Encoder extrahiert wurden, werden die Dimensionen durch eine einfache lineare Zuordnung an die Dimensionen des Sprachmodells angepasst.
Anschließend interagieren die visuellen Funktionen nur mit dem Text in diesen 4 Ebenen des Transformer Blocks. Da das visuelle Token keiner Komprimierung unterzogen wurde, können feinkörnige Informationen erhalten bleiben.
Werfen wir einen Blick darauf, wie Hyper Attention konzipiert ist.
Hyperaufmerksamkeit Damit das Sprachmodell visuelle Merkmale wahrnehmen kann, wird eine Cross-Attention-Operation eingeführt, bei der die visuellen Merkmale als Schlüssel und Wert verwendet werden und der verborgene Zustand des Sprachmodells als Abfrage zum Extrahieren der visuellen Merkmale verwendet wird.
In den letzten Jahren wurde auch in anderen Forschungen über die Verwendung von Cross-Attention für die multimodale Fusion nachgedacht, beispielsweise Flamingo und IDEFICS, aber diese Arbeiten erzielten keine gute Leistung.
Im technischen Bericht von mPLUG-Owl3 verglich das Team das Design von Flamingo, um die wichtigsten technischen Punkte von Hyper Attention näher zu erläutern:
Erstens übernimmt Hyper Attention nicht das Design von Cross-Attention und Selbstaufmerksamkeitskaskaden, jedoch eingebettet in den Selbstaufmerksamkeitsblock.
Sein Vorteil besteht darin, dass die Anzahl der zusätzlich eingeführten neuen Parameter erheblich reduziert wird, wodurch das Modell einfacher zu trainieren ist und die Trainings- und Inferenzeffizienz weiter verbessert werden kann.
Zweitens wählt Hyper Attention LayerNorm, das das Sprachmodell teilt, da die von LayerNorm ausgegebene Verteilung genau die Verteilung ist, für deren Stabilisierung die Aufmerksamkeitsschicht trainiert wurde. Die gemeinsame Nutzung dieser Ebene ist entscheidend für das stabile Lernen der neu eingeführten Cross-Attention.
Tatsächlich verfolgt Hyper Attention eine parallele Cross-Attention- und Self-Attention-Strategie, indem es eine gemeinsame Abfrage zur Interaktion mit visuellen Merkmalen verwendet und die beiden Merkmale durch ein Adaptive Gate zusammenführt.
Dadurch kann Query basierend auf seiner eigenen Semantik selektiv damit verbundene visuelle Funktionen auswählen.
Das Team stellte fest, dass die relative Position des Bildes und des Textes im Originalkontext für das Modell sehr wichtig ist, um multimodale Eingaben besser zu verstehen.
Um diese Eigenschaft zu modellieren, führten sie ein multimodales verschachteltes Rotationspositionskodierungssystem MI-Rope ein, um Positionsinformationen für den visuellen Schlüssel zu modellieren.
Konkret haben sie die Positionsinformationen jedes Bildes im Originaltext vorab aufgezeichnet und verwenden diese Position, um die entsprechende Seileinbettung zu berechnen, und jeder Patch desselben Bildes teilt diese Einbettung.
Darüber hinaus haben sie auch die Aufmerksamkeitsmaske in Cross-Attention eingeführt, sodass der Text vor dem Bild im ursprünglichen Kontext die den nachfolgenden Bildern entsprechenden Merkmale nicht sehen kann.
Zusammenfassend lässt sich sagen, dass diese Designpunkte von Hyper Attention zu weiteren Effizienzsteigerungen bei mPLUG-Owl3 geführt haben und dafür gesorgt haben, dass es weiterhin über erstklassige multimodale Fähigkeiten verfügen kann.
Experimentelle Ergebnisse
Durch die Durchführung von Experimenten mit einer Vielzahl von Datensätzen kann mPLUG-Owl3 in den meisten multimodalen Einzelbild-Benchmarks SOTA-Ergebnisse erzielen und in vielen Tests sogar solche mit größeren Modellgrößen übertreffen .
Gleichzeitig übertraf mPLUG-Owl3 in der Multi-Image-Bewertung auch LLAVA-Next-Interleave und Mantis, die speziell für Multi-Image-Szenarien optimiert sind.
Darüber hinaus übertrifft es bestehende Modelle auf LongVideoBench (52,1 Punkte), einer Liste, die speziell das Verständnis des Modells für lange Videos bewertet.
Das Forschungs- und Entwicklungsteam schlug außerdem eine interessante Methode zur Bewertung langer visueller Sequenzen vor.
Wie wir alle wissen, werden in realen Mensch-Computer-Interaktionsszenarien nicht alle Bilder mit multimodalen Inhalten gefüllt, die für das Problem irrelevant sind. Je länger die Sequenz ist, desto schwerwiegender ist dieses Phänomen Ist.
Um die Anti-Interferenz-Fähigkeit des Modells bei der Eingabe langer visueller Sequenzen zu bewerten, erstellten sie einen neuen Bewertungsdatensatz basierend auf MMBench-dev.
Fügen Sie für jedes MMBench-Zyklus-Bewertungsbeispiel irrelevante Bilder ein, unterbrechen Sie die Reihenfolge der Bilder und stellen Sie dann Fragen zu den Originalbildern, um zu sehen, ob das Modell korrekt und stabil reagieren kann. (Für die gleiche Frage werden 4 Stichproben mit unterschiedlicher Reihenfolge der Optionen und Interferenzbilder erstellt und nur eine richtige Antwort wird aufgezeichnet, wenn alle Antworten richtig sind.)
Das Experiment ist entsprechend der Anzahl der Eingaben in mehrere Ebenen unterteilt Bilder.
Es ist ersichtlich, dass Modelle ohne Multi-Graph-Training wie Qwen-VL und mPLUG-Owl2 schnell scheiterten.
LLAVA-Next-Interleave und Mantis, die auf mehreren Bildern trainiert wurden, können zu Beginn eine ähnliche Abklingkurve wie mPLUG-Owl3 beibehalten, aber wenn die Anzahl der Bilder das Niveau von 50 erreicht, ist dies bei diesen Modellen möglich nicht mehr richtig beantwortet.
Und mPLUG-Owl3 kann selbst bei 400 Bildern eine Genauigkeit von 40 % beibehalten.
Eines lässt sich jedoch sagen: Obwohl mPLUG-Owl3 bestehende Modelle übertrifft, ist seine Genauigkeit bei weitem nicht ausgezeichnet. Man kann nur sagen, dass diese Bewertungsmethode die Anti-Interferenz-Fähigkeit aller Modelle bei langen Sequenzen offenbart muss in Zukunft weiter verbessert werden.
Weitere Einzelheiten finden Sie im Dokument und im Code.
Papier: https://arxiv.org/abs/2408.04840
Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
Demo (Umarmungsgesicht): https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo (Magic Community): https://modelscope.cn/studios/iic/mPLUG-Owl3
7B-Modell (umarmendes Gesicht): https:/ /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
7B-Modell (Magic Community) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
– Ende –
Bitte senden eine E-Mail an:
ai@qbitai.com
Geben Sie den Titel an und sagen Sie uns:
Wer sind Sie, woher kommen Sie, den Inhalt Ihrer Einreichung
Fügen Sie den Link zur Homepage des Beitrags/Projekts hinzu und nehmen Sie Kontakt auf Informationen
Wir werden Ihnen (so weit wie möglich) rechtzeitig antworten
Klicken Sie hier, um mir zu folgen und denken Sie daran, ~
„Teilen“, „Gefällt mir“ und „Ansehen“ mit drei Klicks zu markieren
Wir sehen uns jeden Tag für den bahnbrechenden Fortschritt von Wissenschaft und Technik ~
Das obige ist der detaillierte Inhalt vonSehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!