


Sehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3
Nachdem das Alibaba-Team einen zweistündigen Film in 4 Sekunden gesehen hatte, wurde die neue Errungenschaft offiziell vorgestellt:
das allgemeine multimodale Großmodell mPLUG-Owl3, das speziell zum Verstehen mehrerer Bilder und langer Videos verwendet wird.
Konkret reduzierte mPLUG-Owl3 mit LLaVA-Next-Interleave als Benchmark die Latenz des ersten Tokens des Modells um das Sechsfache und die Anzahl der Bilder, die von einem einzelnen A100 modelliert werden können, erhöhte sich um das Achtfache. Erreichen von 400 Mit nur einem Bild können Sie einen 2-stündigen Film in nur 4 Sekunden ansehen.
Mit anderen Worten, die Argumentationseffizienz des Modells wurde erheblich verbessert.
Und ohne Einbußen bei der Genauigkeit des Modells.
mPLUG-Owl3 erreicht SOTA auch in verschiedenen Szenarien mit multimodalen großen Modellen, einschließlich Einzelbild-, Mehrbild- und Videofeldern.
Der Autor des Papiers ist vom Alibaba mPLUG-Team. Sie haben sich intensiv mit multimodalen großen Modellbasen beschäftigt. Zuvor haben sie auch Folgendes vorgeschlagen:
Effiziente multimodale Basis-mPLUG-Serie
Modulare Multi -Modal Large Language Model Base mPLUG -Owl Series
Document Understanding Base mPLUG-DocOwl Series
Lassen Sie uns herausfinden, welche schwarze Technologie diese Version von mPLUG-Owl3 mit sich bringt.
Gameplay Unlock
Das Team demonstrierte mehrere häufige Einsatzmöglichkeiten von mPLUG-Owl3.
Multimodale Abrufverbesserung
Im Allgemeinen ist es eine gängige Praxis, das Wissen, das das Modell nicht gelernt hat, durch das Abrufsystem zu ergänzen. Dies erfordert, dass das Modell das eingehende multimodale Wissen genau versteht und es zur Beantwortung von Fragen verwendet.
Im folgenden Beispiel kann mPLUG-Owl3 nicht nur basierend auf dem abgerufenen Wissen richtig reagieren, sondern auch eine Beurteilung basierend auf dem Wissen, auf dem es basiert, abgeben und eine detaillierte Grundlage für die Beurteilung liefern. Dies ist für das nachgelagerte F&E-Personal für Entwicklung und Fehlerbehebung sehr hilfreich.
Abrufbereich: Hier sind mehrere multimodale Informationen abgerufen, damit Sie eine Entscheidung treffen können.
Frage: Können Sie den Hund auf Bild 5 anhand Ihrer Beobachtungen zu den vier Hundefotos oben einordnen? Geben Sie Gründe an.
Antwort: Aufgrund der Beobachtungen der vier Hundefotos kann der Hund auf Bild 5 als Irish Terrier eingestuft werden. Der Hund in Bild 1 wird als Irish Terrier beschrieben, und der Hund in Bild 5 hat ähnliche körperliche Merkmale wie der Hund in Bild 1...
Mehrbild-Argumentation
Das passiert oft in der Lebenssituation -
Viele Benutzer führen Gespräche nicht nur über ein Bild, sondern der Benutzer verfügt möglicherweise über mehrere Materialien, und das Modell muss in der Lage sein, die Beziehung zwischen den Inhalten in verschiedenen Materialien richtig zu verstehen.
Im folgenden Beispiel kann mPLUG-Owl3 das gesunde Menschenverstandswissen des Sprachmodells durch das, was es in zwei Bildern sieht, aktivieren und Rückschlüsse auf die beiden Bilder ziehen.
Frage: Kann das Tier links in der Umgebung rechts überleben? Antworten und Erklärungen sind erforderlich.
Antwort (die richtige Antwort ist grün markiert): Die allgemeine Idee ist, dass es nicht überleben kann, weil die Umgebung zu kalt ist.
In einem anderen Beispiel kann mPLUG-Owl3 nicht nur den Stilunterschied zwischen zwei Bildern erkennen, sondern auch erkennen, dass die Charaktere in den beiden Bildern zwar unterschiedliche Stile haben, es sich aber tatsächlich um denselben Charakter handelt.
Erste Frage: Welche Kunststile sind auf den Bildern dargestellt und wie unterscheiden sie sich?
Antwort: Das erste Bild ist im Pixelstil, das zweite Bild ist im Cartoon-Stil... (Geben Sie den Grund an)
Zweite Frage: Wer erscheint auf beiden Bildern? Was sind ihre Merkmale?
Antwort: Auf beiden Gemälden erscheint ein Mann mit Cowboyhut, und er wird in zwei verschiedenen Stilen dargestellt.
Verstehen langer Videos
Das Ansehen ultralanger Videos ist eine Aufgabe, die die meisten aktuellen Modelle nicht durchgängig bewältigen können. Wenn sie auf dem Agent-Framework basiert, ist es schwierig, die Reaktionsgeschwindigkeit zu garantieren.
mPLUG-Owl3 kann in 4 Sekunden einen 2-stündigen Film ansehen und mit der Beantwortung von Benutzerfragen beginnen.
Ob Benutzer am Anfang, in der Mitte oder am Ende des Films Fragen zu sehr detaillierten Clips stellen, mPLUG-Owl3 kann diese flüssig beantworten.
Wie hast du es gemacht?
Im Gegensatz zu herkömmlichen Modellen muss mPLUG-Owl3 die visuelle Sequenz nicht im Voraus in die Textsequenz des Sprachmodells einfügen.
Mit anderen Worten: Egal was eingegeben wird (Dutzende Bilder oder Stunden Video), es belegt nicht die Sequenzkapazität des Sprachmodells, wodurch der enorme Rechenaufwand und die Videospeichernutzung vermieden werden, die durch lange visuelle Sequenzen verursacht werden.
Manche Leute fragen sich vielleicht: Wie werden visuelle Informationen in das Sprachmodell integriert?
Um dies zu erreichen, schlug das Team ein leichtes Hyper-Attention-Modul vor, das einen vorhandenen Transformer-Block, der nur Text modellieren kann, zu einem Block erweitern kann, der sowohl Grafik- als auch Text-Feature-Interaktion und Textkonstruktion durchführen kann.
Durch die spärliche Erweiterung von 4 Transformer-Blöcken über das gesamte Sprachmodell kann mPLUG-Owl3 LLM zu sehr geringen Kosten auf multimodales LLM aktualisieren.
Nachdem die visuellen Merkmale aus dem visuellen Encoder extrahiert wurden, werden die Dimensionen durch eine einfache lineare Zuordnung an die Dimensionen des Sprachmodells angepasst.
Anschließend interagieren die visuellen Funktionen nur mit dem Text in diesen 4 Ebenen des Transformer Blocks. Da das visuelle Token keiner Komprimierung unterzogen wurde, können feinkörnige Informationen erhalten bleiben.
Werfen wir einen Blick darauf, wie Hyper Attention konzipiert ist.
Hyperaufmerksamkeit Damit das Sprachmodell visuelle Merkmale wahrnehmen kann, wird eine Cross-Attention-Operation eingeführt, bei der die visuellen Merkmale als Schlüssel und Wert verwendet werden und der verborgene Zustand des Sprachmodells als Abfrage zum Extrahieren der visuellen Merkmale verwendet wird.
In den letzten Jahren wurde auch in anderen Forschungen über die Verwendung von Cross-Attention für die multimodale Fusion nachgedacht, beispielsweise Flamingo und IDEFICS, aber diese Arbeiten erzielten keine gute Leistung.
Im technischen Bericht von mPLUG-Owl3 verglich das Team das Design von Flamingo, um die wichtigsten technischen Punkte von Hyper Attention näher zu erläutern:
Erstens übernimmt Hyper Attention nicht das Design von Cross-Attention und Selbstaufmerksamkeitskaskaden, jedoch eingebettet in den Selbstaufmerksamkeitsblock.
Sein Vorteil besteht darin, dass die Anzahl der zusätzlich eingeführten neuen Parameter erheblich reduziert wird, wodurch das Modell einfacher zu trainieren ist und die Trainings- und Inferenzeffizienz weiter verbessert werden kann.
Zweitens wählt Hyper Attention LayerNorm, das das Sprachmodell teilt, da die von LayerNorm ausgegebene Verteilung genau die Verteilung ist, für deren Stabilisierung die Aufmerksamkeitsschicht trainiert wurde. Die gemeinsame Nutzung dieser Ebene ist entscheidend für das stabile Lernen der neu eingeführten Cross-Attention.
Tatsächlich verfolgt Hyper Attention eine parallele Cross-Attention- und Self-Attention-Strategie, indem es eine gemeinsame Abfrage zur Interaktion mit visuellen Merkmalen verwendet und die beiden Merkmale durch ein Adaptive Gate zusammenführt.
Dadurch kann Query basierend auf seiner eigenen Semantik selektiv damit verbundene visuelle Funktionen auswählen.
Das Team stellte fest, dass die relative Position des Bildes und des Textes im Originalkontext für das Modell sehr wichtig ist, um multimodale Eingaben besser zu verstehen.
Um diese Eigenschaft zu modellieren, führten sie ein multimodales verschachteltes Rotationspositionskodierungssystem MI-Rope ein, um Positionsinformationen für den visuellen Schlüssel zu modellieren.
Konkret haben sie die Positionsinformationen jedes Bildes im Originaltext vorab aufgezeichnet und verwenden diese Position, um die entsprechende Seileinbettung zu berechnen, und jeder Patch desselben Bildes teilt diese Einbettung.
Darüber hinaus haben sie auch die Aufmerksamkeitsmaske in Cross-Attention eingeführt, sodass der Text vor dem Bild im ursprünglichen Kontext die den nachfolgenden Bildern entsprechenden Merkmale nicht sehen kann.
Zusammenfassend lässt sich sagen, dass diese Designpunkte von Hyper Attention zu weiteren Effizienzsteigerungen bei mPLUG-Owl3 geführt haben und dafür gesorgt haben, dass es weiterhin über erstklassige multimodale Fähigkeiten verfügen kann.
Experimentelle Ergebnisse
Durch die Durchführung von Experimenten mit einer Vielzahl von Datensätzen kann mPLUG-Owl3 in den meisten multimodalen Einzelbild-Benchmarks SOTA-Ergebnisse erzielen und in vielen Tests sogar solche mit größeren Modellgrößen übertreffen .
Gleichzeitig übertraf mPLUG-Owl3 in der Multi-Image-Bewertung auch LLAVA-Next-Interleave und Mantis, die speziell für Multi-Image-Szenarien optimiert sind.
Darüber hinaus übertrifft es bestehende Modelle auf LongVideoBench (52,1 Punkte), einer Liste, die speziell das Verständnis des Modells für lange Videos bewertet.
Das Forschungs- und Entwicklungsteam schlug außerdem eine interessante Methode zur Bewertung langer visueller Sequenzen vor.
Wie wir alle wissen, werden in realen Mensch-Computer-Interaktionsszenarien nicht alle Bilder mit multimodalen Inhalten gefüllt, die für das Problem irrelevant sind. Je länger die Sequenz ist, desto schwerwiegender ist dieses Phänomen Ist.
Um die Anti-Interferenz-Fähigkeit des Modells bei der Eingabe langer visueller Sequenzen zu bewerten, erstellten sie einen neuen Bewertungsdatensatz basierend auf MMBench-dev.
Fügen Sie für jedes MMBench-Zyklus-Bewertungsbeispiel irrelevante Bilder ein, unterbrechen Sie die Reihenfolge der Bilder und stellen Sie dann Fragen zu den Originalbildern, um zu sehen, ob das Modell korrekt und stabil reagieren kann. (Für die gleiche Frage werden 4 Stichproben mit unterschiedlicher Reihenfolge der Optionen und Interferenzbilder erstellt und nur eine richtige Antwort wird aufgezeichnet, wenn alle Antworten richtig sind.)
Das Experiment ist entsprechend der Anzahl der Eingaben in mehrere Ebenen unterteilt Bilder.
Es ist ersichtlich, dass Modelle ohne Multi-Graph-Training wie Qwen-VL und mPLUG-Owl2 schnell scheiterten.
LLAVA-Next-Interleave und Mantis, die auf mehreren Bildern trainiert wurden, können zu Beginn eine ähnliche Abklingkurve wie mPLUG-Owl3 beibehalten, aber wenn die Anzahl der Bilder das Niveau von 50 erreicht, ist dies bei diesen Modellen möglich nicht mehr richtig beantwortet.
Und mPLUG-Owl3 kann selbst bei 400 Bildern eine Genauigkeit von 40 % beibehalten.
Eines lässt sich jedoch sagen: Obwohl mPLUG-Owl3 bestehende Modelle übertrifft, ist seine Genauigkeit bei weitem nicht ausgezeichnet. Man kann nur sagen, dass diese Bewertungsmethode die Anti-Interferenz-Fähigkeit aller Modelle bei langen Sequenzen offenbart muss in Zukunft weiter verbessert werden.
Weitere Einzelheiten finden Sie im Dokument und im Code.
Papier: https://arxiv.org/abs/2408.04840
Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
Demo (Umarmungsgesicht): https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo (Magic Community): https://modelscope.cn/studios/iic/mPLUG-Owl3
7B-Modell (umarmendes Gesicht): https:/ /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
7B-Modell (Magic Community) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
– Ende –
Bitte senden eine E-Mail an:
ai@qbitai.com
Geben Sie den Titel an und sagen Sie uns:
Wer sind Sie, woher kommen Sie, den Inhalt Ihrer Einreichung
Fügen Sie den Link zur Homepage des Beitrags/Projekts hinzu und nehmen Sie Kontakt auf Informationen
Wir werden Ihnen (so weit wie möglich) rechtzeitig antworten
Klicken Sie hier, um mir zu folgen und denken Sie daran, ~
„Teilen“, „Gefällt mir“ und „Ansehen“ mit drei Klicks zu markieren
Wir sehen uns jeden Tag für den bahnbrechenden Fortschritt von Wissenschaft und Technik ~
Das obige ist der detaillierte Inhalt vonSehen Sie sich einen 2-stündigen Film in 4 Sekunden an! Alibaba veröffentlicht das universelle multimodale Großmodell mPLUG-Owl3. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Laut Nachrichten dieser Website vom 5. August gab Alibaba Cloud bekannt, dass die Yunqi-Konferenz 2024 vom 19. bis 21. September in der Stadt Yunqi in Hangzhou stattfinden wird. Es wird ein dreitägiges Hauptforum, 400 Unterforen und parallele Themen geben. sowie knapp vierzehntausend Quadratmeter Ausstellungsfläche. Die Yunqi-Konferenz ist kostenlos und für die Öffentlichkeit zugänglich. Ab sofort kann die Öffentlichkeit kostenlose Tickets über die offizielle Website der Yunqi-Konferenz erwerben. Die Ticket-Website ist auf dieser Website angehängt. https://yunqi.aliyun.com/2024 /ticket-list Berichten zufolge entstand die Yunqi-Konferenz im Jahr 2009 und hieß ursprünglich „First China Website Development Forum“. Im Jahr 2015 entwickelte sie sich zur Alibaba Cloud Developer Conference , wurde sie offiziell in „Yunqi-Konferenz“ umbenannt und verlief weiterhin erfolgreich

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen
