


Das leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Les principaux auteurs de cet article sont issus de l'équipe LMMs-Lab et de l'Université technologique de Nanyang, Singapour. Dans le cadre du travail conjoint, Zhang Peiyuan est assistant de recherche à l'Université technologique de Nanyang, Zhang Kaichen est un étudiant de quatrième année à l'Université technologique de Nanyang et Li Bo est un doctorant de troisième année à l'Université technologique de Nanyang. Le superviseur est le professeur Liu. Ziwei de MMLab@NTU. LMMs-Lab est une équipe composée d'étudiants, de chercheurs et d'enseignants, dédiée à la recherche de modèles multimodaux. Les principales orientations de recherche incluent la formation et l'évaluation complète de modèles multimodaux. Les travaux antérieurs incluent le cadre d'évaluation multimodal lmms. - évaluation, etc.
Pourquoi dit-on que comprendre de longues vidéos est aussi difficile que « trouver une aiguille dans une botte de foin » ?
Un défi majeur rencontré par les LMM existants lors du traitement de longues vidéos est le nombre excessif de jetons visuels. Par exemple, LLaVA-1.6 peut générer de 576 à 2 880 jetons visuels pour une seule image. Plus la vidéo contient d’images, plus le nombre de jetons est élevé. Bien que BLIP2, LLaMA-VID, Chat-UniVI et d'autres travaux réduisent le nombre de jetons visuels en modifiant la couche de connexion entre ViT et le modèle de langage, ils ne peuvent toujours pas gérer un nombre particulièrement important de trames.
De plus, le manque d'ensembles de données vidéo longues de haute qualité constitue également un goulot d'étranglement majeur. Les ensembles de données de formation existants sont pour la plupart de courtes vidéos d'une minute, et même s'il existe de longues vidéos, les paires de textes annotés sont limitées à quelques images de la vidéo, manquant de signaux de supervision denses.
Récemment, des équipes de recherche du LMMs-Lab, de l'Université technologique de Nanyang et d'autres institutions ont lancé le modèle vidéo long LongVA, qui peut comprendre plus d'un millier d'images de données vidéo, surpassant les performances des modèles vidéo multimodaux open source actuels !
Lien papier : https://arxiv.org/abs/2406.16852
Adresse démo : https://longva-demo.lmms-lab.com/
Adresse code : https ://github.com/EvolvingLMMs-Lab/LongVA
L'équipe d'auteurs a proposé le transfert de contexte long (Long Context Transfer) pour la première fois dans le domaine multimodal. Cette technologie permet de grands modèles multimodaux (LMM). à traiter sans Dans le cas de formations vidéo longues, traiter et comprendre des vidéos extrêmement longues. Leur nouveau modèle LongVA peut traiter 2 000 images ou plus de 200 000 jetons visuels, atteignant ainsi un SoTA à l'échelle 7B sur la liste de compréhension vidéo Video-MME. Dans la dernière longue liste vidéo MLVU, LongVA est le modèle le plus puissant après GPT4-o !
L'auteur de LongVA a résumé l'image ci-dessous. On peut voir que le grand modèle multimodal actuel n'est pas satisfaisant pour comprendre les longues vidéos. Le nombre d'images pouvant être traitées limite le traitement et la compréhension des longues vidéos. Afin de traiter plus de trames, des travaux tels que LLaMA-VID doivent compresser considérablement le nombre de jetons correspondant à une seule trame.
Migration de contexte long
En réponse aux défis rencontrés lors du traitement de vidéos longues, l'équipe de recherche a proposé une nouvelle idée de « migration de contexte long ». Ils pensent que le goulot d'étranglement multi-images actuel des grands modèles vidéo longs ne réside pas dans la manière d'extraire les fonctionnalités compressées de Vision Encoder (Figure (a) ci-dessous), mais dans les capacités de contexte long du modèle étendu.
Ils ont découvert qu'en étendant simplement la longueur du contexte du modèle de langage sur le texte, ils pouvaient réussir à transférer cette capacité à la modalité visuelle sans aucune longue formation vidéo. L'approche spécifique consiste à entraîner d'abord le modèle de langage à l'aide de données de texte longues, puis à utiliser des données d'image courtes pour l'alignement modal. Ils ont constaté que le modèle formé de cette manière peut comprendre directement les vidéos multi-images pendant les tests, éliminant ainsi le besoin d'une longue formation vidéo.
Pendant le long processus de formation du modèle de langage, l'équipe d'auteurs a utilisé Qwen2-7B-Instruct comme base et a étendu la longueur de son contexte de texte à 224 Ko grâce à une longue formation de contexte. Au cours du processus de formation, diverses stratégies d'optimisation telles que FlashAttention-2, Ring Attention, le point de contrôle d'activation et le déchargement des paramètres sont utilisées pour améliorer l'efficacité de la formation et l'utilisation de la mémoire.
In der modalen Ausrichtungsphase entwarf der Autor ein einheitliches Kodierungsschema namens „UniRes“ für die gleichzeitige Verarbeitung von Bildern und Videos. Das UniRes-Schema ähnelt dem AnyRes-Codierungsschema in LLaVA-1.6, jedoch wird der Basisbildteil entfernt, jedes Gitter ist eindimensional eindimensional und innerhalb jedes Gitters wird ein 2x2-Feature-Pooling durchgeführt. Dieser Ansatz stellt sicher, dass bei der Erweiterung von Bilddaten auf Videos eine konsistente Darstellung erhalten bleibt.
LongVA übernimmt die Strategie „kurzes Kontexttraining, langes Kontexttesten“, was bedeutet, dass das Modell nur Bildtextdaten für das Training in der Modal-Alignment-Phase verwendet und während des Tests direkt lange Videos zur Verarbeitung und zum Testen verwendet. Diese Strategie demonstriert effektiv das Phänomen der langen Kontextübertragung und ermöglicht es dem Modell, lange Videos ohne langes Videotraining zu verstehen und zu verarbeiten.
Super Leistung von LongVA
Derzeit gibt es keine Benchmarks zur Bewertung der visuellen Kontextlänge von LMMs für lange Videos. Um dieses Problem zu lösen, erweiterte das LongVA-Team den Needle-in-a-Haystack-Test vom Text auf den visuellen Test und schlug den Visual Needle-In-A-Haystack (V-NIAH)-Benchmark vor.
Im V-NIAH-Test entwarf das Team 5 Bildfrage- und Antwortfragen, fügte jede Frage als einzelnes Bild in mehrere Stunden Film ein und sampelte das Video mit einer Frequenz von 1 Bild/Sekunde als visuelle Eingabe. Die Bilder dieser „Nadeln“ werden aus vorhandenen visuellen Frage-Antwort-Datensätzen oder KI-generierten Bildern abgeleitet, um sicherzustellen, dass das Modell die Frage nicht allein durch Sprachkenntnisse beantworten kann. Jede Frage enthält einen „Lokalisierungshinweis“, der es dem richtigen System oder Menschen ermöglicht, den „Pin“-Rahmen im Video zu lokalisieren und die Frage zu beantworten.
V-NIAH-Testergebnisse zeigen, dass der visuelle Nadel-im-Heuhaufen-Test von LongVA innerhalb von 2000 Bildern (144 Token pro Bild) nahezu korrekt ist und auch auf der Skala von 3000 Bildern eine gute Genauigkeitsrate beibehält. Interessanterweise stellten sie ähnlich wie beim Sprachmodell fest, dass LongVA auch bei V-NIAH ein gewisses Lost-In-The-Middle-Phänomen aufweist.
In der kürzlich von Tencent, der Universität für Wissenschaft und Technologie Chinas und anderen Institutionen vorgeschlagenen Video-MME-Liste belegte LongVA den siebten Platz und erreichte den SoTA des 7B-Modells. /Https://video-mme.github.io/home_page.html#leaderboard
Für weitere Details können interessierte Leser das Originalpapier einsehen.
Das obige ist der detaillierte Inhalt vonDas leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

Einleitung zur Konferenz Mit der rasanten Entwicklung von Wissenschaft und Technologie ist künstliche Intelligenz zu einer wichtigen Kraft bei der Förderung des sozialen Fortschritts geworden. In dieser Zeit haben wir das Glück, die Innovation und Anwendung der verteilten künstlichen Intelligenz (DAI) mitzuerleben und daran teilzuhaben. Verteilte Künstliche Intelligenz ist ein wichtiger Zweig des Gebiets der Künstlichen Intelligenz, der in den letzten Jahren immer mehr Aufmerksamkeit erregt hat. Durch die Kombination des leistungsstarken Sprachverständnisses und der Generierungsfähigkeiten großer Modelle sind plötzlich Agenten aufgetaucht, die auf natürlichen Sprachinteraktionen, Wissensbegründung, Aufgabenplanung usw. basieren. AIAgent übernimmt das große Sprachmodell und ist zu einem heißen Thema im aktuellen KI-Kreis geworden. Au

Heute Nachmittag begrüßte Hongmeng Zhixing offiziell neue Marken und neue Autos. Am 6. August veranstaltete Huawei die Hongmeng Smart Xingxing S9 und die Huawei-Konferenz zur Einführung neuer Produkte mit umfassendem Szenario und brachte die Panorama-Smart-Flaggschiff-Limousine Xiangjie S9, das neue M7Pro und Huawei novaFlip, MatePad Pro 12,2 Zoll, das neue MatePad Air und Huawei Bisheng mit Mit vielen neuen Smart-Produkten für alle Szenarien, darunter die Laserdrucker der X1-Serie, FreeBuds6i, WATCHFIT3 und der Smart Screen S5Pro, von Smart Travel über Smart Office bis hin zu Smart Wear baut Huawei weiterhin ein Smart-Ökosystem für alle Szenarien auf, um Verbrauchern ein Smart-Erlebnis zu bieten Internet von allem. Hongmeng Zhixing: Huawei arbeitet mit chinesischen Partnern aus der Automobilindustrie zusammen, um die Modernisierung der Smart-Car-Industrie voranzutreiben
