Heim Technologie-Peripheriegeräte KI Das leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen

Das leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen

Jul 19, 2024 pm 09:21 PM
产业 LongVA

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les principaux auteurs de cet article sont issus de l'équipe LMMs-Lab et de l'Université technologique de Nanyang, Singapour. Dans le cadre du travail conjoint, Zhang Peiyuan est assistant de recherche à l'Université technologique de Nanyang, Zhang Kaichen est un étudiant de quatrième année à l'Université technologique de Nanyang et Li Bo est un doctorant de troisième année à l'Université technologique de Nanyang. Le superviseur est le professeur Liu. Ziwei de MMLab@NTU. LMMs-Lab est une équipe composée d'étudiants, de chercheurs et d'enseignants, dédiée à la recherche de modèles multimodaux. Les principales orientations de recherche incluent la formation et l'évaluation complète de modèles multimodaux. Les travaux antérieurs incluent le cadre d'évaluation multimodal lmms. - évaluation, etc.

Pourquoi dit-on que comprendre de longues vidéos est aussi difficile que « trouver une aiguille dans une botte de foin » ?

Un défi majeur rencontré par les LMM existants lors du traitement de longues vidéos est le nombre excessif de jetons visuels. Par exemple, LLaVA-1.6 peut générer de 576 à 2 880 jetons visuels pour une seule image. Plus la vidéo contient d’images, plus le nombre de jetons est élevé. Bien que BLIP2, LLaMA-VID, Chat-UniVI et d'autres travaux réduisent le nombre de jetons visuels en modifiant la couche de connexion entre ViT et le modèle de langage, ils ne peuvent toujours pas gérer un nombre particulièrement important de trames.

De plus, le manque d'ensembles de données vidéo longues de haute qualité constitue également un goulot d'étranglement majeur. Les ensembles de données de formation existants sont pour la plupart de courtes vidéos d'une minute, et même s'il existe de longues vidéos, les paires de textes annotés sont limitées à quelques images de la vidéo, manquant de signaux de supervision denses.

Récemment, des équipes de recherche du LMMs-Lab, de l'Université technologique de Nanyang et d'autres institutions ont lancé le modèle vidéo long LongVA, qui peut comprendre plus d'un millier d'images de données vidéo, surpassant les performances des modèles vidéo multimodaux open source actuels !

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

  • Lien papier : https://arxiv.org/abs/2406.16852

  • Adresse démo : https://longva-demo.lmms-lab.com/

  • Adresse code : https ://github.com/EvolvingLMMs-Lab/LongVA

L'équipe d'auteurs a proposé le transfert de contexte long (Long Context Transfer) pour la première fois dans le domaine multimodal. Cette technologie permet de grands modèles multimodaux (LMM). à traiter sans Dans le cas de formations vidéo longues, traiter et comprendre des vidéos extrêmement longues. Leur nouveau modèle LongVA peut traiter 2 000 images ou plus de 200 000 jetons visuels, atteignant ainsi un SoTA à l'échelle 7B sur la liste de compréhension vidéo Video-MME. Dans la dernière longue liste vidéo MLVU, LongVA est le modèle le plus puissant après GPT4-o !

L'auteur de LongVA a résumé l'image ci-dessous. On peut voir que le grand modèle multimodal actuel n'est pas satisfaisant pour comprendre les longues vidéos. Le nombre d'images pouvant être traitées limite le traitement et la compréhension des longues vidéos. Afin de traiter plus de trames, des travaux tels que LLaMA-VID doivent compresser considérablement le nombre de jetons correspondant à une seule trame.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Migration de contexte long

En réponse aux défis rencontrés lors du traitement de vidéos longues, l'équipe de recherche a proposé une nouvelle idée de « migration de contexte long ». Ils pensent que le goulot d'étranglement multi-images actuel des grands modèles vidéo longs ne réside pas dans la manière d'extraire les fonctionnalités compressées de Vision Encoder (Figure (a) ci-dessous), mais dans les capacités de contexte long du modèle étendu.

Ils ont découvert qu'en étendant simplement la longueur du contexte du modèle de langage sur le texte, ils pouvaient réussir à transférer cette capacité à la modalité visuelle sans aucune longue formation vidéo. L'approche spécifique consiste à entraîner d'abord le modèle de langage à l'aide de données de texte longues, puis à utiliser des données d'image courtes pour l'alignement modal. Ils ont constaté que le modèle formé de cette manière peut comprendre directement les vidéos multi-images pendant les tests, éliminant ainsi le besoin d'une longue formation vidéo.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Pendant le long processus de formation du modèle de langage, l'équipe d'auteurs a utilisé Qwen2-7B-Instruct comme base et a étendu la longueur de son contexte de texte à 224 Ko grâce à une longue formation de contexte. Au cours du processus de formation, diverses stratégies d'optimisation telles que FlashAttention-2, Ring Attention, le point de contrôle d'activation et le déchargement des paramètres sont utilisées pour améliorer l'efficacité de la formation et l'utilisation de la mémoire.

In der modalen Ausrichtungsphase entwarf der Autor ein einheitliches Kodierungsschema namens „UniRes“ für die gleichzeitige Verarbeitung von Bildern und Videos. Das UniRes-Schema ähnelt dem AnyRes-Codierungsschema in LLaVA-1.6, jedoch wird der Basisbildteil entfernt, jedes Gitter ist eindimensional eindimensional und innerhalb jedes Gitters wird ein 2x2-Feature-Pooling durchgeführt. Dieser Ansatz stellt sicher, dass bei der Erweiterung von Bilddaten auf Videos eine konsistente Darstellung erhalten bleibt.

LongVA übernimmt die Strategie „kurzes Kontexttraining, langes Kontexttesten“, was bedeutet, dass das Modell nur Bildtextdaten für das Training in der Modal-Alignment-Phase verwendet und während des Tests direkt lange Videos zur Verarbeitung und zum Testen verwendet. Diese Strategie demonstriert effektiv das Phänomen der langen Kontextübertragung und ermöglicht es dem Modell, lange Videos ohne langes Videotraining zu verstehen und zu verarbeiten.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Super Leistung von LongVA

Derzeit gibt es keine Benchmarks zur Bewertung der visuellen Kontextlänge von LMMs für lange Videos. Um dieses Problem zu lösen, erweiterte das LongVA-Team den Needle-in-a-Haystack-Test vom Text auf den visuellen Test und schlug den Visual Needle-In-A-Haystack (V-NIAH)-Benchmark vor.

Im V-NIAH-Test entwarf das Team 5 Bildfrage- und Antwortfragen, fügte jede Frage als einzelnes Bild in mehrere Stunden Film ein und sampelte das Video mit einer Frequenz von 1 Bild/Sekunde als visuelle Eingabe. Die Bilder dieser „Nadeln“ werden aus vorhandenen visuellen Frage-Antwort-Datensätzen oder KI-generierten Bildern abgeleitet, um sicherzustellen, dass das Modell die Frage nicht allein durch Sprachkenntnisse beantworten kann. Jede Frage enthält einen „Lokalisierungshinweis“, der es dem richtigen System oder Menschen ermöglicht, den „Pin“-Rahmen im Video zu lokalisieren und die Frage zu beantworten.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

V-NIAH-Testergebnisse zeigen, dass der visuelle Nadel-im-Heuhaufen-Test von LongVA innerhalb von 2000 Bildern (144 Token pro Bild) nahezu korrekt ist und auch auf der Skala von 3000 Bildern eine gute Genauigkeitsrate beibehält. Interessanterweise stellten sie ähnlich wie beim Sprachmodell fest, dass LongVA auch bei V-NIAH ein gewisses Lost-In-The-Middle-Phänomen aufweist.

In der kürzlich von Tencent, der Universität für Wissenschaft und Technologie Chinas und anderen Institutionen vorgeschlagenen Video-MME-Liste belegte LongVA den siebten Platz und erreichte den SoTA des 7B-Modells. /Https://video-mme.github.io/home_page.html#leaderboard

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Im MLVU-Benchmark-Test, der von Northern Post, der Peking-Universität und der Zhejiang-Universität gestartet wurde, ist LONGVA noch mehr Es ist das stärkste Open-Source-Modell danach GPT-4o.

                                                            

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单Für weitere Details können interessierte Leser das Originalpapier einsehen.

Das obige ist der detaillierte Inhalt vonDas leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1667
14
PHP-Tutorial
1273
29
C#-Tutorial
1255
24
Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Aug 21, 2024 pm 07:33 PM

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Sep 02, 2024 pm 01:56 PM

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Aug 22, 2024 pm 10:35 PM

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Sep 03, 2024 pm 05:18 PM

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

Distributed Artificial Intelligence Conference DAI 2024 Call for Papers: Agent Day, Richard Sutton, der Vater des Reinforcement Learning, wird teilnehmen! Yan Shuicheng, Sergey Levine und DeepMind-Wissenschaftler werden Grundsatzreden halten Distributed Artificial Intelligence Conference DAI 2024 Call for Papers: Agent Day, Richard Sutton, der Vater des Reinforcement Learning, wird teilnehmen! Yan Shuicheng, Sergey Levine und DeepMind-Wissenschaftler werden Grundsatzreden halten Aug 22, 2024 pm 08:02 PM

Einleitung zur Konferenz Mit der rasanten Entwicklung von Wissenschaft und Technologie ist künstliche Intelligenz zu einer wichtigen Kraft bei der Förderung des sozialen Fortschritts geworden. In dieser Zeit haben wir das Glück, die Innovation und Anwendung der verteilten künstlichen Intelligenz (DAI) mitzuerleben und daran teilzuhaben. Verteilte Künstliche Intelligenz ist ein wichtiger Zweig des Gebiets der Künstlichen Intelligenz, der in den letzten Jahren immer mehr Aufmerksamkeit erregt hat. Durch die Kombination des leistungsstarken Sprachverständnisses und der Generierungsfähigkeiten großer Modelle sind plötzlich Agenten aufgetaucht, die auf natürlichen Sprachinteraktionen, Wissensbegründung, Aufgabenplanung usw. basieren. AIAgent übernimmt das große Sprachmodell und ist zu einem heißen Thema im aktuellen KI-Kreis geworden. Au

Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Aug 08, 2024 am 07:02 AM

Heute Nachmittag begrüßte Hongmeng Zhixing offiziell neue Marken und neue Autos. Am 6. August veranstaltete Huawei die Hongmeng Smart Xingxing S9 und die Huawei-Konferenz zur Einführung neuer Produkte mit umfassendem Szenario und brachte die Panorama-Smart-Flaggschiff-Limousine Xiangjie S9, das neue M7Pro und Huawei novaFlip, MatePad Pro 12,2 Zoll, das neue MatePad Air und Huawei Bisheng mit Mit vielen neuen Smart-Produkten für alle Szenarien, darunter die Laserdrucker der X1-Serie, FreeBuds6i, WATCHFIT3 und der Smart Screen S5Pro, von Smart Travel über Smart Office bis hin zu Smart Wear baut Huawei weiterhin ein Smart-Ökosystem für alle Szenarien auf, um Verbrauchern ein Smart-Erlebnis zu bieten Internet von allem. Hongmeng Zhixing: Huawei arbeitet mit chinesischen Partnern aus der Automobilindustrie zusammen, um die Modernisierung der Smart-Car-Industrie voranzutreiben

See all articles