Das leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen

WBOY
Freigeben: 2024-07-19 21:21:22
Original
959 Leute haben es durchsucht
7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les principaux auteurs de cet article sont issus de l'équipe LMMs-Lab et de l'Université technologique de Nanyang, Singapour. Dans le cadre du travail conjoint, Zhang Peiyuan est assistant de recherche à l'Université technologique de Nanyang, Zhang Kaichen est un étudiant de quatrième année à l'Université technologique de Nanyang et Li Bo est un doctorant de troisième année à l'Université technologique de Nanyang. Le superviseur est le professeur Liu. Ziwei de MMLab@NTU. LMMs-Lab est une équipe composée d'étudiants, de chercheurs et d'enseignants, dédiée à la recherche de modèles multimodaux. Les principales orientations de recherche incluent la formation et l'évaluation complète de modèles multimodaux. Les travaux antérieurs incluent le cadre d'évaluation multimodal lmms. - évaluation, etc.

Pourquoi dit-on que comprendre de longues vidéos est aussi difficile que « trouver une aiguille dans une botte de foin » ?

Un défi majeur rencontré par les LMM existants lors du traitement de longues vidéos est le nombre excessif de jetons visuels. Par exemple, LLaVA-1.6 peut générer de 576 à 2 880 jetons visuels pour une seule image. Plus la vidéo contient d’images, plus le nombre de jetons est élevé. Bien que BLIP2, LLaMA-VID, Chat-UniVI et d'autres travaux réduisent le nombre de jetons visuels en modifiant la couche de connexion entre ViT et le modèle de langage, ils ne peuvent toujours pas gérer un nombre particulièrement important de trames.

De plus, le manque d'ensembles de données vidéo longues de haute qualité constitue également un goulot d'étranglement majeur. Les ensembles de données de formation existants sont pour la plupart de courtes vidéos d'une minute, et même s'il existe de longues vidéos, les paires de textes annotés sont limitées à quelques images de la vidéo, manquant de signaux de supervision denses.

Récemment, des équipes de recherche du LMMs-Lab, de l'Université technologique de Nanyang et d'autres institutions ont lancé le modèle vidéo long LongVA, qui peut comprendre plus d'un millier d'images de données vidéo, surpassant les performances des modèles vidéo multimodaux open source actuels !

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

  • Lien papier : https://arxiv.org/abs/2406.16852

  • Adresse démo : https://longva-demo.lmms-lab.com/

  • Adresse code : https ://github.com/EvolvingLMMs-Lab/LongVA

L'équipe d'auteurs a proposé le transfert de contexte long (Long Context Transfer) pour la première fois dans le domaine multimodal. Cette technologie permet de grands modèles multimodaux (LMM). à traiter sans Dans le cas de formations vidéo longues, traiter et comprendre des vidéos extrêmement longues. Leur nouveau modèle LongVA peut traiter 2 000 images ou plus de 200 000 jetons visuels, atteignant ainsi un SoTA à l'échelle 7B sur la liste de compréhension vidéo Video-MME. Dans la dernière longue liste vidéo MLVU, LongVA est le modèle le plus puissant après GPT4-o !

L'auteur de LongVA a résumé l'image ci-dessous. On peut voir que le grand modèle multimodal actuel n'est pas satisfaisant pour comprendre les longues vidéos. Le nombre d'images pouvant être traitées limite le traitement et la compréhension des longues vidéos. Afin de traiter plus de trames, des travaux tels que LLaMA-VID doivent compresser considérablement le nombre de jetons correspondant à une seule trame.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Migration de contexte long

En réponse aux défis rencontrés lors du traitement de vidéos longues, l'équipe de recherche a proposé une nouvelle idée de « migration de contexte long ». Ils pensent que le goulot d'étranglement multi-images actuel des grands modèles vidéo longs ne réside pas dans la manière d'extraire les fonctionnalités compressées de Vision Encoder (Figure (a) ci-dessous), mais dans les capacités de contexte long du modèle étendu.

Ils ont découvert qu'en étendant simplement la longueur du contexte du modèle de langage sur le texte, ils pouvaient réussir à transférer cette capacité à la modalité visuelle sans aucune longue formation vidéo. L'approche spécifique consiste à entraîner d'abord le modèle de langage à l'aide de données de texte longues, puis à utiliser des données d'image courtes pour l'alignement modal. Ils ont constaté que le modèle formé de cette manière peut comprendre directement les vidéos multi-images pendant les tests, éliminant ainsi le besoin d'une longue formation vidéo.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Pendant le long processus de formation du modèle de langage, l'équipe d'auteurs a utilisé Qwen2-7B-Instruct comme base et a étendu la longueur de son contexte de texte à 224 Ko grâce à une longue formation de contexte. Au cours du processus de formation, diverses stratégies d'optimisation telles que FlashAttention-2, Ring Attention, le point de contrôle d'activation et le déchargement des paramètres sont utilisées pour améliorer l'efficacité de la formation et l'utilisation de la mémoire.

In der modalen Ausrichtungsphase entwarf der Autor ein einheitliches Kodierungsschema namens „UniRes“ für die gleichzeitige Verarbeitung von Bildern und Videos. Das UniRes-Schema ähnelt dem AnyRes-Codierungsschema in LLaVA-1.6, jedoch wird der Basisbildteil entfernt, jedes Gitter ist eindimensional eindimensional und innerhalb jedes Gitters wird ein 2x2-Feature-Pooling durchgeführt. Dieser Ansatz stellt sicher, dass bei der Erweiterung von Bilddaten auf Videos eine konsistente Darstellung erhalten bleibt.

LongVA übernimmt die Strategie „kurzes Kontexttraining, langes Kontexttesten“, was bedeutet, dass das Modell nur Bildtextdaten für das Training in der Modal-Alignment-Phase verwendet und während des Tests direkt lange Videos zur Verarbeitung und zum Testen verwendet. Diese Strategie demonstriert effektiv das Phänomen der langen Kontextübertragung und ermöglicht es dem Modell, lange Videos ohne langes Videotraining zu verstehen und zu verarbeiten.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Super Leistung von LongVA

Derzeit gibt es keine Benchmarks zur Bewertung der visuellen Kontextlänge von LMMs für lange Videos. Um dieses Problem zu lösen, erweiterte das LongVA-Team den Needle-in-a-Haystack-Test vom Text auf den visuellen Test und schlug den Visual Needle-In-A-Haystack (V-NIAH)-Benchmark vor.

Im V-NIAH-Test entwarf das Team 5 Bildfrage- und Antwortfragen, fügte jede Frage als einzelnes Bild in mehrere Stunden Film ein und sampelte das Video mit einer Frequenz von 1 Bild/Sekunde als visuelle Eingabe. Die Bilder dieser „Nadeln“ werden aus vorhandenen visuellen Frage-Antwort-Datensätzen oder KI-generierten Bildern abgeleitet, um sicherzustellen, dass das Modell die Frage nicht allein durch Sprachkenntnisse beantworten kann. Jede Frage enthält einen „Lokalisierungshinweis“, der es dem richtigen System oder Menschen ermöglicht, den „Pin“-Rahmen im Video zu lokalisieren und die Frage zu beantworten.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

V-NIAH-Testergebnisse zeigen, dass der visuelle Nadel-im-Heuhaufen-Test von LongVA innerhalb von 2000 Bildern (144 Token pro Bild) nahezu korrekt ist und auch auf der Skala von 3000 Bildern eine gute Genauigkeitsrate beibehält. Interessanterweise stellten sie ähnlich wie beim Sprachmodell fest, dass LongVA auch bei V-NIAH ein gewisses Lost-In-The-Middle-Phänomen aufweist.

In der kürzlich von Tencent, der Universität für Wissenschaft und Technologie Chinas und anderen Institutionen vorgeschlagenen Video-MME-Liste belegte LongVA den siebten Platz und erreichte den SoTA des 7B-Modells. /Https://video-mme.github.io/home_page.html#leaderboard

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Im MLVU-Benchmark-Test, der von Northern Post, der Peking-Universität und der Zhejiang-Universität gestartet wurde, ist LONGVA noch mehr Es ist das stärkste Open-Source-Modell danach GPT-4o.

                                                            

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单Für weitere Details können interessierte Leser das Originalpapier einsehen.

Das obige ist der detaillierte Inhalt vonDas leistungsstärkste Langvideomodell von 7B! Das LongVA-Videoverständnis übersteigt 1.000 Bilder und dominiert mehrere Listen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage