Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang utama artikel ini adalah daripada pasukan LMMs-Lab dan Universiti Teknologi Nanyang, Singapura. Dalam kerja bersama, Zhang Peiyuan ialah pembantu penyelidik di Universiti Teknologi Nanyang, Zhang Kaichen ialah pelajar sarjana muda tahun empat di Universiti Teknologi Nanyang, dan Li Bo ialah pelajar kedoktoran tahun ketiga di Universiti Teknologi Nanyang Penyelia ialah Profesor Liu Ziwei dari MMLab@NTU. LMMs-Lab ialah pasukan yang terdiri daripada pelajar, penyelidik dan guru yang berdedikasi untuk penyelidikan model berbilang modal Arah penyelidikan utamanya termasuk latihan dan penilaian menyeluruh model berbilang modal termasuk rangka kerja penilaian pelbagai mod lmms-. eval dll.
Mengapa dikatakan memahami video panjang sesukar "mencari jarum dalam timbunan jerami"?
Cabaran utama yang dihadapi oleh LMM sedia ada semasa memproses video panjang ialah bilangan token visual yang berlebihan. Sebagai contoh, LLaVA-1.6 boleh menjana 576 hingga 2880 token visual untuk satu imej. Lebih banyak bingkai video itu, lebih banyak bilangan token. Walaupun BLIP2, LLaMA-VID, Chat-UniVI dan kerja lain mengurangkan bilangan token visual dengan menukar lapisan sambungan antara ViT dan model bahasa, mereka masih tidak dapat mengendalikan bilangan bingkai yang besar.
Selain itu, kekurangan set data video panjang berkualiti tinggi juga merupakan halangan utama. Set data latihan sedia ada kebanyakannya adalah video pendek dalam masa 1 minit, dan walaupun terdapat video panjang, pasangan teks beranotasi dihadkan kepada beberapa bingkai video, tiada isyarat pengawasan yang padat.
Baru-baru ini, pasukan penyelidik dari LMMs-Lab, Universiti Teknologi Nanyang dan institusi lain melancarkan model video panjang LongVA, yang boleh memahami lebih daripada seribu bingkai data video, mengatasi prestasi model pelbagai mod video sumber terbuka semasa!
Pautan kertas: https://arxiv.org/abs/2406.16852
Alamat demo: https://longva-demo.lmms-lab.com/
Pasukan pengarang mencadangkan Pemindahan Konteks Panjang (Pemindahan Konteks Panjang) buat kali pertama dalam bidang berbilang modal Teknologi ini membolehkan model besar berbilang modal (LMM). untuk diproses tanpa Dalam kes latihan video yang panjang, proses dan fahami video yang sangat panjang. Model baharu mereka LongVA boleh memproses 2000 bingkai atau lebih daripada 200,000 token visual, mencapai SoTA skala 7B pada senarai pemahaman video Video-MME. Pada senarai MLVU video panjang terkini, LongVA ialah model terkuat selepas GPT4-o!
Pengarang LongVA meringkaskan gambar di bawah ini dapat dilihat bahawa model besar multi-modal sekarang tidak memuaskan dalam memahami video panjang Jumlah bingkai yang boleh diproses mengehadkan pemprosesan dan pemahaman video panjang. Untuk memproses lebih banyak bingkai, kerja seperti LLaMA-VID perlu memampatkan bilangan token yang sepadan dengan satu bingkai secara drastik.
Penghijrahan konteks panjang
Sebagai tindak balas kepada cabaran yang dihadapi dalam memproses video panjang, pasukan penyelidik mencadangkan idea baharu "penghijrahan konteks panjang". Mereka percaya bahawa kesesakan berbilang bingkai semasa bagi model video panjang yang besar bukan tentang cara mengekstrak ciri mampat daripada Vision Encoder (Rajah (a) di bawah), tetapi dalam keupayaan konteks panjang model lanjutan.
Mereka mendapati bahawa dengan hanya memanjangkan panjang konteks model bahasa pada teks, mereka boleh berjaya memindahkan keupayaan ini kepada modaliti visual tanpa sebarang latihan video yang panjang. Pendekatan khusus adalah dengan terlebih dahulu melatih model bahasa melalui data teks panjang, dan kemudian menggunakan data imej pendek untuk penjajaran modal. Mereka mendapati bahawa model yang dilatih dengan cara ini secara langsung boleh memahami video berbilang bingkai semasa ujian, menghapuskan keperluan untuk latihan video yang panjang.
🎜Semasa proses latihan model bahasa yang panjang, pasukan pengarang menggunakan Qwen2-7B-Instruct sebagai asas dan memanjangkan panjang konteks teksnya kepada 224K melalui latihan konteks yang panjang. Semasa proses latihan, pelbagai strategi pengoptimuman seperti FlashAttention-2, Ring Attention, pusat pemeriksaan pengaktifan dan pemuatan parameter digunakan untuk meningkatkan kecekapan latihan dan penggunaan memori. 🎜Au stade de l'alignement modal, l'auteur a conçu un schéma de codage unifié appelé « UniRes » pour traiter simultanément les images et les vidéos. Le schéma UniRes est similaire au schéma de codage AnyRes dans LLaVA-1.6, mais la partie de l'image de base est supprimée, chaque grille est unidimensionnelle et un regroupement de fonctionnalités 2x2 est effectué dans chaque grille. Cette approche garantit le maintien d'une représentation cohérente lors de l'extension des données d'image à la vidéo.
LongVA adopte la stratégie de « formation contextuelle courte, tests de contexte longs », ce qui signifie que le modèle utilise uniquement des données image-texte pour la formation dans la phase d'alignement modal, et utilise directement de longues vidéos pour le traitement et les tests pendant les tests. Cette stratégie démontre efficacement le phénomène de transfert de contexte long, permettant au modèle d'acquérir la capacité de comprendre et de traiter de longues vidéos sans longue formation vidéo.
Super performances de LongVA
Il n'existe actuellement aucun benchmark pour évaluer la longueur du contexte visuel des LMM pour les vidéos longues. Pour résoudre ce problème, l'équipe LongVA a étendu le test de l'aiguille dans une botte de foin du texte au visuel et a proposé le benchmark Visual Needle-In-A-Haystack (V-NIAH).
Dans le test V-NIAH, l'équipe a conçu 5 questions-réponses en images, a inséré chaque question sous forme d'image unique dans plusieurs heures de films et a échantillonné la vidéo à une fréquence de 1 image/seconde comme entrée visuelle. Les images de ces « aiguilles » sont dérivées d’ensembles de données de réponses visuelles existantes ou d’images générées par l’IA pour garantir que le modèle ne peut pas répondre aux questions grâce à la seule connaissance du langage. Chaque question contient un « indice de localisation » qui permet au système ou à l'humain approprié de localiser l'image « épingle » de la vidéo et de répondre à la question.
Les résultats du test V-NIAH montrent que le test visuel d'aiguille dans une botte de foin de LongVA est presque correct dans les 2 000 images (144 jetons par image), et il maintient également un bon taux de précision à l'échelle de 3 000 images. Fait intéressant, à l’instar du modèle de langage, ils ont découvert que LongVA présente également un certain degré de phénomène Lost-In-The-Middle sur V-NIAH.
Dans la récente liste Video-MME proposée par Tencent, l'Université des sciences et technologies de Chine et d'autres institutions, LongVA s'est classée septième et a atteint le SoTA du modèle 7B. /Https://video-mme.github.io/home_page.html#leaderboard
Dans le test de référence MLVU lancé par Northern Post, l'Université de Pékin et l'Université du Zhejiang, LONGVA est encore plus C'est le modèle open source le plus puissant après GPT-4o.
L'équipe de l'auteur a également joint quelques démonstrations d'effets dans l'article. Pour plus de détails, les lecteurs intéressés peuvent consulter l'article original.
Atas ialah kandungan terperinci Model video panjang paling berkuasa 7B! Pemahaman video LongVA melebihi 1,000 bingkai, menguasai banyak senarai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!