AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學。共同一作中,張培源是南洋理工大學研究助理,張愷宸是南洋理工大學四年級本科生,李博為南洋理工大學三年級博士生,指導教師為 MMLab@NTU 劉子緯教授。 LMMs-Lab 是一個由學生、研究人員和教師組成的團隊,致力於多模態模型的研究,主要研究方向包括多模態模型的訓練與全面評估,此前的工作包括多模態測評框架lmms- eval 等。
為什麼說理解長影片難如 「大海撈針」?
現有的 LMMs 在處理長影片時面臨的一個主要挑戰是視覺 token 數量過多。例如,LLaVA-1.6 對單張圖片就能產生 576 到 2880 個視覺 token。影片幀數越多,token 數量就更多。雖然 BLIP2,LLaMA-VID, Chat-UniVI 等工作 透過改變 ViT 和語言模型之間的連接層來減少視覺 token 數量,但仍然無法處理特別多的幀數。
此外,缺乏高品質的長視訊資料集也是一大瓶頸。現有訓練資料集大多是 1 分鐘內的短視頻,即使有長視頻,標註的文本對僅限於視頻的幾個幀,缺乏密集的監督信號。
近日 LMMs-Lab, 南洋理工大學等機構的研究團隊推出了 LongVA 長視頻模型, 它可以理解超過千幀的視頻數據,超越了當前一眾開源視頻多模態模型的性能!
論文連結:https://arxiv.org/abs/2406.16852
簡報:https://longva-demo.lmms-lab
長上下文遷移
針對處理長視頻面臨的挑戰,研究團隊提出了 “長上下文遷移” 這一全新思路。他們認為, 目前長視頻大模型的多幀瓶頸不在如如何從 Vision Encoder 抽取壓縮的特徵上面(下圖(a)), 而在於擴展模型的長上下文能力上。 他們發現,透過簡單地擴展語言模型的在文字上的上下文長度,他們能成功地將這種能力傳遞到視覺模態上,而無需進行任何長視頻訓練。具體做法是,首先透過長文本資料訓練語言模型,然後利用短圖像資料進行模態對齊。他們發現在這樣訓練的模型在測試時就可以直接理解多幀的視頻, 省去了長視頻訓練的必要性。 在長語言模型訓練過程中,作者團隊使用了 Qwen2-7B-Instruct 作為底座,並透過長上下文訓練將其文字上下文長度擴展到 224K。訓練過程中使用了 FlashAttention-2、Ring Attention、activation checkpoint 和 parameter offload 等多種最佳化策略,以提高訓練效率和記憶體使用率。 🎜Dalam peringkat penjajaran modal, pengarang mereka bentuk skema pengekodan bersatu yang dipanggil "UniRes" untuk memproses imej dan video secara serentak. Skim UniRes adalah serupa dengan skema pengekodan AnyRes dalam LLaVA-1.6, tetapi bahagian imej asas dialih keluar, setiap grid adalah satu dimensi satu dimensi dan pengumpulan ciri 2x2 dilakukan dalam setiap grid. Pendekatan ini memastikan perwakilan yang konsisten dikekalkan apabila memanjangkan data imej kepada video.
LongVA mengguna pakai strategi "latihan konteks pendek, ujian konteks panjang", yang bermaksud model itu hanya menggunakan data teks imej untuk latihan dalam peringkat penjajaran modal, dan secara langsung menggunakan video panjang untuk pemprosesan dan ujian semasa ujian. Strategi ini secara berkesan menunjukkan fenomena pemindahan konteks panjang, membolehkan model memperoleh keupayaan untuk memahami dan memproses video panjang tanpa latihan video panjang.
Prestasi hebat LongVA
Pada masa ini tiada penanda aras untuk menilai panjang konteks visual LMM untuk video yang panjang. Untuk menyelesaikan masalah ini, pasukan LongVA melanjutkan ujian needle-in-a-stack daripada teks kepada visual dan mencadangkan penanda aras Visual Needle-In-A-Haystack (V-NIAH).
Dalam ujian V-NIAH, pasukan mereka bentuk 5 soalan soalan dan jawapan imej, memasukkan setiap soalan sebagai bingkai tunggal ke dalam beberapa jam filem dan mengambil sampel video pada kekerapan 1 bingkai/saat sebagai input visual. Imej "jarum" ini diperoleh daripada set data menjawab soalan visual sedia ada atau imej yang dijana AI untuk memastikan model itu tidak dapat menjawab soalan melalui pengetahuan bahasa sahaja. Setiap soalan mengandungi "petunjuk penyetempatan" yang membolehkan sistem atau manusia yang betul untuk mengesan bingkai "pin" daripada video dan menjawab soalan.
Keputusan ujian V-NIAH menunjukkan bahawa ujian visual needle-in-a-stock LongVA hampir betul dalam 2000 bingkai (144 token setiap bingkai), dan ia juga mengekalkan kadar ketepatan yang baik pada skala 3000 bingkai. Menariknya, sama dengan model bahasa, mereka mendapati bahawa LongVA juga mempunyai tahap tertentu fenomena Lost-In-The-Middle pada V-NIAH.
Dalam senarai Video-MME baru-baru ini yang dicadangkan oleh Tencent, Universiti Sains dan Teknologi China dan institusi lain, LongVA menduduki tempat ketujuh dan mencapai SoTA model 7B. /Https://video-mme.github.io/home_page.html#leaderboard
Dalam ujian penanda aras MLVU yang dilancarkan oleh Northern Post, Universiti Peking dan Universiti Zhejiang, LONGVA lebih lagi Ia adalah model sumber terbuka terkuat selepas GPT-4o. .Untuk butiran lanjut, pembaca yang berminat boleh melihat kertas asal.
以上是7B最強長影片模型! LongVA影片理解超千幀,霸榜多個榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章!