7B最強長影片模型! LongVA影片理解超千幀,霸榜多個榜單

WBOY
發布: 2024-07-19 21:21:22
原創
958 人瀏覽過
7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學。共同一作中,張培源是南洋理工大學研究助理,張愷宸是南洋理工大學四年級本科生,李博為南洋理工大學三年級博士生,指導教師為 MMLab@NTU 劉子緯教授。 LMMs-Lab 是一個由學生、研究人員和教師組成的團隊,致力於多模態模型的研究,主要研究方向包括多模態模型的訓練與全面評估,此前的工作包括多模態測評框架lmms- eval 等。

為什麼說理解長影片難如 「大海撈針」?

現有的 LMMs 在處理長影片時面臨的一個主要挑戰是視覺 token 數量過多。例如,LLaVA-1.6 對單張圖片就能產生 576 到 2880 個視覺 token。影片幀數越多,token 數量就更多。雖然 BLIP2,LLaMA-VID, Chat-UniVI 等工作 透過改變 ViT 和語言模型之間的連接層來減少視覺 token 數量,但仍然無法處理特別多的幀數。

此外,缺乏高品質的長視訊資料集也是一大瓶頸。現有訓練資料集大多是 1 分鐘內的短視頻,即使有長視頻,標註的文本對僅限於視頻的幾個幀,缺乏密集的監督信號。

近日 LMMs-Lab, 南洋理工大學等機構的研究團隊推出了 LongVA 長視頻模型, 它可以理解超過千幀的視頻數據,超越了當前一眾開源視頻多模態模型的性能!

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

  • 論文連結:https://arxiv.org/abs/2406.16852

  • 簡報:https://longva-demo.lmms-lab

  • 簡報

    . ://github.com/EvolvingLMMs-Lab/LongVA

作者團隊首次在多模態領域提出長上下文遷移(Long Context Transfer),這項技術使得多模態大模型(LMMs)能夠在不進行在長視頻訓練的情況下,處理和理解超長視頻。他們的新模型 LongVA 能夠處理 2000 幀或超過 20 萬個視覺 token, 在視訊理解榜單 Video-MME 上實現了 7B 規模的 SoTA。在最新的長影片 MLVU 名單上, LongVA 更是僅次於 GPT4-o 的最強模型!

LongVA 的作者總結了下面這張圖, 可以看到,目前的多模態大模型在長視頻理解上還不盡如人意,能夠處理的幀數限制了長視頻的處理和理解。為了處理更多的幀,LLaMA-VID 等工作不得不急劇壓縮單張幀對應的 token 數量。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

長上下文遷移

針對處理長視頻面臨的挑戰,研究團隊提出了 “長上下文遷移” 這一全新思路。他們認為, 目前長視頻大模型的多幀瓶頸不在如如何從 Vision Encoder 抽取壓縮的特徵上面(下圖(a)), 而在於擴展模型的長上下文能力上。

他們發現,透過簡單地擴展語言模型的在文字上的上下文長度,他們能成功地將這種能力傳遞到視覺模態上,而無需進行任何長視頻訓練。具體做法是,首先透過長文本資料訓練語言模型,然後利用短圖像資料進行模態對齊。他們發現在這樣訓練的模型在測試時就可以直接理解多幀的視頻, 省去了長視頻訓練的必要性。

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

在長語言模型訓練過程中,作者團隊使用了 Qwen2-7B-Instruct 作為底座,並透過長上下文訓練將其文字上下文長度擴展到 224K。訓練過程中使用了 FlashAttention-2、Ring Attention、activation checkpoint 和 parameter offload 等多種最佳化策略,以提高訓練效率和記憶體使用率。 🎜

Dalam peringkat penjajaran modal, pengarang mereka bentuk skema pengekodan bersatu yang dipanggil "UniRes" untuk memproses imej dan video secara serentak. Skim UniRes adalah serupa dengan skema pengekodan AnyRes dalam LLaVA-1.6, tetapi bahagian imej asas dialih keluar, setiap grid adalah satu dimensi satu dimensi dan pengumpulan ciri 2x2 dilakukan dalam setiap grid. Pendekatan ini memastikan perwakilan yang konsisten dikekalkan apabila memanjangkan data imej kepada video.

LongVA mengguna pakai strategi "latihan konteks pendek, ujian konteks panjang", yang bermaksud model itu hanya menggunakan data teks imej untuk latihan dalam peringkat penjajaran modal, dan secara langsung menggunakan video panjang untuk pemprosesan dan ujian semasa ujian. Strategi ini secara berkesan menunjukkan fenomena pemindahan konteks panjang, membolehkan model memperoleh keupayaan untuk memahami dan memproses video panjang tanpa latihan video panjang.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Prestasi hebat LongVA

Pada masa ini tiada penanda aras untuk menilai panjang konteks visual LMM untuk video yang panjang. Untuk menyelesaikan masalah ini, pasukan LongVA melanjutkan ujian needle-in-a-stack daripada teks kepada visual dan mencadangkan penanda aras Visual Needle-In-A-Haystack (V-NIAH).

Dalam ujian V-NIAH, pasukan mereka bentuk 5 soalan soalan dan jawapan imej, memasukkan setiap soalan sebagai bingkai tunggal ke dalam beberapa jam filem dan mengambil sampel video pada kekerapan 1 bingkai/saat sebagai input visual. Imej "jarum" ini diperoleh daripada set data menjawab soalan visual sedia ada atau imej yang dijana AI untuk memastikan model itu tidak dapat menjawab soalan melalui pengetahuan bahasa sahaja. Setiap soalan mengandungi "petunjuk penyetempatan" yang membolehkan sistem atau manusia yang betul untuk mengesan bingkai "pin" daripada video dan menjawab soalan.

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Keputusan ujian V-NIAH menunjukkan bahawa ujian visual needle-in-a-stock LongVA hampir betul dalam 2000 bingkai (144 token setiap bingkai), dan ia juga mengekalkan kadar ketepatan yang baik pada skala 3000 bingkai. Menariknya, sama dengan model bahasa, mereka mendapati bahawa LongVA juga mempunyai tahap tertentu fenomena Lost-In-The-Middle pada V-NIAH.

Dalam senarai Video-MME baru-baru ini yang dicadangkan oleh Tencent, Universiti Sains dan Teknologi China dan institusi lain, LongVA menduduki tempat ketujuh dan mencapai SoTA model 7B. /Https://video-mme.github.io/home_page.html#leaderboard

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

Dalam ujian penanda aras MLVU yang dilancarkan oleh Northern Post, Universiti Peking dan Universiti Zhejiang, LONGVA lebih lagi Ia adalah model sumber terbuka terkuat selepas GPT-4o. .

Untuk butiran lanjut, pembaca yang berminat boleh melihat kertas asal.

以上是7B最強長影片模型! LongVA影片理解超千幀,霸榜多個榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板