首頁 科技週邊 人工智慧 支援1024幀、準確率近100%,英偉達'LongVILA”開始發力長視頻

支援1024幀、準確率近100%,英偉達'LongVILA”開始發力長視頻

Aug 21, 2024 pm 04:35 PM
工程 LongVILA

現在,長上下文視覺語言模型(VLM)有了新的全端解決方案 ——LongVILA,它集系統、模型訓練與資料集開發於一體。


現階段,將模型的多模態理解與長上下文能力結合是非常重要的,支持更多模態的基礎模型可以接受更靈活的輸入訊號,以便人們可以以更多樣化的方式與模型互動。而更長的上下文使模型處理的資訊更多,例如長文檔、長視頻,這種能力同樣為更多現實世界的應用程式提供了所需的功能。

然而,目前面臨的問題是一些工作已經啟用了長上下文視覺語言模型(VLM),但通常是採用簡化的方法,而不是提供一個全面的解決方案。

全端設計對於長上下文視覺語言模型至關重要。訓練大型模型通常是一項複雜而有系統的工作,需要資料工程和系統軟體協同設計。與純文字 LLM 不同,VLM(例如 LLaVA)通常需要獨特的模型架構和靈活的分散式訓練策略。

此外,長上下文建模不僅需要長上下文數據,還需要能夠支援記憶體密集型長上下文訓練的基礎設施。因此,對於長上下文 VLM 來說,精心規劃的全端設計(涵蓋系統、資料和 pipeline)是必不可少的。

本文,來自英偉達、MIT、UC 伯克利、德州大學奧斯汀分校的研究者引入了LongVILA,這是一種用於訓練和部署長上下文視覺語言模型的全端解決方案,包括系統設計、模型訓練策略和資料集建置。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
  • 論文地址:https://arxiv.org/pdf/2408.10188
  • 地址https://github.com/NVlabs/VILA/blob/main/LongVILA.md
  • 論文標題:LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS
    IDE

對於訓練基礎設施,該研究建立了一個高效且用戶友好的框架,即多模態序列並行(MM-SP),它支持訓練記憶- 密集型長上下文VLM。

對於訓練pipeline,研究者實施了一個五階段訓練流程,如圖1 所示:即(1) 多模態對齊,(2) 大規模預訓練,(3) 短監督微調,(4) LLM 的上下文擴展,以及(5) 長監督微調。

對於推理,MM-SP 解決了 KV 快取記憶體使用率的挑戰, 這在處理非常長的序列時會成為瓶頸。

透過使用 LongVILA 增加視訊幀數,實驗結果顯示該研究在 VideoMME 和長視訊字幕任務上的表現持續提高(圖 2)。在 1024 幀上訓練的 LongVILA 模型在 1400 幀的大海撈針實驗中實現了 99.5% 的準確率,相當於 274k 個 token 的上下文長度。此外, MM-SP 系統可以有效地將上下文長度擴展到200 萬個token 而無需梯度檢查點,與環形序列並行(ring sequence parallelism)相比實現了2.1 倍至5.7 倍的加速,與Megatron 上下文並行+張量並行相比實現了1.1 倍至1.4 倍的加速。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
下圖為 LongVILA 技術在處理長視訊字幕時的範例:在字幕開頭,8 幀的基線模型僅描述了靜態影像和兩輛車。相比之下,256 幀的 LongVILA 描述了雪地上的汽車,包括車輛的前、後和側面視圖。在細節上,256 幀的 LongVILA 還描述了點火按鈕、變速桿和儀錶板的特寫,這些在 8 幀的基線模型中是缺少的。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
多模態序列並行

訓練長上下文語言模型(VLM)會產生大量記憶體需求。例如下圖 1 中 Stage 5 的長影片訓練,單一序列包含了產生 1024 個視訊畫面的 200K tokens,這超出了單一 GPU 的記憶體容量。

研究者開發了一個基於序列並行的客製化系統。序列並行是目前基礎模​​型系統中常用的技術,用於優化僅文字的 LLM 訓練。不過,研究者發現現有系統既不高效,擴展性也不足以處理長上下文 VLM 工作負載。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
在確定現有系統的限制之後,研究者得出結論,一個理想的多模態序列並行方法應該透過解決模態和網路異構性來優先實現效率和可擴展性,且擴展性不應受到注意力頭數量的限制。

MM-SP 工作流程。為了應對模態異構性的挑戰,研究者提出了兩階段式分片策略,以優化影像編碼和語言建模階段的計算工作負載。

具體如下圖4 所示,第一階段首先在序列並行進程組內的設備之間均勻地分佈圖像(例如視頻幀),從而在圖像編碼階段實現負載平衡。在第二階段,研究者會聚合全域視覺和文字輸入以進行 token 級分片。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
2D 注意力並行。為了解決網路異質性並實現可擴展性,研究者結合環形(Ring)序列並行和 Ulysses 序列並行的優勢。

具體來講,他們將跨序列維或註意力頭維的並行視為「1D SP」。此方法透過跨注意力頭和序列維的平行計算來實現擴展,將 1D SP 轉換為由獨立的 Ring(P2P)和 Ulysses(A2A)進程組組成的 2D 網格。

以下圖3 左所示,為了實現跨2 個節點的8-degree 序列並行,研究者使用2D-SP 建構了一個4×2 通訊網格。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
此外,在下圖5 中,為了進一步解釋ZIGZAG-RINGATTN 如何平衡計算以及2D-Attention 機制如何運作,研究者解釋了使用不同方法的注意力計算計劃。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
與HuggingFace 的原生pipeline 並行策略相比,本文的推理模式更加高效,原因在於所有設備同時參與計算,從而與機器數量呈正比地加速進程,具體如下圖6 所示。同時,此推理模式是可擴展的,記憶體均勻地分佈給各個設備,以使用更多機器來支援更長的序列。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
LongVILA 訓練流程

上文>

上文5 個階段完成。各階段的主要任務分別如下:

在 Stage 1,只有多模態映射器可以訓練,其他映射器被凍結。

在 Stage 2,研究者凍結了視覺編碼器,並訓練了 LLM 和多模態映射器。

在 Stage 3,研究者針對短資料指令遵循任務對模型全面進行微調,例如使用影像和短視訊資料集。

在 Stage 4,研究者以持續預訓練的方式,使用僅文本的資料集來擴展 LLM 的上下文長度。

在 Stage 5,研究者透過長影片監督微調來增強指令遵循能力。值得注意的是,所有參數在該階段都是可訓練的。

實驗結果

研究者從本文系統和建模兩個方面對本文系統和建模兩個方面對本文進行建模全端解決方案進行評估。他們首先展示了訓練和推理結果,從而說明了可支援長上下文訓練和推理的系統實現了效率和可擴展性。接著評估了長上下文模型在字幕和指令遵循任務上的表現。

訓練與推理系統

研究研究對訓練系統的吞吐量、推理系統的延遲以及支援的最大序列長度進行了定量評估。
表 2 顯示了輸送量結果。與 ZIGZAG-RINGATTN 相比,本文系統實現了 2.1 倍至 5.7 倍的加速,性能與 DeepSpeed-Ulysses 相當。與 Megatron-LM CP 中更優化的環形序列並行實現相比,實現了 3.1 倍至 4.3 倍的加速。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
研究透過逐步將序列長度從 1k 增加到 10k 來評估固定數量 GPU 支援的最大序列長度,直到發生記憶體不足錯誤。結果總結在圖 9 中。

當擴展到 256 個 GPU 時,本文方法可以支援大約 8 倍的上下文長度。此外,所提系統實現了與 ZIGZAG-RINGATTN 類似的上下文長度擴展,在 256 個 GPU 上支援超過 200 萬的上下文長度。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
表 3 比較了支持的最大序列長度,該研究提出的方法支持的序列比 HuggingFace Pipeline 支持的序列長 2.9 倍。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
圖 11 展示了長影片大海撈針實驗的結果。相比之下,LongVILA 模型(右)在一系列幀數和深度上都表現出了增強的性能。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
表5 列出了各種模型在Video MME 基准上的表現,比較了它們在短視頻、中視頻和長視頻長度上的有效性以及整體性能。 LongVILA-8B 採用 256 幀,總分為 50.5。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
研究者也在表 6 對第 3 期和第 4 期的影響進行了消融研究。
支援1024幀、準確率近100%,英偉達LongVILA”開始發力長視頻
表 7 顯示了在不同幀數(8、128 和 256)上訓練和評估的 LongVILA 模型的效能指標。隨著幀數的增加,模型的性能顯著提高。具體來說,平均分數從 2.00 上升到 3.26, 突顯了模型在更多幀數下產生準確豐富字幕的能力。

以上是支援1024幀、準確率近100%,英偉達'LongVILA”開始發力長視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1430
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles