4 秒看完 2 小時影片!阿里發布通用多模態大模型 mPLUG-Owl3
4 秒看完 2 小時電影,阿里團隊新成果正式亮相-
推出通用多模態大模型 mPLUG-Owl3,專門用來理解多圖、長影片。
具體來說,以LLaVA-Next-Interleave 為基準,mPLUG-Owl3 將模型的First Token Latency 縮小了6 倍,且單張A100 能建模的影像數目提升了8 倍,達到了400 張圖片,實測4 秒就能看完一部2 小時的電影。
換句話說,模型的推理效率有了極大提升。
而且不犧牲模型的準確性。
mPLUG-Owl3 也在多模態大模型所涉及的各種場景,包括單圖、多圖、視頻領域的諸多 Benchmarks 上達到了SOTA。
論文作者來自阿里mPLUG 團隊,他們一直深耕多模態大模型底座,在此之前也提出了:
高效多模態底座mPLUG 系列
模組化多模態大語言模型底座mPLUG-Owl 系列
文檔理解底座mPLUG-DocOwl 系列
下面就讓我們來了解一下本次發布的mPLUG-Owl3 究竟帶來了什麼黑科技吧。
玩法解鎖
團隊展示了 mPLUG-Owl3 的幾種常見用法。
多模態檢索增強
一般來說,對於模型沒有學過的知識,透過檢索系統進行補充是常見的做法。這需要模型能準確理解傳入的多模態知識,並用來解答問題。
在下面這個例子中,mPLUG-Owl3 不僅能基於檢索知識正確回复,還能給出它基於哪一條知識做出的判斷,並且給出詳細的判斷依據。這對於下游研發人員開發和調試都是非常友善的。
檢索部分:以下是為你檢索到的幾個多模態知識,供你做決定。
提問:根據你對上面四張狗的照片的觀察,你能對圖片 5 中的狗進行分類嗎?給出理由。
回答:根據對四張狗的照片的觀察,圖片 5 中的狗可以被歸類為愛爾蘭梗犬。圖片1 中的狗被描述為愛爾蘭梗犬,圖片5 中的狗與圖片1 中的狗在身體特徵上有相似之處…
多圖推理
生活中常會出現這樣的情況-
許多使用者並非只圍繞一張圖片進行對話,而是使用者可能有幾份資料,需要模型能正確理解不同資料中的內容的關係。
在下面這個例子中,mPLUG-Owl3 能透過兩張圖像所見,激活語言模型的常識知識,並圍繞兩張圖片進行推理。
提問:左邊的動物能在右邊的環境存活嗎?需要回答並給予解釋。
回答(正確答案標綠):大意是,不能存活,因為環境太冷了。
在另一個例子中,mPLUG-Owl3 不僅能察覺兩張圖片風格上的差異性,也能意識到兩張圖中的人物雖然風格不同,但其實是同一個角色。
第一次提問:圖片中描繪了哪些藝術風格,它們有何不同?
回答:第一張是像素風,第二張是卡通風格…(給出理由)
第二次提問:在兩幅畫中都出現了誰?他們的特徵是什麼?
回答:在兩幅畫中,都出現了一個戴著牛仔帽的男人,他被兩種不同的風格描繪。
長影片理解
觀看超長影片是現在大部分模型都無法端到端完成的任務,若是基於Agent 框架,則又難以保證響應速度。
mPLUG-Owl3 能夠看一部 2 小時電影,並且4 秒就能開始回答用戶的問題。
不管使用者是對電影的開頭、中間和結尾的非常細緻的片段進行提問,mPLUG-Owl3 都能對答如流。
咋做到的?
與傳統模型不同,mPLUG-Owl3不需要事先將視覺序列拼接到語言模型的文字序列中。
換句話說,不管輸入了啥(幾十張圖或幾小時視訊),都不佔用語言模型序列容量,這就規避了長視覺序列帶來的巨額計算開銷和顯存佔用。
有人可能會問了,那視覺訊息如何融入語言模型呢?
為實現這一點,該團隊提出了一種輕量化的Hyper Attention 模組,它可以將一個已有的只能建模文本的Transformer Block 擴展成一個能夠同時做圖文特徵互動和文字建模的新模組。
透過在整個語言模型中稀疏地擴展4 個Transformer Block,mPLUG-Owl3 就能用非常小的代價將 LLM 升級成多模態 LLM。
視覺特徵在從視覺編碼器抽取出來後,會透過一個簡單的線性映射把維度對齊到語言模型的維度。
隨後,視覺特徵只會在這 4 層 Transformer Block 與文字交互,由於視覺 Token 沒有經過任何壓縮,所以細粒度的資訊都能保留。
下面來看看Hyper Attention 內又是如何設計的。
Hyper Attention 為了讓語言模型能感知到視覺特徵,引入了一個Cross-Attention操作,將視覺特徵作為 Key 和 Value,將語言模型的 hidden state 作為 Query 去析取視覺特徵。
近年來也有其他研究考慮將 Cross-Attention 用於多模態融合,例如 Flamingo 和 IDEFICS,但這些工作都沒能取得較好的效能表現。
在mPLUG-Owl3 的技術報告中,團隊比較了Flamingo 的設計,來進一步說明Hyper Attention 的關鍵技術點:
首先,Hyper Attention 並沒有採用Cross-Attention 和Self-Attention 級聯的設計,而是嵌入在Self-Attention 區塊內。
它的好處是大幅降低了額外引入的新參數,使得模型更容易訓練,並且訓練和推理效率也能進一步提升。
其次,Hyper Attention 選擇共享語言模型的 LayerNorm,因為 LayerNorm 所輸出的分佈正是 Attention 層已經訓練穩定的分佈,共享這一層對於穩定學習新引入的 Cross-Attention 至關重要。
事實上,Hyper Attention 採取了一種並行 Cross-Attention 和 Self-Attention 的策略,使用共享的 Query 去與視覺特徵交互,透過一個 Adaptive Gate 融合兩者的特徵。
這使得 Query 可以根據自身語意針對性地選擇與之相關的視覺特徵。
團隊發現,影像在原始上下文中與文字的相對位置關係對於模型更好的理解多模態輸入非常重要。
為了建模這個性質,他們引入了一種多模態交錯的旋轉位置編碼 MI-Rope 來給視覺的 Key 建模位置資訊。
具體來說,他們預先記錄了每張圖片在原文中的位置信息,會取這一位置來計算對應的 Rope embedding,而同一張圖的各個 patch 會共享這個 embedding。
此外,他們也在 Cross-Attention引入了 Attention mask,讓原始上下文中在圖片之前的文字不能看到後面的圖片對應的特徵。
概括而言,Hyper Attention 的這些設計點,為 mPLUG-Owl3 帶來了進一步的效率提升,並且保障了它仍然能具備一流的多模態能力。
實驗結果
透過在廣泛的資料集上進行實驗,mPLUG-Owl3 在大多數單圖多模態Benchmarks都能取得SOTA 的效果,甚至不少評量還能超過模型尺寸更大的模型。
同時,在多圖測評中,mPLUG-Owl3 同樣超越了專門針對多圖場景優化的 LLAVA-Next-Interleave 和 Mantis。
另外,在 LongVideoBench(52.1 分)這一專門評估模型對長視頻理解的榜單上更是超越現有模型。
研發團隊也提出了一個有趣的長視覺序列評量方法。
眾所周知,真實的人機互動場景,並非所有圖片都是為了用戶問題服務的,歷史上下文中會充斥著與問題無關的多模態內容,序列越長,這一現象越嚴重。
為了評估模型在長視覺序列輸入中的抗干擾能力,他們基於 MMBench-dev 建構了一個新的測評資料集。
透過為每一個 MMBench 循環評估樣本引入無關的圖片並打亂圖片順序,再針對原本的圖片進行提問,看模型是否能穩定地正確回复。 (同一個問題,會建構 4 個選項順序和乾擾圖片均不同的樣本,全都答對才記一次正確答案。)
實驗中根據輸入圖片數目分為了多個層級。
可以看出,沒有經過多圖訓練的模型例如 Qwen-VL 和 mPLUG-Owl2 很快就敗下陣來。
而經過多圖訓練的LLAVA-Next-Interleave 和Mantis 在最開始能和mPLUG-Owl3 保持近似的衰減曲線,但隨著圖片數目達到了50這個量級,這些模型也不再能正確回答了。
而 mPLUG-Owl3 堅持到了400 張圖片還能保持40% 的準確率。
不過有一說一,儘管mPLUG-Owl3 超越了現有模型,但其準確率遠未達到優秀水平,只能說這一測評方法揭示了所有模型未來需要進一步提升的長序列下的抗干擾能力。
更多詳情歡迎查閱論文及程式碼。
論文:https://arxiv.org/abs/2408.04840
程式碼:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
demo(抱抱臉):https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo(魔搭社群):https://modelscope.cn/studios /iic/mPLUG-Owl3
7B 模型(抱抱臉):https://huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
7B 模型(魔搭社群) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
— 完—
投稿請寄電子郵件到:
ai@qbitai. com
標題註明,告訴我們:
你是誰,從哪裡來,投稿內容
附上論文/ 項目主頁鏈接,以及聯繫方式哦
我們會(盡量)及時回覆你
點這裡追蹤我,記得標星哦~
一鍵三連「分享」、「按讚」和「在看」
科技前沿進展日日相見~
以上是4 秒看完 2 小時影片!阿里發布通用多模態大模型 mPLUG-Owl3的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本站8月5日消息,阿里雲宣布,2024雲棲大會將於9月19日~21日在杭州雲棲小鎮舉辦,將設三日主論壇、400場分論壇與並行話題以及近四萬平方米展區。雲棲大會對民眾免費開放,即日起民眾可透過雲棲大會官網免費申請暢享票,另有5,000元的全通票可購買,本站附門票網址:https://yunqi.aliyun.com/2024 /ticket-list據介紹,雲棲大會起源於2009年,最初命名為第一屆中國網站發展論壇,2011年演變成阿里雲開發者大會,2015年正式更名為“雲棲大會”,至今已連續成功舉

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
