規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B
多模態學習面臨的主要挑戰之一是需要融合文字、音訊、視訊等異質的模態,多模態模型需要組合不同來源的訊號。然而,這些模態具有不同的特徵,很難透過單一模型來組合。例如,視訊和文字具有不同的取樣率
最近,來自Google DeepMind 的研究團隊將多模態模型解耦成多個獨立的、專門的自回歸模型,根據各種模態的特徵來處理輸入。
具體來說,研究提出了一個名為Mirasol3B的多模態模型。 Mirasol3B由時間同步的音訊和視訊自回歸組件以及用於上下文模態的自回歸組件組成。這些模態不一定在時間上對齊,但依照順序排列
論文網址:https://arxiv.org/abs/2311.05698
Mirasol3B 在多模態基準測試中達到了SOTA 水平,優於規模更大的模型。透過學習更緊湊的表徵,控制音訊 - 視訊特徵表徵的序列長度,並根據時間對應關係進行建模,Mirasol3B 能夠有效滿足多模態輸入的高計算要求。
方法簡介
Mirasol3B 是音訊- 視訊- 文字多模態模型,其中將自迴歸建模解耦成時間對齊模態(例如音訊、視訊)的自回歸組件,以及針對非時間對齊的上下文模態(例如文字)的自回歸組件。 Mirasol3B 使用交叉注意力權重來協調這些組件的學習進程。這種解耦使得模型內部的參數分佈更合理,也為模態(視訊和音訊)分配了足夠的容量,並使得整體模型更加輕量。
根據圖1所示,Mirasol3B由兩個主要的學習組件組成:自回歸組件和輸入組合組件。其中,自回歸組件旨在處理幾乎同步的多模態輸入,例如視頻和音頻,以便及時地進行輸入組合
#「Combiner」從原始的模態輸入中提取初級的時空表示,捕捉視頻的動態特性,並結合與其共時的音訊特徵,模型可以在不同的速率接收多模態輸入,在處理較長的視訊時表現良好。
「Combiner」有效地滿足了模態表徵既要高效又要資訊豐富的需求。它可以充分涵蓋影片與其他同時發生的模態中的事件和活動,並能夠用於後續的自回歸模型,學習長期依賴關係。
#########為了處理視訊和音訊訊號,並適應更長的視訊/ 音訊輸入,它們被分割成(在時間上大致同步)的小塊,再透過「Combiner」學習聯合視聽表示。第二個元件處理上下文,或時間上未對齊的訊號,如全域文字訊息,這些訊息通常仍然是連續的。它也是自回歸的,並使用組合的潛在空間作為交叉注意力輸入。 ############學習組件包含視訊和音頻,其參數為3B;而沒有音頻的組件則為2.9B。其中,大多數參數用於音視頻自回歸模型。 Mirasol3B通常處理128幀的視頻,也可以處理更長的視頻,例如512幀############由於設計了分區和“Combiner”的模型架構,增加更多幀,或增加區塊的大小、數目等,只會使參數略有增加,解決了更長視訊需要更多參數、更大的記憶體的問題。 ######
實驗及結果
該研究在標準 VideoQA 基準、長視訊 VideoQA 基準和音訊 視訊基準上對 Mirasol3B 進行了測試評估。
在 VideoQA 資料集 MSRVTTQA 上的測試結果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及規模較大的模型,如 PaLI-X、Flamingo。
在長視訊問答方面,研究在ActivityNet-QA、NExTQA 資料集上對Mirasol3B 進行了測試評估,結果如下表2 所示:
在最後,研究選擇了KineticsSound、VGG-Sound和Epic-Sound進行音訊視訊基準測試,並採用開放式生成評估。實驗結果如下表3所示:
有興趣的讀者可以閱讀論文原文,了解更多研究內容。
以上是規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
