首頁 科技週邊 人工智慧 將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

Feb 01, 2024 pm 05:15 PM
產業 稀疏模型 大型視覺語言模型

大型視覺語言模型(LVLM)可以透過擴展模型來提高效能。然而,擴大參數規模會增加訓練和推理成本,因為每個token的計算都會啟動所有模型參數。

來自北京大學、中山大學等機構的研究者聯合提出了一種新的訓練策略,名為MoE-Tuning,用於解決多模態學習和模型稀疏性相關的表現下降問題。 MoE-Tuning能夠建立參數數量驚人但計算成本恆定的稀疏模型。此外,研究者還提出了一種基於MoE的新型稀疏LVLM架構,稱為MoE-LLaVA框架。在這個框架中,透過路由演算法只啟動前k個專家,其餘專家則保持非活動狀態。透過這種方式,MoE-LLaVA框架在部署過程中能夠更有效率地利用專家網路的資源。這些研究成果為解決LVLM模型在多模態學習和模型稀疏性方面的挑戰提供了新的解決方案。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

  • 論文網址:https://arxiv.org/abs/2401.15947

  • 計畫網址: https://github.com/PKU-YuanGroup/MoE-LLaVA

  • Demo網址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

  • 論文題目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA 只有3B 個稀疏激活參數,表現卻與LLaVA- 1.5-7B 在各種視覺理解資料集上相當,甚至在物體幻覺基準測試中甚至超越了LLaVA-1.5-13B。透過 MoE-LLaVA,該研究旨在建立稀疏 LVLMs 的基準,並為未來研究開發更有效率和更有效的多模態學習系統提供寶貴的見解。 MoE-LLaVA 團隊已經開放了所有的資料、程式碼和模型。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖1 MoE-LLaVA 在幻覺表現上和其他LVLM 的比較

方法簡介

MoE-LLaVA 採用三階段的訓練策略。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖2 MoE-Tuning 的流程圖

如圖2 所示,視覺編碼器(vision encoder)處理輸入圖片得到視覺token 序列。利用一個投影層將視覺 token 映射成 LLM 可接受的維度。類似地,與圖片配對的文字經過一個字嵌入層(word embedding layer)被投影得到序列文字 token。

階段 1:如圖 2 所示,階段 1 的目標是讓視覺 token 適應到 LLM,賦予 LLM 看懂圖片的實體有哪些的能力。 MoE-LLaVA 採用一個 MLP 來將圖片 token 投影到 LLM 的輸入域,這表示一個個圖片小 patch 被 LLM 當作偽文字 token。在這個階段,LLM 被訓練學會描述圖片,理解更高層次的圖片語意。在這個階段 MoE 層不會被應用到 LVLM 中。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖3 更具體的訓練框架和訓練策略

#階段2:用多模態的指令數據來微調是提高大模型能力和可控性的關鍵技術,並且在這個階段LLM 被調整為有多模態理解能力的LVLM。在這個階段研究加入更複雜的指令,包含圖片邏輯推理,文字辨識等高階任務,要求模型有更強的多模態理解能力。通常來說,稠密模型的 LVLM 到此就訓練完成,然而研究團隊發現同時將 LLM 轉為 LVLM 和把模型稀疏化是具有挑戰的。因此,MoE-LLaVA 將使用第二階段的權重作為第三階段的初始化以降低稀疏模型學習的難度。

階段 3:MoE-LLaVA 將 FFN 複製多份作為專家集合的初始化權重。當視覺token 和文字token 被餵入MoE 層時,router 會計算每個token 和專家們的匹配權重,然後每個token 會被送入最匹配的top-k 個專家進行處理,最後根據router 的權重加權求和匯聚成輸出。當 top-k 個專家被激活時,其餘的專家保持非活動狀態,這種模型構成了具有無限可能的稀疏通路的 MoE-LLaVA。

實驗

#如圖4 所示,由於MoE-LLaVA 是第一個基於LVLM 搭載soft router 的稀疏模型,因此研究將先前的模型歸納為稠密模型。研究團隊在 5 個圖片問答 benchmark 上驗證了 MoE-LLaVA 的性能,並報告了激活的參數量和圖片解析度。與 SOTA 方法 LLaVA-1.5 相比,MoE-LLaVA-2.7B×4 展現了強大的圖片理解能力,在 5 個 benchmark 上表現非常接近 LLaVA-1.5。其中 MoE-LLaVA 以 3.6B 的稀疏活化參數在 SQAI 上超過了 LLaVA-1.5-7B 1.9%。值得注意的是,由於 MoE-LLaVA 的稀疏結構,只需要 2.6B 的活化參數量就能全面超過 IDEFICS-80B。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖4 MoE-LLaVA 在9 個benchmark 上的效能

另外,研究團隊也關注到最近的小視覺語言模型TinyGPT-V,MoE-LLaVA-1.8B×4 在相當的活化參數下在GQA 和VisWiz 分別超過TinyGPT-V 27.5% 和10%,這標誌著MoE-LLaVA 強大的理解能力在自然視覺中。

為了更全面地驗證 MoE-LLaVA 的多模態理解能力,該研究在 4 個 benchmark toolkit 上評估了模型性能。 benchmark toolkit 是驗證模型能否自然語言問答的工具包,通常答案是開放性的且無固定模板。如圖 4 所示,MoE-LLaVA-1.8B×4 超過了 Qwen-VL,後者使用更大的圖片解析度。這些結果都展示了 MoE-LLaVA 這個稀疏模型可以用更少的激活參數達到和稠密模型相當甚至超過的性能。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖5 MoE-LLaVA 在幻覺物件偵測上的表現評估

##該研究採用POPE 評估pipeline 來驗證MoE-LLaVA 的物體幻覺,結果如圖5 所示,MoE-LLaVA 展現出最佳的性能,意味著MoE-LLaVA 傾向於生成與給定圖像一致的對象。具體的,MoE-LLaVA-1.8B×4 以 2.2B 的活化參數超過了 LLaVA。另外,研究團隊觀察到 MoE-LLaVA 的 yes ratio 佔比處於較均衡狀態,這表明稀疏模型 MoE-LLaVA 能夠根據問題做出正確的回饋。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖6 專家負載視覺化

圖6 展示了在 ScienceQA 上 MoE-LLaVA-2.7B×4-Top2 的專家負荷。整體上,在訓練初始化時,所有的 MoE 層 中的專家的負荷都比較平衡。然而隨著模型逐漸被稀疏化,第 17 到 27 層的專家的負荷突然增大,甚至幾乎包辦了所有 token。對於淺層的 5-11 層,主要是由專家 2、3、4 共同合作。值得關注的是,專家 1 幾乎只在第 1-3 層工作,隨著模型變深,專家 1 逐漸退出了工作。因此,MoE-LLaVA 的專家們學到了某種特定的模式,它能夠按照一定的規律進行專家分工。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖 7 模態分佈視覺化

#圖 7 展示了不同專家的模態分佈。研究發現 text 和 image 的路由分佈極為相似,例如當專家 3 在 17-27 層努力工作時,它所處理的 text 和 image 的佔比是相似的。這顯示 MoE-LLaVA 對於模態並無明顯的偏好。

該研究也在 token level 上觀察了專家們的行為,並在下游任務上追蹤所有 token 在稀疏網路中的軌跡。對於 text 和 image 所有活化的通路,研究採用 PCA 降維得到主要的 10 條通路,如圖 8 所示。研究團隊發現對於某個未見的 text token 或 image token,MoE-LLaVA 總是偏向派發專家 2 和 3 來處理模型深層。專家 1、4 傾向於處理初始化的 token。這些結果能夠幫助我們更好地理解稀疏模型在多模態學習上的行為,並探索未知的可能性。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖 8 活化路徑視覺化

以上是將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網友:學會給自己放假了 Claude也變懶了!網友:學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

See all articles