首頁 科技週邊 人工智慧 BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

Jul 13, 2023 pm 02:33 PM
數據 模型

多模態大語言模型(Multimodal Large Language Model,MLLM)依賴LLM豐富的知識儲備以及強大的推理和泛化能力來解決多模態問題,目前已經湧現出一些令人驚嘆的能力,例如看圖寫作和看圖寫程式。

但僅根據這些範例很難充分反映MLLM的效能,目前仍缺乏對MLLM的全面評測。

為此,騰訊優圖實驗室聯合廈門大學在新建的評測基準MM上首次對現有12種開源MLLM模型進行了全面定量評測並公佈了16個排行榜,包含感知和認知兩個總榜以及14個子榜單:

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

論文連結:https://arxiv.org/pdf /2306.13394.pdf

專案連結:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

#現有MLLM的量化評測方法主要分為三類,但都存在一定的限制導致難以全面反映其效能。

第一類方法在傳統的公開資料集上進行評測,例如影像描述(Image Caption)和視覺問答(VQA)資料集。 BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

但一方面這些傳統資料集可能難以反映MLLM湧現的新能力,另一方面由於大模型時代的訓練集都不再統一,因此難以保證這些評測資料集沒有被其他MLLM訓練過。

第二種方式是收集新的資料進行開放式評測,但這些資料要麼未公開[1],要麼數量太少(只有50張)[2]。

第三種方式聚焦在MLLM的某個特定面向,例如物件幻覺(Object Hallucination)[3]或對抗穩健性[4],無法做全面評測。

目前亟需一個全面的評測基準來符合MLLM的快速發展。研究人員認為一個通用的全面評測基準應該具有以下特點:

######(1)應該涵蓋盡可能多的範圍,包括感知和認知能力。前者指的是辨識物體,包括其存在性、數量、位置和顏色等。後者指的是綜合感知資訊以及LLM中的知識來進行更複雜的推理。其中前者是後者的基礎。 ############(2)資料或標註應該盡量避免採用現有的公開資料集,以減少資料外洩的風險。 ############(3)指令應該盡可能簡潔並且符合人類的認知習慣。不同的指令設計可能會極大影響模型的輸出,但所有的模型都在統一的簡潔指令下進行評測可以保證公平性。一個好的MLLM模型應該具備泛化到這種簡潔指令上的能力,避免陷入Prompt Engineering。 ############(4)MLLM在該簡潔指令下的輸出應該是直覺的並且便於定量統計。 MLLM開放式的回答給量化統計提出了很大挑戰。現有方法傾向於使用GPT或人工評分,但可能面臨不準確和主觀性的問題。 #####################圖1. MME評測基準範例。每張圖片對應兩個問題,答案分別為Yes[Y]和No[N]。問題加上「Please answer yes or no」共同構成指令。 ############基於以上原因,一個新的MLLM評測基準MME被建構出來,它同時具備以上四個特點:############1. MME同時評測知覺和認知能力。除了OCR外,感知能力還包括粗粒度和細粒度目標識別。前者辨識物體的存在性、數量、位置和顏色。後者識別電影海報、名人、場景、地標和藝術品。認知能力包括常識推理、數值計算、文字翻譯和程式碼推理。總的子任務數達到14種,如圖1所示。 ############2. MME中所有的指令-答案對都是人工建構的。對於少量使用到的公開資料集,僅使用其影像而沒有依賴其原始標註。同時,研究人員也盡力透過人工拍攝和影像生成的方式來擷取數據。 ######

3. MME的指令設計得盡量簡潔以避免Prompt Engineering對模型輸出的影響。研究者再次申明一個好的MLLM應該要泛化到這種簡潔且使用頻繁的指令,這對所有模型都是公平的。圖1中顯示了每個子任務的指令。

4. 得益於指令設計“Please answer yes or no”,可以方便地根據模型輸出的“Yes”或“No”進行定量統計,這種方式可以同時保證準確性和客觀性。值得注意的是,研究者也嘗試設計選擇題的指令,但發現目前的MLLM仍難以跟隨這類較為複雜的指令。

研究人員一共評測了12種先進的MLLM模型,包括BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、 mPLUG-Owl [2] 、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、 VisualGLM-6B [12], PandaGPT [13], ImageBind-LLM [14] 與LaVIN [15] 。

其中,統計指標有三種,包含Accuracy,Accuracy 和Score。其中對於每個任務,Accuracy是基於問題統計而來,Accuracy 是基於圖片統計而來(圖片對應的兩個問題都需要正確回答),Score是Accuracy和Accuracy 的和。

知覺的總分為10個知覺類別子任務Score的總和,認知的總分是4種認知類別任務Score的總和。具體詳見項目連結。

12種模型在14種子任務上的測試比較如圖2所示:

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

圖2. 12種模型在14種子任務上的比較。每種子任務的滿分為200分。

總共16個榜單,包括感知類別和認知類別的總榜單以及14個子任務的榜單也已發布。兩個總榜單分別如圖3和圖4所示,值得注意的是BLIP-2和InstructBLIP在這兩個名單中都維持在前三名。

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」圖片

圖3.感知類別任務總榜單

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

#圖4.認知類別任務總榜單

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

#圖5.所有榜單

BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」

##另外研究人員也總結了MLLM模型在實驗中揭露的一些通用問題,如圖6所示,希望可以為後續的模型最佳化提供指導。

圖片

圖6.MLLM揭露的通用問題。 [Y]/[N]表示真實的答案是Yes/No。 [R]是MLLM生成的答案。

######第一個問題是不跟隨指令。 #####################儘管已經採用了非常簡潔的指令設計,但仍然有MLLM自由回答問題而不是跟隨指令。 ############如圖6中的第一行所示,指令已經申明「Please answer yes or no”,但MLLM僅給出了一個陳述性答案。如果回答的開頭沒有出現「Yes」或「No」,都判定該回答錯誤。一個好的MLLM,尤其是經過指令微調後,應該可以泛化到這種簡單的指令上。 ###############第二個問題是缺乏感知能力。 #####################如圖6中的第二行所示,MLLM錯誤地辨識了第一張圖片中香蕉的數量和第二張圖片中的數字,導致回答錯誤。研究人員也注意到感知的性能很容易受到指令變化的影響,因為同一張圖的兩個指令只相差一個單詞,但導致了完全不同的感知結果。 ######

第三個問題是缺乏推理能力。

如圖6中的第三行所示,從紅色的文字可以看出MLLM已經知道了第一張圖片不是一個辦公室,但仍然給出了一個錯誤的回答「Yes」。

相似地,在第二張圖片中,MLLM已經計算得到了正確的算數結果,但最終也給出了錯誤的答案。再加上思維鏈Prompt,例如「Let’s think step by step」或許能帶來更好的效果。期待這方面有更深入的研究。

第四個問題跟隨指令的物件幻視。如圖6中的第四行所示,當指令中含有圖片中不存在的物體時,MLLM將會幻想該物體存在並最終給出一個「Yes」的答案。

這種總是回答「Yes」的方式導致了Accuracy接近50%,Accuracy 接近於0。這顯示抑制目標幻視的重要性,也需要進一步思考MLLM產生的答案的可靠性。

以上是BLIP-2、InstructBLIP穩居前三名!十二大模型,十六份榜單,全面評測「多模態大語言模式」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

iPhone上的蜂窩數據網路速度慢:修復 iPhone上的蜂窩數據網路速度慢:修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次 美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,

See all articles