多模態模型評測框架lmms-eval發布!全面覆蓋,低成本,零污染

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
隨著大模型研究的深入,如何將其推廣到更多的模態上已經成為了學術界和產業界的熱點。最近發布的閉源大模型如 GPT-4o、Claude 3.5 等都已經具備了超強的圖像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等開源領域模型也展現了越來越接近閉源的性能。
在這個「畝產八萬斤」,「10 天一個SoTA」的時代,簡單易用、標準透明、可復現的多模態評估框架變得越來越重要,而這並非易事。
為解決以上問題,來自南洋理工大學LMMs-Lab 的研究人員聯合開源了LMMs-Eval,這是一個專為多模態大型模型設計的評估框架,為多模態模型(LMMs )的評測提供了一站式、高效的解決方案。
程式碼倉庫: https://github.com/EvolvingLMMs-Lab/lmms-eval
官方首頁: https://lmms-lab.github.io/
論文地址: https://arxiv.org/abs/2407.12772
榜單地址:https://huggingface.co/spaces/lmms-lab/LiveBench
自2024 年3 月發布以來, LMMs-Eval 框架已經收到了來自開源社群、公司和大學等多方的協作貢獻。現已在 Github 上獲得 1.1K Stars,超過 30+ contributors,總計包含 80 多個數據集和 10 多個模型,並且還在持續增加中。

標準化評估框架
為了提供一個標準化的評估平台,LMMs-Eval 包含了以下特性:
統一接口: LMMs-Eval 在文本測評框架lm-evaluation-harness 的基礎上進行了改進和擴展,通過定義模型、數據集和評估指標的統一接口,方便了用戶自行新增新的多模態模型和資料集。
一鍵式啟動:LMMs-Eval 在HuggingFace 上託管了80 多個(且數量不斷增加)資料集,這些資料集精心從原始來源轉換而來,包括所有變體、版本和分割。使用者無需進行任何準備,只需一條命令,多個資料集和模型將自動下載並測試,等待幾分鐘即可獲得結果。
透明可復現:LMMs-Eval 內建了統一的logging 工具,模型回答的每一題以及正確與否都會被記錄下來, 保證了可復現性和透明性。同時也方便比較不同模型的優勢與缺陷。
LMMs-Eval 的願景是未來的多模態模型不再需要自行編寫資料處理、推理以及提交程式碼。在當今多模態測試集高度集中的環境下,這種做法既不現實,測得的分數也難以與其他模型直接比較。透過連接 LMMs-Eval,模型訓練者可以將更多精力集中在模型本身的改進和最佳化上,而不是在評測和對齊結果上耗費時間。
評測的「不可能三角」
LMMs-Eval 的最終目標是找到一種1. 覆蓋廣2.成本低3.零資料外洩的方法來評估LMMs。然而,即使有了 LMMs-Eval,作者團隊發現想同時做到這三點困難重重,甚至是不可能的。
如下圖所示,當他們將評估資料集擴展到 50 多個時,執行這些資料集的全面評估變得非常耗時。此外,這些基準在訓練期間也容易受到污染的影響。為此, LMMs-Eval 提出了 LMMs-Eval-Lite 來兼顧廣覆蓋和低成本。他們也設計了 LiveBench 來做到低成本和零資料外洩。

LMMs-Eval-Lite: 廣覆蓋輕量級評估

在評測大模型時,往往龐大的參數量和測試任務會使得評測任務的時間和成本急劇上升,因此大家往往會選擇使用較小的數據集或是使用特定的資料集進行評測。然而,有限的評測往往會讓模型能力的理解缺失,為了同時兼顧評測的多樣性和評測的成本,LMMs-Eval 推出了LMMs-Eval-Lite

LMMs-Eval-Lite 旨在建立一個簡化的基準測試集,以在模型開發過程中提供有用且快速的訊號,從而避免現在測試的臃腫問題。如果我們能夠找到現有測試集的子集,在這上面的模型之間的絕對分數和相對排名與全集保持相似,那麼我們可以認為修剪這些資料集是安全的。
為了找到資料集中的資料顯著點,LMMs-Eval 首先使用CLIP 和BGE 模型將多模態評測資料集轉換為向量嵌入的形式並使用k-greedy 聚類的方法找到了數據顯著點。在測驗中,這些規模較小的資料集仍展現出與全集相似的評測能力。

隨後LMMs-Eval 使用了相同的方法製作了涵蓋更多資料集的Lite 版本,這些資料集旨在幫助人們節省開發中的評測成本,以便快速判斷模型效能

LiveBench: LMMs 動態測驗
傳統基準著重於使用固定問題和答案的靜態評估。隨著多模態研究的進展,開源模型在分數比較往往優於商用模型,如 GPT-4V,但在實際使用者體驗上卻有所不及。動態的、使用者導向的 Chatbot Arenas 和 WildVision 在模型評估中越來越受歡迎,但是它們需要收集成千上萬的使用者偏好,評估成本極高。
LiveBench 的核心思想是在一個不斷更新的資料集上評估模型的性能,以實現零污染且保持低成本。作者團隊從網路上收集評估數據,並建立了一條 pipeline,自動從新聞和社區論壇等網站收集最新的全球資訊。為了確保訊息的及時性和真實性,作者團隊從包括 CNN、BBC、日本朝日新聞和中國新華社等 60 多個新聞媒體,以及 Reddit 等論壇中選擇來源。具體步驟如下:
捕捉主頁截圖並移除廣告和非新聞元素。
使用目前最強大的多模態模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)設計問題和答案集。由另一個模型審查修訂
問題,確保準確性和相關性。
人工審查最終的問答集,每月收集約 500 個問題,保留 100-300 個作為最終的 livebench 問題集。
採用 LLaVA-Wilder 和 Vibe-Eval 的評分標準 -- 評分模型根據提供的標準答案評分,得分範圍為 [1, 10]。預設評分模型為 GPT-4o,也包含 Claude-3-Opus 和 Gemini 1.5 Pro 作為替代品。最終的報告結果將基於得分轉換為 0 到 100 的準確率指標。

未來也可以在我們動態更新的榜單裡查看多模態模型在每個月動態更新的最新評測數據,以及在最新評測數據,以及在最新評測數據榜單上的最新評測的結果。
以上是多模態模型評測框架lmms-eval發布!全面覆蓋,低成本,零污染的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
