首页 科技周边 人工智能 BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

Jul 13, 2023 pm 02:33 PM
数据 模型

多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码。

但仅根据这些样例很难充分反映MLLM的性能,目前仍然缺乏对MLLM的全面评测。

为此,腾讯优图实验室联合厦门大学在新建的评测基准MM上首次对现有12种开源MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知和认知两个总榜以及14个子榜单:

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

论文链接:https://arxiv.org/pdf/2306.13394.pdf

项目链接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

现有MLLM的定量评测方法主要分为三类,但都存在一定的局限导致难以全面反映其性能。

第一类方法在传统的公开数据集上进行评测,例如图像描述(Image Caption)和视觉问答(VQA)数据集。

但一方面这些传统数据集可能难以反映MLLM涌现的新能力,另一方面由于大模型时代的训练集都不再统一,因此难以保证这些评测数据集没有被其他MLLM训练过。

第二种方式是收集新的数据进行开放式评测,但这些数据要么未公开[1],要么数量太少(仅有50张)[2]。

第三种方式聚焦于MLLM的某个特定方面,比如物体幻觉(Object Hallucination)[3]或者对抗鲁棒性[4],无法做全面评测。

目前亟需一个全面的评测基准来匹配MLLM的快速发展。研究人员认为一个通用的全面评测基准应该具有以下特点:

(1)应该覆盖尽可能多的范围,包括感知和认知能力。前者指的是识别物体,包括其存在性、数量、位置和颜色等。后者指的是综合感知信息以及LLM中的知识来进行更复杂的推理。其中前者是后者的基础。

(2)数据或者标注应该尽可能避免采用已有的公开数据集,以减少数据泄露的风险。

(3)指令应该尽可能简洁并且符合人类的认知习惯。不同的指令设计可能会极大影响模型的输出,但所有的模型都在统一的简洁指令下进行评测可以保证公平性。一个好的MLLM模型应该具备泛化到这种简洁指令上的能力,避免陷入Prompt Engineering。

(4)MLLM在该简洁指令下的输出应该是直观的并且便于定量统计。MLLM开放式的回答给量化统计提出了很大挑战。现有方法倾向于使用GPT或者人工打分,但可能面临着不准确和主观性的问题。

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图1. MME评测基准示例。每张图片对应两个问题,答案分别为Yes[Y]和No[N]。问题加上「Please answer yes or no」共同构成指令。

基于以上原因,一个新的MLLM评测基准MME被构建出来,它同时具备以上四个特点:

1. MME同时评测感知和认知能力。除了OCR外,感知能力还包括粗粒度和细粒度目标识别。前者识别物体的存在性、数量、位置和颜色。后者识别电影海报、名人、场景、地标和艺术品。认知能力包括常识推理、数值计算、文本翻译和代码推理。总的子任务数达到14种,如图1所示。

2. MME中所有的指令-答案对都是人工构建的。对于少量使用到的公开数据集,仅使用其图像而没有依赖其原始标注。同时,研究人员也尽力通过人工拍摄和图像生成的方式来采集数据。

3. MME的指令被设计得尽量简洁以避免Prompt Engineering对模型输出的影响。研究人员再次申明一个好的MLLM应该泛化到这种简洁且使用频繁的指令,这对所有模型都是公平的。图1中显示了每个子任务的指令。

4. 得益于指令设计「Please answer yes or no」,可以方便地根据模型输出的「Yes」或「No」进行定量统计,这种方式可以同时保证准确性和客观性。值得注意的是,研究人员也尝试过设计选择题的指令,但发现当前的MLLM还难以跟随这类较为复杂的指令。

研究人员一共评测了12种先进的MLLM模型,包括BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、 mPLUG-Owl [2]、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、 VisualGLM-6B [12], PandaGPT [13], ImageBind-LLM [14] 和 LaVIN [15]。

其中,统计指标有三种,包括Accuracy,Accuracy+和Score。其中对于每个任务,Accuracy是基于问题统计而来,Accuracy+是基于图片统计而来(图片对应的两个问题都需要回答正确),Score是Accuracy和Accuracy+的和。

感知的总分为10种感知类子任务Score的总和,认知的总分是4种认知类任务Score的总和。具体详见项目链接。

12种模型在14种子任务上的测试比较如图2所示:

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图2. 12种模型在14种子任务上的比较。每种子任务的满分为200分。

一共16个榜单,包括感知类和认知类的总榜单以及14个子任务的榜单也已发布。两个总榜单分别如图3和图4所示,值得注意的是BLIP-2和InstructBLIP在这两个榜单中都保持在前三。

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」图片

图3.感知类任务总榜单

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图4.认知类任务总榜单

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图5.所有榜单

另外研究人员也总结了MLLM模型在实验中暴露的一些通用问题,如图6所示,希望可以为后续的模型优化提供指导。

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」图片

图6. MLLM暴露的通用问题。[Y]/[N]表示真实的答案是Yes/No。[R]是MLLM生成的答案。

第一个问题是不跟随指令。

尽管已经采用了非常简洁的指令设计,但仍然有MLLM自由回答问题而不是跟随指令。

如图6中的第一行所示,指令已经申明「Please answer yes or no」,但MLLM仅给出了一个陈述性回答。如果在回答的开头没有出现「Yes」或者「No」,都判定该回答错误。一个好的MLLM,尤其是经过指令微调后,应该能够泛化到这种简单的指令上。

第二个问题是缺乏感知能力。

如图6中的第二行所示,MLLM错误地识别了第一张图片中香蕉的数量和第二张图片中的数字,导致回答错误。研究人员也注意到感知的性能很容易受到指令变化的影响,因为同一张图的两个指令只相差一个单词,但导致了完全不同的感知结果。

第三个问题是缺乏推理能力。

如图6中的第三行所示,从红色的文字可以看出MLLM已经知道了第一张图片不是一个办公场所,但仍然给出了一个错误的回答「Yes」。

相似地,在第二张图片中,MLLM已经计算得到了正确的算数结果,但最终也给出了错误的答案。添加思维链Prompt,例如「Let’s think step by step」也许能带来更好的效果。期待这方面有更深入的研究。

第四个问题跟随指令的物体幻视。如图6中的第四行所示,当指令中含有图片中不存在的物体时,MLLM将会幻想该物体存在并最终给出一个「Yes」的回答。

这种总是回答「Yes」的方式导致了Accuracy接近于50%,Accuracy+接近于0。这表明抑制目标幻视的重要性,并且也需要进一步思考MLLM生成的答案的可靠性。

以上是BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

See all articles