通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验
想知道《清明上河图》里面有多少头骆驼吗?来看看这个支持超高清输入的多模态模型吧。
最近,来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。
论文地址:https://arxiv.org/abs/2311.04219
与受限于固定尺寸视觉编码器的传统模型不同,OtterHD-8B具有处理灵活输入尺寸的能力,确保了其在各种推理需求下的通用性。
同时,团队还提出了一个全新的基准测试MagnifierBench,可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。
实验结果表明,OtterHD-8B的性能表现在直接处理高分辨率输入方面显着优于同类型号
效果演示
如下图中,询问清明上河图(局部)中有多少只骆驼,图片输入达到了2446x1766像素,模型也能成功对答。
面对GPT4-V曾经为之困惑的数苹果问题,该模型成功地计算出其中包含11个苹果
除了论文中展示的高清输入的例子,我们也进行了一些测试,下图我们让模型假设用户是一个剑桥大学的PhD,解释这个图是什么意思。
其中模型的回答中准确的识别出图片中的Black Hole和White Hole等信息,并且识别出其是一个tunnel-like structure,然后给出了详细的解释。
在下面的图表中,模型被要求解释关于能源占比的情况。模型成功地识别了图中所示的几种能源类型,并准确地呈现了它们随时间变化的占比情况
下图关于换灯泡的流程图,模型准确理解了流程图的含义并且给出了一步一步的详细指导。
80亿参数指令微调OtterHD-8B
Fuyu-8B的OtterHD-8B是第一个在最大1024×1024输入上进行训练的开源指令微调大语言模型,这一点值得注意
此外,在推理过程中,它还能进一步扩展到更大的分辨率(如1440×1440)。
训练细节
在初步实验中,团队发现Fuyu在对某些基准测试的特定指令作出响应时表现不佳,这导致在MME和MMBench上模型的性能非常弱
为了解决这些问题,团队进行了指令微调,基于370K条混合数据对Fuyu模型进行了调整,并参考LLaVA-1.5的相似指令模板来规范模型回答的格式
在训练阶段,所有数据集都被组织成指令/应答对,汇总到统一的dataloader中,并进行统一采样,以确保代表性的完整性。
为了提升建模代码的效能,团队采用了FlashAttention-2和FlashAttention资源库中的算子融合技术
在Fuyu简化的架构的帮助下,根据图2所示,这些修改显着提高了GPU的利用率和吞吐量
具体来说,团队提出的方法可以在8×A100 GPU上以3小时/epoch的速度完成全参数训练,而LoRA微调后每epoch只需1小时。
在使用AdamW优化器训练模型时,批大小为64,学习率设置为1×10^-5,权重衰减为0.1。
超精细评测基准MagnifierBench
人类视觉系统可以自然地感知视野内物体的细节,但目前用于测试LMM的基准并没有特别侧重于评估这方面的能力。
随着Fuyu和OtterHD模型的出现,我们第一次将输入图像的分辨率扩展到了更大的范围。
为此,团队基于Panoptic Scene Graph Generation(PVSG)数据集,制作了一个涵盖166幅图像共283组问题的全新测试基准MagnifierBench。
PVSG数据集由视频数据组成,其中包含大量杂乱无章的复杂场景,尤其是第一人称的家务视频。
在标注阶段,团队仔细检查了数据集中的每个问题-答案对,剔除了那些涉及大型物体,或者很容易用常识性知识回答的问题。例如,遥控器大多都是黑的,很容易猜到,而红黄等颜色则不在此列。
如图3所示,MagnifierBench设计的问题类型包括识别、数字、颜色相关问题等。该数据集的一个重要标准是,问题必须足够复杂,就连标注者都必须在全屏模式下,甚至放大图像才能准确回答
与简短的回答相比,LMM更擅长在对话环境中生成扩展的回答。
- 多选题
这个模型面临的问题是有多个选项可以选择。为了引导模型选择一个字母(如A、B、C)作为答案,团队在问题前加上了给定选项中的字母作为提示。在这种情况下,只有完全符合正确选项的答案才被视为正确答案
- 开放题
多个选项会简化任务,因为随机猜测有25%的正确率。此外,这并不能反映聊天助手所面临的真实场景,因为用户通常不会向模型提供预定义的选项。为了消除这种潜在的偏差,团队还以直截了当、不设任何提示选项的开放式方式向模型提出问题。
实验分析
研究结果表明,虽然很多模型在MME和POPE等既定基准上取得了高分,但它们在MagnifierBench上的表现却往往不尽如人意。另一方面,OtterHD-8B在MagnifierBench上表现出色。
团队为了进一步探索提高分辨率的效果,以及测试OtterHD在不同、可能更高的分辨率下的泛化能力,通过使用固定或动态分辨率对Otter8B进行了训练
x轴表明,随着分辨率的提高,会有更多的图像token被发送到语言解码器,从而提供了更多的图像细节。
实验结果表明,随着分辨率的提高,MagnifierBench的性能也在相应提升
随着分辨率的提高,图像与文本的比例逐渐增大。这是因为平均文本的token数保持不变
这一变化突出了LMM分辨率的重要性,尤其是对于需要复杂视觉关联的任务。
此外,固定训练方法和动态训练方法之间的性能差异凸显了动态调整大小的优势,尤其是防止特定分辨率的过拟合。
动态策略还有一个优点,就是可以让模型适应更高的分辨率(1440),即使在训练期间没有见过
一些对比
结论
基于Fuyu-8B的创新架构,研究团队提出了OtterHD-8B模型,它可以有效处理各种分辨率的图像,并摆脱了大多数LMM中固定分辨率输入的限制
与此同时,OtterHD-8B在处理高分辨率图像方面表现出色
在新的MagnifierBench基准测试中,这一点变得尤为明显。该基准测试的目的是评估LMM在复杂场景中识别细节的能力,突出了对不同分辨率更加灵活支持的重要性
以上是通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,
