轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析 PDF、网页、海报、Excel 图表内容的大模型,对于打工人来说简直不要太方便。
上海 AI Lab,香港中文大学等研究机构提出的 InternLM-XComposer2-4KHD(简写为 IXC2-4KHD)模型让这成为了现实。
相比于其他多模态大模型不超过 1500x1500 的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过 4K (3840 x1600)分辨率,并支持任意长宽比和 336 像素~4K 动态分辨率变化。
发布三天,该模型就登顶 Hugging Face 视觉问答模型热度榜单第一。
轻松拿捏 4K 图像理解
先来看效果 ~
研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为 2550x3300),并询问论文哪个模型在 MMBench 上的性能最高。
需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD 成功理解了雷达图中的信息,正确回答问题。
面对更加极端分辨率的图像输入(816 x 5133),IXC2-4KHD 轻松理解图像包括 7 个部分,并准确说明了每个部分包含的文字信息内容。
随后,研究人员还在 16 项多模态大模型评测指标上全面测试了 IXC2-4KHD 的能力,其中 5 项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。
仅仅使用 7B 参数量,IXC2-4KHD 在其中 10 项评测取得了媲美甚至超越 GPT4V 和 Gemini Pro 的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。
△仅 7B 参数量的 IXC2-4KHD 性能媲美 GPT-4V 和 Gemini-Pro 如何实现 4K 动态分辨率?
为了实现 4K 动态分辨率的目标,IXC2-4KHD 包括了三个主要设计:
(1)动态分辨率训练:
△4K 分辨率图像处理策略
在 IXC2-4KHD 的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过 55x336x336,等价于 3840 x1617 分辨率)的一个中间尺寸。
随后,图像被自动切块成多个 336x336 的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。
实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在 4K 分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。
(2)添加切块布局信息:
为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’ n ’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9 代表切块区域个数不超过 9)影响不大,而对于动态 4K 分辨率训练则可以带来显著的性能提升。
(3)推理阶段扩展分辨率
研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将 HD9(最多 9 块)的训练模型直接使用 HD16 进行测试,可以在 InfographicVQA 上观察到高达 8% 的性能提升。
IXC2-4KHD 将多模态大模型支持的分辨率提升到了 4K 的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。
论文链接:
https://arxiv.org/pdf/2404.06512.pdf
项目链接:
https://github.com/InternLM/InternLM-XComposer
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
以上是轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Go语言中用于浮点数运算的库介绍在Go语言(也称为Golang)中,进行浮点数的加减乘除运算时,如何确保精度是�...

GiteePages静态网站部署失败:404错误排查与解决在使用Gitee...

运行 H5 项目需要以下步骤:安装 Web 服务器、Node.js、开发工具等必要工具。搭建开发环境,创建项目文件夹、初始化项目、编写代码。启动开发服务器,使用命令行运行命令。在浏览器中预览项目,输入开发服务器 URL。发布项目,优化代码、部署项目、设置 Web 服务器配置。

Go语言中哪些库是大公司开发或知名开源项目?在使用Go语言进行编程时,开发者常常会遇到一些常见的需求,�...

在BeegoORM框架下,如何指定模型关联的数据库?许多Beego项目需要同时操作多个数据库。当使用Beego...

H5页面需要持续维护,这是因为代码漏洞、浏览器兼容性、性能优化、安全更新和用户体验提升等因素。有效维护的方法包括建立完善的测试体系、使用版本控制工具、定期监控页面性能、收集用户反馈和制定维护计划。

Go语言中使用RedisStream实现消息队列时类型转换问题在使用Go语言与Redis...

Python入门:沙漏图形绘制及输入校验本文将解决一个Python新手在沙漏图形绘制程序中遇到的变量定义问题。代码...
