目录
跨模态任务上达到新SOTA
小模型+大模型
研究团队
首页 科技周边 人工智能 杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源

杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源

Mar 31, 2023 pm 10:42 PM
ai 论文

目前该论文已经被CVPR2023接收。

能读图的GPT-4震撼发布了!但要用它还得排队。。。

不如先试试这个~

加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。

并且训练这个小模型单卡(一块RTX 3090)就能搞定。

效果呢,直接看图。

比如说,给训练后的GPT-3输入一张“音乐现场”的图片,问它:现场在举办什么活动?

图片

毫不迟疑,GPT-3给出了音乐会的答案。

再来加点难度,再给GPT-3酱紫的一张照片,让它来分辨照片中的帘子是什么类型的材质。

图片

GPT-3:蕾丝

Bingo!(看来是有点儿东西在身上的)

这个方法呢,是杭州电子科技大学和合肥工业大学的一个团队的最新成果:Prophet,半年前他们就已经着手进行这项工作。

论文一作是杭电研究生邵镇炜,他在1岁那年被诊断患有“进行性脊肌萎缩症”,高考时遗憾与浙大擦肩,选择了离家近的杭州电子科技大学。

目前该论文已经被CVPR2023接收。

图片

跨模态任务上达到新SOTA

话不多说,直接来看在Prophet这种方法的加持下GPT-3的读图能力。

我们先来看看它在数据集上的测试结果。

研究团队在两个基于外部知识的视觉问答数据集OK-VQA和A-OKVQA测试了Prophet,均创造了新SOTA

图片

图片

更具体点,在OK-VQA数据集上,和Deepmind的拥有80B参数的大模型Flamingo对比,Prophet达到了61.1%的准确率,成功击败Flamingo(57.8%)。

并且在所需要的算力资源上,Prophet也是“吊打”Flamingo。

Flamingo-80B需要在1536块TPUv4显卡上训练15天,而Prophet只需要一块RTX-3090显卡训练VQA模型4天,再调用一定次数的OpenAI API即可。

图片

其实,类似Prophet这种帮助GPT-3处理跨模态任务的方法之前也有,比如说PICa,以及之后的KAT和REVIVE。

不过它们在一些细节问题的处理中,可能就不尽如人意。

举个栗子,让它们一起读下面这张图,然后回答问题:图片中的树会结什么水果?

图片

而PICa、KAT和REVIVE从图片中提取到的信息只有:一群人在广场上走路,完全忽略掉了后面还有一颗椰子树。最终给出的答案也只能靠瞎猜。

而Prophet这边,就不会出现这种情况,它解决了上述方法提取图片信息不充分的问题,进一步激发了GPT-3的潜能。

图片

那Prophet是怎么做的呢?

小模型+大模型

有效提取信息,并准确回答问题,能做到这些Prophet依赖的是它独特的两阶段框架

这两个阶段也分工明确:

  • 第一阶段:根据问题给出一些具有启发性的答案;
  • 第二阶段:这些答案会缩一些范围,使GPT-3有充分的空间发挥潜能。

首先是第一阶段,研究团队针对特定的外部知识VQA数据集训练了一个改进的MCAN模型(一个VQA模型)。

训练好模型后,从中提取两种具有启发性的答案:答案候选和答案感知示例。

其中,答案候选是以模型分类层输出的置信度为依据对答案进行排序,选取里面的top10。

答案感知示例时指,将模型分类层之前的特征作为样本的潜在答案特征,这个特征空间中最相近的标注样本。

图片

接下来就是第二阶段,这一步相对来说就很简单粗暴了。

讲上一步得到的“启发性答案”组织到prompt中,然后再将prompt输入给GPT-3,在一定的提示之下完成视觉问答问题。

不过虽然上一步已经给出一些答案提示,但这并不意味着GPT-3就要局限在这些答案中。

若提示给出的答案置信度太低或者正确答案并不在那些提示中,GPT-3完全完全有可能生成新的答案。

图片

研究团队

当然,除了研究成果外,这项研究背后的团队也不得不提。

第一作者邵镇炜在1岁时就确诊“进行性脊肌萎缩症”,是肢体一级残疾,没有生活自理能力,生活和学习需要母亲的全程照顾。

图片

不过虽然身体受限,但邵镇炜对知识的渴求并没有减弱。

2017年高考他拿下644分的高分,以第一名的成绩被杭州电子科技大学计算机专业录取。

期间还获得2018年中国大学生自强之星、2020年度国家奖学金和2021年度浙江省优秀毕业生等荣誉。

本科期间,邵镇炜就已经开始跟着余宙教授进行科研活动。

2021年,邵镇炜在准备研究生推免时与浙大擦肩,于是留校加入了余宙教授课题组攻读硕士研究生,目前他在读研二,研究方向是跨模态学习。

余宙教授则是本次研究论文的二作以及通讯作者,他是杭电计算机学院最年轻的教授,教育部“复杂系统建模与仿真”实验室副主任。

长期以来,余宙专攻多模态智能方向,曾带领研究团队多次获得国际视觉问答挑战赛VQA Challenge的冠亚军。

图片

研究团队的大部分成员都在杭电媒体智能实验室(MIL)。

该实验室由国家杰青俞俊教授负责,近年来实验室围绕多模态学习方向发表一系列高水平期刊会议论文(TPAMI、IJCV、CVPR等),多次获得IEEE期刊会议的最佳论文奖。

实验室主持国家重点研发计划、国家自然科学基金重点项目等国家级项目20余项,曾获得过浙江省自然科学一等奖,教育自然科学二等奖。

以上是杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。 WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨链交易什么意思?跨链交易所有哪些? 跨链交易什么意思?跨链交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括:1.市场需求增加,2.供应量减少,3.利好消息刺激,4.市场情绪乐观,5.宏观经济环境;下降因素包括:1.市场需求减少,2.供应量增加,3.利空消息打击,4.市场情绪悲观,5.宏观经济环境。

混合型区块链交易平台有哪些 混合型区块链交易平台有哪些 Apr 21, 2025 pm 11:36 PM

选择加密货币交易所的建议:1. 流动性需求,优先选择币安、Gate.io或OKX,因其订单深度与抗波动能力强。2. 合规与安全,Coinbase、Kraken、Gemini具备严格监管背书。3. 创新功能,KuCoin的软质押和Bybit的衍生品设计适合进阶用户。

如何在币安拿下 KERNEL 空投奖励 全流程攻略 如何在币安拿下 KERNEL 空投奖励 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里,新机遇总是不断涌现。当下,KernelDAO (KERNEL) 空投活动正备受瞩目,吸引着众多投资者的目光。那么,这个项目究竟是什么来头?BNB Holder 又能从中获得怎样的好处?别急,下面将为你一一揭晓。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议,已为AAVEDAO实现了一个法定人数。AAVE连锁计划(ACI)创始人马克·泽勒(MarcZeller)在X上宣布了这一点,并指出它标志着该协议的新时代。AAVE连锁倡议(ACI)创始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE协议令牌和引入令牌回购,已为AAVEDAO实现了法定人数。根据Zeller的说法,这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议,即在周三以每周100

比特币成品结构分析图是啥?怎么画? 比特币成品结构分析图是啥?怎么画? Apr 21, 2025 pm 07:42 PM

绘制比特币结构分析图的步骤包括:1. 确定绘图目的与受众,2. 选择合适的工具,3. 设计框架并填充核心组件,4. 参考现有模板。完整的步骤确保图表准确且易于理解。

币圈行情实时数据免费平台推荐前十名发布 币圈行情实时数据免费平台推荐前十名发布 Apr 22, 2025 am 08:12 AM

适合新手的加密货币数据平台有CoinMarketCap和非小号。1. CoinMarketCap提供全球加密货币实时价格、市值、交易量排名,适合新手与基础分析需求。2. 非小号提供中文友好界面,适合中文用户快速筛选低风险潜力项目。

See all articles