教ChatGPT学会看图的方法来了
2022年流行“文生图”模型,那2023年流行什么?
机器学习工程师Daniel Bourke的答案是:反过来!
这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。
不仅是基础的“看图说话”功能,写情诗、讲解剧情、给图片中对象设计对话等等,这个AI都拿捏得稳稳的!
比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材和做菜步骤:
甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。
当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!
这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。
最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型。
有网友已经在畅想把接口换成ChatGPT后的强强组合了。
作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。
那么,BLIP-2神奇的地方还有哪些?一起往下看。
理解能力一流
BLIP-2的玩法可以说非常多样了。
只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。
举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:
中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。
给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。
在对人类神态的拿捏上,BLIP-2同样把握得非常准确。
被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。
更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。
让它根据下面的图片写一句浪漫的话:
它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。
这不光理解能力满分,文学造诣也相当强啊!
让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:
猫: 嘿,狗狗,我能骑在你背上吗?
狗: 当然,为什么不呢?
猫: 我已经厌倦了在雪地里行走。
那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?
多项视觉语言任务上实现新SOTA
考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:
从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。
这也意味着,每个人都可以选择自己想用的模型接入使用。
而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。
该Transformer分两个阶段进行预训练:
第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。
为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。
最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。
其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。
而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。
值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:
每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。
研究团队
BLIP-2的研究团队来自Salesforce Research。
第一作者为Junnan Li,他也是一年前推出的BLIP的一作。
目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。
研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。
以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~
论文链接:https://arxiv.org/pdf/2301.12597.pdf
GitHub链接:https://github.com/salesforce/LAVIS/tree/main/projects/blip2
参考链接:[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107
以上是教ChatGPT学会看图的方法来了的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DALL-E 3 于 2023 年 9 月正式推出,是比其前身大幅改进的型号。它被认为是迄今为止最好的人工智能图像生成器之一,能够创建具有复杂细节的图像。然而,在推出时,它不包括

番茄小说是一款非常热门的小说阅读软件,我们在番茄小说中经常会有新的小说和漫画可以去阅读,每一本小说和漫画都很有意思,很多小伙伴也想着要去写小说来赚取赚取零花钱,在把自己想要写的小说内容编辑成文字,那么我们要怎么样在这里面去写小说呢?小伙伴们都不知道,那就让我们一起到本站本站中花点时间来看写小说的方法介绍吧。分享番茄小说写小说方法教程 1、首先在手机上打开番茄免费小说app,点击个人中心——作家中心 2、跳转到番茄作家助手页面——点击创建新书在小说的结

七彩虹主板在中国国内市场享有较高的知名度和市场占有率,但是有些七彩虹主板的用户还不清楚怎么进入bios进行设置呢?针对这一情况,小编专门为大家带来了两种进入七彩虹主板bios的方法,快来试试吧! 方法一:使用u盘启动快捷键直接进入u盘装系统 七彩虹主板一键启动u盘的快捷键是ESC或F11,首先使用黑鲨装机大师制作一个黑鲨U盘启动盘,然后开启电脑,当看到开机画面的时候,连续按下键盘上的ESC或F11键以后将会进入到一个启动项顺序选择的窗口,将光标移动到显示“USB”的地方,然

而后悔莫及、人们常常会因为一些原因不小心将某些联系人删除、微信作为一款广泛使用的社交软件。帮助用户解决这一问题,本文将介绍如何通过简单的方法找回被删除的联系人。1.了解微信联系人删除机制这为我们找回被删除的联系人提供了可能性、微信中的联系人删除机制是将其从通讯录中移除,但并未完全删除。2.使用微信内置“通讯录恢复”功能微信提供了“通讯录恢复”节省时间和精力,用户可以通过该功能快速找回之前被删除的联系人,功能。3.进入微信设置页面点击右下角,打开微信应用“我”再点击右上角设置图标、进入设置页面,,

手机游戏成为了人们生活中不可或缺的一部分,随着科技的发展。它以其可爱的龙蛋形象和有趣的孵化过程吸引了众多玩家的关注,而其中一款备受瞩目的游戏就是手机版龙蛋。帮助玩家们在游戏中更好地培养和成长自己的小龙,本文将向大家介绍手机版龙蛋的孵化方法。1.选择合适的龙蛋种类玩家需要仔细选择自己喜欢并且适合自己的龙蛋种类,根据游戏中提供的不同种类的龙蛋属性和能力。2.提升孵化机的等级玩家需要通过完成任务和收集道具来提升孵化机的等级,孵化机的等级决定了孵化速度和孵化成功率。3.收集孵化所需的资源玩家需要在游戏中

字体大小的设置成为了一项重要的个性化需求,随着手机成为人们日常生活的重要工具。以满足不同用户的需求、本文将介绍如何通过简单的操作,提升手机使用体验,调整手机字体大小。为什么需要调整手机字体大小-调整字体大小可以使文字更清晰易读-适合不同年龄段用户的阅读需求-方便视力不佳的用户使用手机系统自带字体大小设置功能-如何进入系统设置界面-在设置界面中找到并进入"显示"选项-找到"字体大小"选项并进行调整第三方应用调整字体大小-下载并安装支持字体大小调整的应用程序-打开应用程序并进入相关设置界面-根据个人

在当今社会,手机已经成为我们生活中不可或缺的一部分。而微信作为我们日常沟通、工作、生活的重要工具,更是经常被使用。然而,在处理不同事务时可能需要分开两个微信账号,这就要求手机能够支持同时登录两个微信账号。华为手机作为国内知名品牌,很多人使用,那么华为手机开启两个微信账号的方法是怎样的呢?下面就来揭秘一下这个方法。首先,要在华为手机上同时使用两个微信账号,最简

Go语言方法与函数的区别在于与结构体的关联性:方法与结构体关联,用于操作结构体数据或方法;函数独立于类型,用于执行通用操作。
