多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页
多模态大模型最全综述来了!
由微软7位华人研究员撰写,足足119页——
它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:
- 视觉理解
- 视觉生成
- 统一视觉模型
- LLM加持的多模态大模型
- 多模态agent
并重点关注到一个现象:
多模态基础模型已经从专用走向通用。
Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象。
谁适合阅读这份综述(报告)?
用微软的原话来说:
只要你有兴趣学习多模态基础模型的基础知识和最新进展,无论你是专业研究员还是在校学生,这个内容都非常适合你
一起来看看~
一文摸清多模态大模型现状
这五个具体主题中的前两个是目前已经成熟的领域,而后三个则属于前沿领域
1、视觉理解
这部分的核心问题是如何预训练一个强大的图像理解backbone。
如下图所示,根据用于训练模型的监督信号的不同,我们可以将方法分为三类:
标签监督、语言监督(以CLIP为代表)和只有图像的自监督。
其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。
除了这些方法之外,文章还进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法
还列出了以上这些方法各自的代表作品。
2、视觉生成
这个主题是AIGC的核心,不限于图像生成,还包括视频、3D点云图等等。
并且它的用处不止于艺术、设计等领域——还非常有助于合成训练数据,直接帮助我们实现多模态内容理解和生成的闭环。
在这部分,作者重点讨论了生成与人类意图严格一致的效果的重要性和方法(重点是图像生成)。
具体则从空间可控生成、基于文本再编辑、更好地遵循文本提示和生成概念定制(concept customization)四个方面展开。
在本节的结尾,作者还分享了他们对目前研究趋势和即将展开的研究方向的观点
为了更好地遵循人类的意图并使上述四个方向都能够更加灵活和可替代,我们需要开发一个通用的文生成模型
列举了四个方向的各自代表作如下:
3、统一视觉模型
这部分内容探讨了构建统一视觉模型所面临的挑战:
需要进行改写的内容是:首先,输入类型不同;
需要进行改写的内容是:其次,不同的任务需要采用不同的细粒度,并且输出也要求采用不同的格式;
数据也面临挑战,除了建模之外
比如不同类型的标签注释成本差异很大,收集成本比文本数据高得多,这导致视觉数据的规模通常比文本语料库小得多。
不过,尽管挑战多多,作者指出:
CV领域对于开发通用、统一的视觉系统的兴趣是越来越高涨,还衍生出来三类趋势:
一是从闭集(closed-set)到开集(open-set),它可以更好地将文本和视觉匹配起来。
从特定任务到通用能力的转变最重要的原因是为每个新任务开发一个新模型的成本太高
三是从静态模型到可提示模型,LLM可以采用不同的语言和上下文提示作为输入,并在不进行微调的情况下产生用户想要的输出。我们要打造的通用视觉模型应该具有相同的上下文学习能力。
4、LLM加持的多模态大模型
本节全面探讨多模态大模型。
先是深入研究背景和代表实例,并讨论OpenAI的多模态研究进展,确定该领域现有的研究空白。
接下来作者详细考察了大语言模型中指令微调的重要性。
再接着,作者探讨了多模态大模型中的指令微调工作,包括原理、意义和应用。
最后,我们还将涉及一些多模态模型领域中的高级主题,以便更深入地了解,其中包括:
更多超越视觉和语言的模态、多模态的上下文学习、参数高效训练以及Benchmark等内容。
5、多模态agent
所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。
这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异。
以MM-REACT为例,我们将详细介绍这种方法的具体运作方式
我们进一步总结了如何构建多模态代理的全面方法,以及它在多模态理解方面的新兴能力。同时,我们还介绍了如何轻松地扩展这种能力,包括最新、最强大的LLM和潜在的数百万种工具
当然,最后也是一些高阶主题讨论,包括如何改进/评估多多模态agent,由它建成的各种应用程序等。
作者介绍
这份报告共有7位作者
发起人和整体负责人为Chunyuan Li。
他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为CV和NLP中的大规模预训练。
他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写。 重写后的内容:他负责撰写了文章的开头介绍和结尾总结,以及关于“利用LLM训练的多模态大模型”这一章的部分
核心作者共有4位:
- Zhe Gan
目前已进入Apple AI/ML工作,负责大规模视觉和多模态基础模型研究。此前是Microsoft Azure AI的首席研究员,北大本硕毕业,杜克大学博士毕业。
- Zhengyuan Yang
他是微软的高级研究员,毕业于罗切斯特大学并获得了ACM SIGMM杰出博士奖等荣誉。他本科就读于中国科学技术大学
- Jianwei Yang
微软雷德蒙德研究院深度学习小组首席研究员。佐治亚理工学院博士毕业。
- Linjie Li(女)
Microsoft Cloud & AI计算机视觉组研究员,普渡大学硕士毕业。
他们分别负责了剩下四个主题章节的撰写。
综述地址:https://arxiv.org/abs/2309.10020
以上是多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如果您需要了解如何在Excel中使用具有多个条件的筛选功能,以下教程将指导您完成相应步骤,确保您可以有效地对数据进行筛选和排序。Excel的筛选功能是非常强大的,能够帮助您从大量数据中提取所需的信息。这个功能可以根据您设定的条件,过滤数据并只显示符合条件的部分,让数据的管理变得更加高效。通过使用筛选功能,您可以快速找到目标数据,节省了查找和整理数据的时间。这个功能不仅可以应用在简单的数据列表上,还可以根据多个条件进行筛选,帮助您更精准地定位所需信息。总的来说,Excel的筛选功能是一个非常实用的

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

这周,由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资,计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑,今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的
